抽样与样本分配.docx

上传人:b****8 文档编号:23851343 上传时间:2023-05-21 格式:DOCX 页数:9 大小:99.22KB
下载 相关 举报
抽样与样本分配.docx_第1页
第1页 / 共9页
抽样与样本分配.docx_第2页
第2页 / 共9页
抽样与样本分配.docx_第3页
第3页 / 共9页
抽样与样本分配.docx_第4页
第4页 / 共9页
抽样与样本分配.docx_第5页
第5页 / 共9页
点击查看更多>>
下载资源
资源描述

抽样与样本分配.docx

《抽样与样本分配.docx》由会员分享,可在线阅读,更多相关《抽样与样本分配.docx(9页珍藏版)》请在冰豆网上搜索。

抽样与样本分配.docx

抽样与样本分配

第8章抽樣與樣本分配

8.2抽樣(Sampling)

Census:

在調查(survey)時,試圖將母體的所有份子的資訊納入調查的範圍內。

Sampling:

只包含母體的部分份子的資訊。

使用樣本資料來推估母體的優點:

1.成本較低。

2.資料更容易掌握處理。

3.比較不耗費時間。

4.樣本之觀察可以相當準確。

5.即使在無法得到母體所有份子之資料時,仍可作統計分析。

因此,我們必須注意所使用的統計方法是否能夠提供豐富且有用的資訊。

再則,

樣本必須能充分的代表母體的特性。

抽樣試驗的兩種可能誤差:

1.抽樣誤差(SamplingErrors):

是母體統計值與樣本估計值之差距

當我們只用樣本來推論母體,卻無法得知母體參數時,此誤差極可能發生。

是隨機誤差(randomerrorsorchanceerrors):

即使是隨機抽樣,也有可能抽到極端值或與母體代表性不符的樣本,而影響樣本的估計值。

增加樣本數可降低此種誤差。

2.非抽樣誤差(NonsamplingErrors):

systematicerror(orbias)

因不正確的衡量單位所致,或

因樣本的選擇不恰當所致。

不會因樣本增加而降低其誤差。

有三類非抽樣誤差:

1.ErrorsinDataAcquisition:

計算器有問題、錯解資料、誤答(無論是有意還是無意者)、筆誤等,因此資料取得時已有錯誤。

2.NonresponseError:

問卷調查時,當受訪者不回覆時,便使樣本的代表性降低,嚴重時可能導致樣本估計偏離母體參數。

3.SelectionBias:

當抽樣時,某一部份的母體份子無法被抽中,而被排除於樣本之外的情形。

如:

現場call-in的民調。

為使樣本能充分代表母體,抽樣的方式非常重要,隨機抽樣能使樣本具備與母體相當的特性。

隨機抽樣(RandomSampling):

1.SimpleRandomSampling:

樣本之選擇是根據下述原則:

母體中的每一份子被抽中的機率是相同且互相獨立的,且不同的樣本組合若其樣本數相同,各組合被選出之機率亦相同。

DrawingfromaBox(withreplacement)

使用亂數表:

將母體編號後用亂數表製造由1到N的n+個編號,在根據此n個編號選出樣本。

2.StratifiedRandomSampling:

將母體分成互斥的集合(setorstrata),再由各集合中選出隨機樣本。

其目的在於比較不同集合中的參數是否有所不同,如按性別分、按年齡分、按職業分、按所得分等等。

注意:

各strata中樣本佔全樣本的比例必須與其母體的比例相同,這樣抽出的樣本才具備對母體的代表性。

3.ClusterSampling:

如果我們無法(或太耗費成本)將全部母體按strata來清楚分類(因無completelist),便可將母體分成幾個互斥的小群(groupsorclusters),再對各小群做隨機抽樣。

此作法將使抽樣誤差加大,這是因為各小群內可能在社會經濟條件上相當類似。

但這個問題可用增加樣本數來解決。

 

8.3抽樣成本與抽樣誤差

抽樣成本(SamplingCosts):

選擇樣本時必須負擔的成本會影響抽樣誤差(Samplingerrors)

樣本的大小(SampleSize)與其準確度:

→樣本越大(很可能使抽樣誤差越小),成本越高。

→用成本─利益分析法(Cost-BenefitAnalysis)來評判是否可以犧牲樣本的準確度(使抽樣誤差較大)以降低抽樣成本。

應用8.1:

製藥廠想測試去頭皮屑的洗髮精中的某重要成分,成分不夠就無效,成分太高會有調頭髮的後遺症,雖然其測試的精確度很重要,但要測試全部的製成品卻不可能(一旦拿去測試,產品就用掉了),只有抽樣,但仍須大樣本以降低抽樣誤差,以維護公司的商譽(有效且無副作用的製藥態度)。

應用8.2:

製造水泥之工廠想知道每一個50磅種的袋子是否混入一定數量的碎石子(因為這樣才可使其成品最耐用),但一點點誤差對其成品的耐用度影響不大,因此,廠商只需要小樣本來測試,且不需要極精確的結果,小樣本、偶爾才檢測,可為廠商省下不少成本。

一般而言,要求的結果越精確,可允許的樣本誤差越小,其統計分析的成本越高。

時間的限制:

若有deadline之限制,抽樣的數目就不可能太大。

例如:

大選前夕的民調,政府或公司需要一些經濟變數的數值來做立即的經濟決策(在第19章中會有一些例子與討論)。

例子:

Time/CNN對1000美國人與500日本人做電話訪問,發現66%的美國人及33%的日本人認為日本對美產品之進口有不公平待遇。

8.4樣本平均數的抽樣分配

抽樣分配(SamplingDistribution):

自母體中隨機抽樣出的一組數值的樣本統計值所構成的分配。

例8.1:

顯示樣本平均數受到抽樣大小之影響:

N=6,表8.2為母體:

工作經驗。

表8.3為n=2;表8.5為n=3;表8.7為n=4時的所有可能抽樣結果的樣本平均數值。

當n增大時,樣本平均數與樣本變異數隨之而改變。

樣本平均數的平均值與變異數:

X:

randomvariable

抽樣為withoutreplacement,若母體N大且樣本數n>0.05N時,(8.3;8.4)式必須加入一調整因數(Correctionfactor):

例8.3:

一班N=6個學生的成績點數:

1.5,2,3,3.5,4,5;μ=3.167σ=1.179

n=2,用(8.6)來求

與計算而得的樣本平均數之標準差近似。

例:

N非常大,所以n=25<0.05N,μ=90σ=15

用(8.2)(8.4)式求

例:

N=50,所以n=20>0.05N,μ=10σ=2

用(8.2)(8.6)式求

例:

若母體為常態分配或n≧30時,則隨機變數Z為標準常態分配:

(8.7)

應用8.3:

輪胎的使用壽命為常態分配:

μ=26,000milesσ=3,000miles

抽樣n=36

請問:

(用(8.2)(8.4)式及標準常態分配機率表)

請注意:

n越大時,

越小(記住:

不受n之影響)。

 

8.5樣本比例的抽樣分配

樣本比例(SampleProportion):

即樣本中成功的個數佔樣本的比例。

例如:

班上隨機抽樣30人,這次期中考得分在70分以上(包含70)的比例為何?

這是二項分配(BinomialDistribution):

記住:

二項分配的平均數與標準差如下:

那麼,樣本比例的平均數與標準差為何?

若n>0.05N,其標準差為:

若樣本夠大,如n>30,可用標準常態分配來求其機率:

例8.4:

計算不良晶片的機率

到貨量:

1000,抽樣50個,母體不良率:

0.25,請問:

別忘了:

用標準常態分配表求其機率。

 

8.6中央極限定理(CentralLimitTheorem)

在8.4節中我們發現:

1.若母體為常態分配,則樣本平均數的抽樣分配也是常態分配。

2.若母體很大,卻不是常態分配時,只要樣本數夠大,樣本平均數的分配也會趨近於常態分配。

這就是中央極限定理所要闡述者:

只要樣本數夠大,無論母體之分配為何,樣本平均數的抽樣分配會趨近於常態分配,且

中央極限定理的重要性:

1.讓我們在不知道母體分配的情況下也能分析其平均數的可能行為。

2.其可用於品管分析、投資分析、教育分析中。

例8.5:

中央極限定理

美國有5年教學經驗的行銷助理教授的年薪:

μ=$55,000σ=$4,000隨機抽樣n=50,請問:

請注意:

X為負偏態之分配,而

為趨近於常態分配。

 

8.7其他應用

應用8.4:

對某公司的查帳之抽樣

N=3000筆交易帳目,n=30,μ未知,可用樣本平均數來推論之。

信賴區間(ConfidenceInterval):

e.g.RuleofThumb

應用8.5:

病患的等待時間

SloanandLorant(1977)之研究得到:

μ=24.7minutesσ=19.3minutes

n=64個病人,根據中央極限定理,這些病人的平均等待時間趨近於常態分配,醫生可用此資料來決定其診所該如何有效的經營。

附錄8A:

均等母體分配的抽樣分配

母體為由0到1的均等分配,其pdf如圖8A.1所示,看不同的抽樣數目的大小對樣本平均數的抽樣分配有何影響:

(對每個n各抽40組樣本)

n=2,5,10,25,50

圖8A.2到8A.6是這5種不同樣本大小的樣本平均數的Histogram。

n=2,

=0.4458

=0.1927

n=5,

=0.4857

=0.1300

n=10,

=0.4776

=0.0890

n=25,

=0.48688

=0.06235

n=50,

=0.49650

=0.04414

由此例可得到兩個重要結論:

1.樣本由2增加到50時,其樣本平均數的Histogram趨近於倒鐘形(bell-shaped)之分配。

2.樣本增加使其樣本平均數的標準差大幅度地降低。

中央極限定理再一次被驗證。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高中教育 > 语文

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1