抽样与样本分配.docx
《抽样与样本分配.docx》由会员分享,可在线阅读,更多相关《抽样与样本分配.docx(9页珍藏版)》请在冰豆网上搜索。
抽样与样本分配
第8章抽樣與樣本分配
8.2抽樣(Sampling)
Census:
在調查(survey)時,試圖將母體的所有份子的資訊納入調查的範圍內。
Sampling:
只包含母體的部分份子的資訊。
使用樣本資料來推估母體的優點:
1.成本較低。
2.資料更容易掌握處理。
3.比較不耗費時間。
4.樣本之觀察可以相當準確。
5.即使在無法得到母體所有份子之資料時,仍可作統計分析。
因此,我們必須注意所使用的統計方法是否能夠提供豐富且有用的資訊。
再則,
樣本必須能充分的代表母體的特性。
抽樣試驗的兩種可能誤差:
1.抽樣誤差(SamplingErrors):
是母體統計值與樣本估計值之差距
當我們只用樣本來推論母體,卻無法得知母體參數時,此誤差極可能發生。
是隨機誤差(randomerrorsorchanceerrors):
即使是隨機抽樣,也有可能抽到極端值或與母體代表性不符的樣本,而影響樣本的估計值。
增加樣本數可降低此種誤差。
2.非抽樣誤差(NonsamplingErrors):
systematicerror(orbias)
因不正確的衡量單位所致,或
因樣本的選擇不恰當所致。
不會因樣本增加而降低其誤差。
有三類非抽樣誤差:
1.ErrorsinDataAcquisition:
計算器有問題、錯解資料、誤答(無論是有意還是無意者)、筆誤等,因此資料取得時已有錯誤。
2.NonresponseError:
問卷調查時,當受訪者不回覆時,便使樣本的代表性降低,嚴重時可能導致樣本估計偏離母體參數。
3.SelectionBias:
當抽樣時,某一部份的母體份子無法被抽中,而被排除於樣本之外的情形。
如:
現場call-in的民調。
為使樣本能充分代表母體,抽樣的方式非常重要,隨機抽樣能使樣本具備與母體相當的特性。
隨機抽樣(RandomSampling):
1.SimpleRandomSampling:
樣本之選擇是根據下述原則:
母體中的每一份子被抽中的機率是相同且互相獨立的,且不同的樣本組合若其樣本數相同,各組合被選出之機率亦相同。
DrawingfromaBox(withreplacement)
使用亂數表:
將母體編號後用亂數表製造由1到N的n+個編號,在根據此n個編號選出樣本。
2.StratifiedRandomSampling:
將母體分成互斥的集合(setorstrata),再由各集合中選出隨機樣本。
其目的在於比較不同集合中的參數是否有所不同,如按性別分、按年齡分、按職業分、按所得分等等。
注意:
各strata中樣本佔全樣本的比例必須與其母體的比例相同,這樣抽出的樣本才具備對母體的代表性。
3.ClusterSampling:
如果我們無法(或太耗費成本)將全部母體按strata來清楚分類(因無completelist),便可將母體分成幾個互斥的小群(groupsorclusters),再對各小群做隨機抽樣。
此作法將使抽樣誤差加大,這是因為各小群內可能在社會經濟條件上相當類似。
但這個問題可用增加樣本數來解決。
8.3抽樣成本與抽樣誤差
抽樣成本(SamplingCosts):
選擇樣本時必須負擔的成本會影響抽樣誤差(Samplingerrors)
樣本的大小(SampleSize)與其準確度:
→樣本越大(很可能使抽樣誤差越小),成本越高。
→用成本─利益分析法(Cost-BenefitAnalysis)來評判是否可以犧牲樣本的準確度(使抽樣誤差較大)以降低抽樣成本。
應用8.1:
製藥廠想測試去頭皮屑的洗髮精中的某重要成分,成分不夠就無效,成分太高會有調頭髮的後遺症,雖然其測試的精確度很重要,但要測試全部的製成品卻不可能(一旦拿去測試,產品就用掉了),只有抽樣,但仍須大樣本以降低抽樣誤差,以維護公司的商譽(有效且無副作用的製藥態度)。
應用8.2:
製造水泥之工廠想知道每一個50磅種的袋子是否混入一定數量的碎石子(因為這樣才可使其成品最耐用),但一點點誤差對其成品的耐用度影響不大,因此,廠商只需要小樣本來測試,且不需要極精確的結果,小樣本、偶爾才檢測,可為廠商省下不少成本。
一般而言,要求的結果越精確,可允許的樣本誤差越小,其統計分析的成本越高。
時間的限制:
若有deadline之限制,抽樣的數目就不可能太大。
例如:
大選前夕的民調,政府或公司需要一些經濟變數的數值來做立即的經濟決策(在第19章中會有一些例子與討論)。
例子:
Time/CNN對1000美國人與500日本人做電話訪問,發現66%的美國人及33%的日本人認為日本對美產品之進口有不公平待遇。
8.4樣本平均數的抽樣分配
抽樣分配(SamplingDistribution):
自母體中隨機抽樣出的一組數值的樣本統計值所構成的分配。
例8.1:
顯示樣本平均數受到抽樣大小之影響:
N=6,表8.2為母體:
工作經驗。
表8.3為n=2;表8.5為n=3;表8.7為n=4時的所有可能抽樣結果的樣本平均數值。
當n增大時,樣本平均數與樣本變異數隨之而改變。
樣本平均數的平均值與變異數:
X:
randomvariable
抽樣為withoutreplacement,若母體N大且樣本數n>0.05N時,(8.3;8.4)式必須加入一調整因數(Correctionfactor):
例8.3:
一班N=6個學生的成績點數:
1.5,2,3,3.5,4,5;μ=3.167σ=1.179
n=2,用(8.6)來求
與計算而得的樣本平均數之標準差近似。
例:
N非常大,所以n=25<0.05N,μ=90σ=15
用(8.2)(8.4)式求
例:
N=50,所以n=20>0.05N,μ=10σ=2
用(8.2)(8.6)式求
例:
若母體為常態分配或n≧30時,則隨機變數Z為標準常態分配:
(8.7)
應用8.3:
輪胎的使用壽命為常態分配:
μ=26,000milesσ=3,000miles
抽樣n=36
請問:
(用(8.2)(8.4)式及標準常態分配機率表)
請注意:
n越大時,
越小(記住:
不受n之影響)。
8.5樣本比例的抽樣分配
樣本比例(SampleProportion):
即樣本中成功的個數佔樣本的比例。
例如:
班上隨機抽樣30人,這次期中考得分在70分以上(包含70)的比例為何?
這是二項分配(BinomialDistribution):
記住:
二項分配的平均數與標準差如下:
那麼,樣本比例的平均數與標準差為何?
若n>0.05N,其標準差為:
若樣本夠大,如n>30,可用標準常態分配來求其機率:
例8.4:
計算不良晶片的機率
到貨量:
1000,抽樣50個,母體不良率:
0.25,請問:
別忘了:
用標準常態分配表求其機率。
8.6中央極限定理(CentralLimitTheorem)
在8.4節中我們發現:
1.若母體為常態分配,則樣本平均數的抽樣分配也是常態分配。
2.若母體很大,卻不是常態分配時,只要樣本數夠大,樣本平均數的分配也會趨近於常態分配。
這就是中央極限定理所要闡述者:
只要樣本數夠大,無論母體之分配為何,樣本平均數的抽樣分配會趨近於常態分配,且
中央極限定理的重要性:
1.讓我們在不知道母體分配的情況下也能分析其平均數的可能行為。
2.其可用於品管分析、投資分析、教育分析中。
例8.5:
中央極限定理
美國有5年教學經驗的行銷助理教授的年薪:
μ=$55,000σ=$4,000隨機抽樣n=50,請問:
請注意:
X為負偏態之分配,而
為趨近於常態分配。
8.7其他應用
應用8.4:
對某公司的查帳之抽樣
N=3000筆交易帳目,n=30,μ未知,可用樣本平均數來推論之。
信賴區間(ConfidenceInterval):
e.g.RuleofThumb
應用8.5:
病患的等待時間
SloanandLorant(1977)之研究得到:
μ=24.7minutesσ=19.3minutes
n=64個病人,根據中央極限定理,這些病人的平均等待時間趨近於常態分配,醫生可用此資料來決定其診所該如何有效的經營。
附錄8A:
均等母體分配的抽樣分配
母體為由0到1的均等分配,其pdf如圖8A.1所示,看不同的抽樣數目的大小對樣本平均數的抽樣分配有何影響:
(對每個n各抽40組樣本)
n=2,5,10,25,50
圖8A.2到8A.6是這5種不同樣本大小的樣本平均數的Histogram。
n=2,
=0.4458
=0.1927
n=5,
=0.4857
=0.1300
n=10,
=0.4776
=0.0890
n=25,
=0.48688
=0.06235
n=50,
=0.49650
=0.04414
由此例可得到兩個重要結論:
1.樣本由2增加到50時,其樣本平均數的Histogram趨近於倒鐘形(bell-shaped)之分配。
2.樣本增加使其樣本平均數的標準差大幅度地降低。
中央極限定理再一次被驗證。