抽样与样本分配.docx

资源描述

抽样与样本分配.docx

《抽样与样本分配.docx》由会员分享，可在线阅读，更多相关《抽样与样本分配.docx（9页珍藏版）》请在冰豆网上搜索。

抽样与样本分配.docx

抽样与样本分配

第8章抽樣與樣本分配

8.2抽樣（Sampling）

Census:

在調查（survey）時，試圖將母體的所有份子的資訊納入調查的範圍內。

Sampling:

只包含母體的部分份子的資訊。

使用樣本資料來推估母體的優點：

1.成本較低。

2.資料更容易掌握處理。

3.比較不耗費時間。

4.樣本之觀察可以相當準確。

5.即使在無法得到母體所有份子之資料時，仍可作統計分析。

因此，我們必須注意所使用的統計方法是否能夠提供豐富且有用的資訊。

再則，

樣本必須能充分的代表母體的特性。

抽樣試驗的兩種可能誤差：

1.抽樣誤差（SamplingErrors）:

是母體統計值與樣本估計值之差距

當我們只用樣本來推論母體，卻無法得知母體參數時，此誤差極可能發生。

是隨機誤差（randomerrorsorchanceerrors）：

即使是隨機抽樣，也有可能抽到極端值或與母體代表性不符的樣本，而影響樣本的估計值。

增加樣本數可降低此種誤差。

2.非抽樣誤差（NonsamplingErrors）:

systematicerror（orbias）

因不正確的衡量單位所致，或

因樣本的選擇不恰當所致。

不會因樣本增加而降低其誤差。

有三類非抽樣誤差：

1.ErrorsinDataAcquisition:

計算器有問題、錯解資料、誤答（無論是有意還是無意者）、筆誤等，因此資料取得時已有錯誤。

2.NonresponseError:

問卷調查時，當受訪者不回覆時，便使樣本的代表性降低，嚴重時可能導致樣本估計偏離母體參數。

3.SelectionBias:

當抽樣時，某一部份的母體份子無法被抽中，而被排除於樣本之外的情形。

如：

現場call-in的民調。

為使樣本能充分代表母體，抽樣的方式非常重要，隨機抽樣能使樣本具備與母體相當的特性。

隨機抽樣（RandomSampling）：

1.SimpleRandomSampling:

樣本之選擇是根據下述原則：

母體中的每一份子被抽中的機率是相同且互相獨立的，且不同的樣本組合若其樣本數相同，各組合被選出之機率亦相同。

DrawingfromaBox（withreplacement）

使用亂數表：

將母體編號後用亂數表製造由1到N的n+個編號，在根據此n個編號選出樣本。

2.StratifiedRandomSampling:

將母體分成互斥的集合（setorstrata），再由各集合中選出隨機樣本。

其目的在於比較不同集合中的參數是否有所不同，如按性別分、按年齡分、按職業分、按所得分等等。

注意：

各strata中樣本佔全樣本的比例必須與其母體的比例相同，這樣抽出的樣本才具備對母體的代表性。

3.ClusterSampling:

如果我們無法（或太耗費成本）將全部母體按strata來清楚分類（因無completelist），便可將母體分成幾個互斥的小群（groupsorclusters），再對各小群做隨機抽樣。

此作法將使抽樣誤差加大，這是因為各小群內可能在社會經濟條件上相當類似。

但這個問題可用增加樣本數來解決。

8.3抽樣成本與抽樣誤差

抽樣成本（SamplingCosts）：

選擇樣本時必須負擔的成本會影響抽樣誤差（Samplingerrors）

樣本的大小（SampleSize）與其準確度：

→樣本越大（很可能使抽樣誤差越小），成本越高。

→用成本─利益分析法（Cost-BenefitAnalysis）來評判是否可以犧牲樣本的準確度（使抽樣誤差較大）以降低抽樣成本。

應用8.1：

製藥廠想測試去頭皮屑的洗髮精中的某重要成分，成分不夠就無效，成分太高會有調頭髮的後遺症，雖然其測試的精確度很重要，但要測試全部的製成品卻不可能（一旦拿去測試，產品就用掉了），只有抽樣，但仍須大樣本以降低抽樣誤差，以維護公司的商譽（有效且無副作用的製藥態度）。

應用8.2：

製造水泥之工廠想知道每一個50磅種的袋子是否混入一定數量的碎石子（因為這樣才可使其成品最耐用），但一點點誤差對其成品的耐用度影響不大，因此，廠商只需要小樣本來測試，且不需要極精確的結果，小樣本、偶爾才檢測，可為廠商省下不少成本。

一般而言，要求的結果越精確，可允許的樣本誤差越小，其統計分析的成本越高。

時間的限制：

若有deadline之限制，抽樣的數目就不可能太大。

例如：

大選前夕的民調，政府或公司需要一些經濟變數的數值來做立即的經濟決策（在第19章中會有一些例子與討論）。

例子：

Time/CNN對1000美國人與500日本人做電話訪問，發現66％的美國人及33％的日本人認為日本對美產品之進口有不公平待遇。

8.4樣本平均數的抽樣分配

抽樣分配（SamplingDistribution）：

自母體中隨機抽樣出的一組數值的樣本統計值所構成的分配。

例8.1：

顯示樣本平均數受到抽樣大小之影響：

N＝6，表8.2為母體：

工作經驗。

表8.3為n=2；表8.5為n=3；表8.7為n=4時的所有可能抽樣結果的樣本平均數值。

當n增大時，樣本平均數與樣本變異數隨之而改變。

樣本平均數的平均值與變異數：

randomvariable

抽樣為withoutreplacement，若母體N大且樣本數n＞0.05N時，（8.3;8.4）式必須加入一調整因數（Correctionfactor）：

例8.3：

一班N＝6個學生的成績點數：

1.5,2,3,3.5,4,5；μ=3.167σ=1.179

n=2,用（8.6）來求

與計算而得的樣本平均數之標準差近似。

例：

N非常大，所以n=25＜0.05N，μ=90σ=15

用（8.2）（8.4）式求

例：

N=50，所以n=20＞0.05N，μ=10σ=2

用（8.2）（8.6）式求

例：

若母體為常態分配或n≧30時，則隨機變數Z為標準常態分配：

（8.7）

應用8.3：

輪胎的使用壽命為常態分配：

μ=26,000milesσ=3,000miles

抽樣n=36

請問：

（用（8.2）（8.4）式及標準常態分配機率表）

請注意：

n越大時，

越小（記住：

不受n之影響）。

8.5樣本比例的抽樣分配

樣本比例（SampleProportion）：

即樣本中成功的個數佔樣本的比例。

例如：

班上隨機抽樣30人，這次期中考得分在70分以上（包含70）的比例為何？

這是二項分配（BinomialDistribution）：

記住：

二項分配的平均數與標準差如下：

那麼，樣本比例的平均數與標準差為何？

若n＞0.05N，其標準差為：

若樣本夠大，如n＞30，可用標準常態分配來求其機率：

例8.4：

計算不良晶片的機率

到貨量：

1000，抽樣50個，母體不良率：

0.25，請問：

別忘了：

用標準常態分配表求其機率。

8.6中央極限定理（CentralLimitTheorem）

在8.4節中我們發現：

1.若母體為常態分配，則樣本平均數的抽樣分配也是常態分配。

2.若母體很大，卻不是常態分配時，只要樣本數夠大，樣本平均數的分配也會趨近於常態分配。

這就是中央極限定理所要闡述者：

只要樣本數夠大，無論母體之分配為何，樣本平均數的抽樣分配會趨近於常態分配，且

中央極限定理的重要性：

1.讓我們在不知道母體分配的情況下也能分析其平均數的可能行為。

2.其可用於品管分析、投資分析、教育分析中。

例8.5：

中央極限定理

美國有5年教學經驗的行銷助理教授的年薪：

μ=$55,000σ=$4,000隨機抽樣n=50，請問：

請注意：

X為負偏態之分配，而

為趨近於常態分配。

8.7其他應用

應用8.4：

對某公司的查帳之抽樣

N=3000筆交易帳目,n=30，μ未知，可用樣本平均數來推論之。

信賴區間（ConfidenceInterval）:

e.g.RuleofThumb

應用8.5：

病患的等待時間

SloanandLorant（1977）之研究得到：

μ=24.7minutesσ=19.3minutes

n=64個病人，根據中央極限定理，這些病人的平均等待時間趨近於常態分配，醫生可用此資料來決定其診所該如何有效的經營。

附錄8A：

均等母體分配的抽樣分配

母體為由0到1的均等分配，其pdf如圖8A.1所示，看不同的抽樣數目的大小對樣本平均數的抽樣分配有何影響：

（對每個n各抽40組樣本）

n=2,5,10,25,50

圖8A.2到8A.6是這5種不同樣本大小的樣本平均數的Histogram。

n=2,

=0.4458

=0.1927

n=5,

=0.4857

=0.1300

n=10,

=0.4776

=0.0890

n=25,

=0.48688

=0.06235

n=50,

=0.49650

=0.04414

由此例可得到兩個重要結論：

1.樣本由2增加到50時，其樣本平均數的Histogram趨近於倒鐘形（bell-shaped）之分配。

2.樣本增加使其樣本平均數的標準差大幅度地降低。

中央極限定理再一次被驗證。

展开阅读全文