第六章抽样及抽样分配Word下载.docx
《第六章抽样及抽样分配Word下载.docx》由会员分享,可在线阅读,更多相关《第六章抽样及抽样分配Word下载.docx(10页珍藏版)》请在冰豆网上搜索。
但在社會科學的研究中,我們通常沒有足夠的經費或時間來收集許多不同或整個母群體(population)的資料。
因此,我們只有透過抽樣(有一定方法及步驟的)方式,由母群體中選擇出一部份來做研究。
此選出的部份即為樣本。
然後我們用推論統計,將樣本之特性推論到母群體之特性。
例如,了解樣本之平均數後,我們可以推論統計之方式,推測母群體之平均數為何。
母群體之各種特性(如平均數、標準差等),我們稱之為母數或參數(parameters)。
自然,我們可能一輩子都不知道實際真正的母數為何,但我們可以在一定的範圍內,推測這些母數。
推論統計之運用或任務有兩種。
一為從樣本之特性(已知)推測母群體之特性(未知),此為estimation(估計)之過程或工作。
二為做假設測定(hypothesistesting),此為先對母群做一些假設,然後透過分析樣本後得到的結果,來驗證及了解這些假設是否有效。
本單元則先談達成這些任務的基礎,包括抽樣(sampling),以及抽樣分配(samplingdistribution)的概念。
抽樣分配是瞭解推論統計的關鍵概念。
Statistic(樣本的特性)Parameter(母群體的特性)
透過Statistics推估
參、機率抽樣之方法(Techniquesforprobabilitysampling)
從母群體中抽取所謂「機率樣本」(probabilitysample)的方式很多。
但不論何種方式,都有一定之步驟,而不是任意去抽的,所謂隨機(random),並不是隨意。
當然,社會科學家也經常會用非機率樣本來做研究。
這種樣本雖然也有其功能,如做探索性的研究,也常比較容易或以低成本取得,但這類樣本最大的限制,是無法將由此類樣本得到的結果推論到抽樣所用之特定群體以外的群體。
不論機率抽樣(probabilitysampling)的方式為何,其目標是一樣的,就是抽得之樣本要能代其所來自的母群體,也就是要有表性(representative)。
例如,母群中有60%的人是女性,則機率樣本若有代表性,也應相當接近60%的人是女性。
確保樣本有代表性的的原則,也就是機率抽樣的基本原則是,如果抽樣的方式是以「均等機率之選取方式」(EqualProbabilityofSElectionMethod,簡稱EPSEM),則如此得到之樣本極可能有代表性。
需注意的是根據EPSEM之抽樣法和樣本是否有代表性是兩回事。
換言之,即使是透過EPSEM方法所得之樣本也不一定有代表性,但透過此法得到有代表性之樣本的可能性很高,而且研究者可以推估得到無代表性樣本的機率有多大。
※ 推論統計只能運用在以EPSEM方式得到之樣本上。
透過推論統計,我們可以了解或估計樣本之誤差(亦即了解樣本特性代表性之程度)。
肆、EPSEM抽樣方式
一、簡單隨機抽樣(simplerandomsampling;
SRS):
此抽樣法是最基本之EPSEM抽樣法,但亦常是最難做到的。
此抽樣法為將母群中每一元素或個案列成一名單,然後以一個保證讓每一件個案有均等機會被選為樣本的方式來抽選。
常用的作法之一是將每一個案都編成號(一個個案只有一個編號),然後利用亂數表(tablesofrandomnumbers)來選出需要之樣本數,如果某一編號被重複選擇了,要放棄此一選擇。
當然,今天我們可用電腦程式來做這種選擇。
二、系統抽樣(systematicsampling):
如果嚴格實施上述之簡單隨機抽樣,常常要花很多時間(特別是沒電腦時),因此我們常用系統抽樣方式來代替簡單隨機抽樣,此抽樣法只要求第一個樣本個案是利用亂數表取得,其他的樣本個案則是依次加上一定之抽樣間距取得。
抽樣間距是以母群體數除以所需樣本數(即母群數/樣本數)而得。
第一個樣本個案就是在此抽樣間距內依亂數取得,第二個樣本個案以下,即利用此抽樣間距來抽選。
如第一個抽得的是名單第13位,如母群數是10000,所需樣本是200,則間隔為10000/200=50,下一抽取之個案的編號即為63,再下一個為113,依次往下選出。
要注意的是系統抽樣時,母群之名單所列之元素不能有某種週期性或間隔之順序性,如名單中每第10人即為女性,則依10之倍數的間隔來抽,很可能抽到的都是女性。
3、分層抽樣(stratifiedsampling):
如果做研究時,我們對於某一特性感興趣,我們可先將母群依此特性分類,即分成strata(分層),然後最常做的是在每一分層中,依一定之比例(如10%)做簡單隨機抽樣。
例如,我們可將政大學生依年級分成四層,然後,每一層次抽1%的學生,此法之優點是常常我們所要研究之特性中每一類人很少時,先分層,就可保證抽到此類人(如研究政大僑生和非僑生之某種態度,僑生人數有限,先分層即可抽到僑生)。
四、叢集抽樣(clustersampling):
上述幾種抽樣法要做得好,其前提是要有一個完整的名單,但這常是做不到的,如你要研究台北市之某種態度或行為,要有全部中學生之名單幾乎是不可能的,或是極費工夫及資源,這時叢集抽樣法則極為有用,你可以學校為單位,先以隨機抽樣法抽出若干學校,然後每個學校再以班為單位抽出若干班,每班再抽出若干人。
所謂叢集(cluster)以此例即可看出,叢集抽樣涉及先抽選個案所組成的團體或區域(即叢集),而不是直接抽選個人,而且抽樣過程常分成幾個階段。
由於clustersampling中每一cluster的大小不同,且常需經多階段之抽樣,而每一個階段的抽樣都會有發生誤差的機率,也就是每一個階段都可能有選出不具代表性之樣本的風險。
故此抽樣方法的抽樣誤差(samplingerror)會較簡單隨機抽樣要大,因為簡單隨機抽樣只涉及一個階段的選樣過程。
※總而言之,推論統計之工作是依據樣本所得到的資訊為基礎,來推測母群體之特性,而這些樣本必須是依EPSEM得到的,雖然EPSEM方法得之樣本不一定有代表性,但依此法得到有代表性樣本之可能性極大。
★肆、抽樣分配(Thesamplingdistribution)
一旦我們以EPSEM的抽樣方法選取一個樣本後,我們能知道些什麼?
一方面,我們可以從樣本得到許多有關樣本的訊息,但另一方面我們卻對母群體一無所知。
這時就需用到推論統計來將樣本所測量到的一些變項的特性,來推論這些變項在母群體的特性為何。
由前面幾個單元的學習,你應該已經學會如何適當的利用樣本來描述一個變項的三個特性:
(1)整個分配的形狀;
(2)一些有關集中趨勢的量數;
(3)一些有關離散狀況的量數。
那推論統計是如何從已知之樣本特性推論到幾乎是一無所知的母群體特性呢?
這就牽涉到了抽樣分配之觀念。
那麼到底什麼是抽樣分配呢?
抽樣分配的正式定義是“Atheoretical,probabilisticdistributionofastatisticforallpossiblesamplesofacertainsamplesize(N).”也就是說,如果我們想要知道母群之某一個變項(如年齡)的算術平均數,那麼我們可以從母群中抽一個樣本(其樣本數為一固定大小的N,譬如說100人),計算其平均數後,將此N人放回母群中,再抽一次有N人之樣本,再算一次平均數,如此反覆的做,總有一天我們會得到母群之個案所組成之所有可能有此N大小的樣本(譬如說由一個有10000人之母群中,由所有可能之不同的100人所組成之所有可能的不同樣本),並由每一個這樣的樣本所得到的平均數。
由於每個樣本中所含之個案是有些不同的,所以每個樣本所計算得到的平均數也會不同,而且所得到的每一個這樣的平均數有其不同的發生機率。
從另一個角度來看,如果我們事先就知道母群體某一變項的母數(如平均數)。
當你從此母群體選取一固定N大小的樣本,然後由此樣本中計算此一變項的統計值時,理論上你所得到的統計值有相當大的可能會是接近母群體之母數,而得到一個離母群體母數甚遠的可能性則比較小,且離開越遠者,其出現的機率會越小。
上述這些所有可能得到的統計值本身,即可構成一種分配(這就像是你得到一組資料,而這資料中的每個分數都是平均數,然後利用這資料來看所有這些平均數的分配)。
由於我們事實上並不可能做這種重覆抽樣之工作,因此這種分配基本上是理論性的。
因為這種理論性的分配就代表著得到某一個樣本的機率,故也是一種機率分配。
換言之,所謂抽樣分配就是一種與從所有可能之固定大小的樣本中所得到之某一統計值(statistic)之理論的機率分配。
抽樣分配是依據機率的定律(不是實證研究結果)所得到的一種理論性的分配,雖是理論性的,但其特性確是已知的。
到目前為止,您應能區別三種不同分配之概念了,這三種分配是:
1、樣本分配(thesampledistribution):
這是實際由樣本得到的某一變項之分配的形狀(shapesofdistribution)、集中量數、離散量數等,主要都是在描述樣本之特性。
而我們往往只有這類的樣本資訊。
2、母群分配(thepopulationdistribution):
母群之資料雖可由實證研究得知,但經常限於人力、物力,我們不可能搜集到完整之母群資料,因此對於母群特性如其分配之形狀、平均數、標準差等,都是一無所知,因而需要透過推論統計來估計。
。
3、抽樣分配:
一種依機率法則得到之理論性分配,這種分配之特性可依一些定理推導出來,因此是已知的,也就透過抽樣分配之特性,我們可從樣本推到母群體。
抽樣分配的用途可從其定義中看出。
因為它是由所有可能之樣本所得到的結果來組成的,因此透過此分配,我們就可以得知某一特定之樣本結果出現的機率為何。
推論統計就是涉及這三類的分配。
我們是從可知的樣本資訊,透過已知但是為理論性的抽樣分配,來推估未知的母群體的資訊。
※ 在統計學上,對於抽樣分配之集中及離散之趨勢有兩個重要的定理(theorems)。
▲ 第一個定理是:
如果我們從一個是常態分配(normaldistribution)之母群中(母群之平均數為μ,標準差是σ)重覆的抽N樣本數之樣本,則所有樣本之平均數(
)所構成之抽樣分配必然是一種常態分配,而且此分配之平均數也是μ(和母群體的平均數是一樣的),標準差則為
根據以往的經驗,一個人口中體重、身高或IQ常是常態分配,所以如果你從人口中重覆抽一有N樣本數之樣本(如做一萬次),則所有可能(如一萬個)樣本之一萬個平均數所得之分配,是一種常態分配。
而且其平均數〔換言之,所有(一萬個)平均數的平均數〕是和母群之平均數μ一樣,但其標準差是
▲但是如果母群體之分配不是常態時,會有什麼後果?
第二個定理(叫「中央極限定理」,TheCentralLimitTheorem)告訴我們說:
從任何一個母群中重複抽N大小之樣本,而母群之平均數是μ,標準差是σ的話,當N愈大時,樣本平均數之抽樣分配(thesamplingdistributionofsamplemeans)會趨於常態,而且此分配之平均數是μ,標準差是
所謂N愈大,通常指N是大於100(請注意:
所謂N愈大,不是每次抽樣的N愈來愈大,而是說每次抽樣的N是一樣大,但是所用來抽樣的這個N愈大時,則……)。
有了這兩個定理,又有了關於常態分配的知識後,我們已具備了做推論統計之基礎。
最後,您要記住以下一些代表不同分配特性之符號:
算術平均數(Mean)
標準差
(standarddeviation)
比例
(proportion)
1、樣本(sample)
S
PS
2、母群(population)
μ
σ
Pu
3、抽樣分配(samplingdistribution)
(1)樣本平均數之抽樣分配
(2)樣本比例之抽樣分配
μp
σp
其中,μ
=μ, σ
=
μp=Pu, σp=
由於平均數的抽樣分配是常態分配,我們就可利用已知的常態分配的特性來做推估。
Q:
下列何者為真?
(1)從樣本所得到之某一變項的分配必為常態。
(2)從母群體所得到之某一變項的分配必為常態。
(3)某變項平均數的抽樣分配必為常態。
【補充說明】
樣本大小對平均數之抽樣分配的影響可由下圖中看出:
μ-4σ
μ-3σ
μ-2σ
μ-σ
μμ+σ
μ+2σ
μ+3σ
μ+4σ
由上圖可看出,當抽樣時所用的樣本數愈大,則所有可能平均數所構成的抽樣分配愈集中於此抽樣分配的平均數,但此分配的平均數並不因樣本大小而改變。
這種情形就說明了,當樣本愈大,則平均數抽樣分配的標準差(σ
),也稱為標準誤差(standarderror),亦即
也就愈小。
以下是從同一個母群體中,以樣本數(N)分別為3、10、100,各做重複600次抽樣後,所得到之平均收入的抽樣分配的三種情況。
表1對收入(以千元計)做重複抽樣的實驗
資料來源
平均數
母群體
22.172(μ)
15.635(σ)
600個樣本,N=3
22.584(μ
)
9.376(σ
600個樣本,N=10
21.955(μ
4.916(σ
600個樣本,N=100
22.176(μ
1.193(σ
圖1收入的分配(母群體)
圖2600個平均收入的分配(N=3)
圖3600個平均收入的分配(N=10)
圖4600個平均收入的分配(N=100)