第21章什么是信赖区间Word文档格式.docx
《第21章什么是信赖区间Word文档格式.docx》由会员分享,可在线阅读,更多相关《第21章什么是信赖区间Word文档格式.docx(7页珍藏版)》请在冰豆网上搜索。
有95%會抓到真正的母體比例p。
4.信賴水準是一項機率,它告訴我們在許多樣本中,不斷重複抽樣測量時,
區間會抓到真正參數的機率,這個機率就是信賴水準。
三、我覺得
1.要找信賴區間,先得考慮統計量的抽樣分布,也就是重複抽樣之下統計量
會如何變化;
信賴區間展現的是這個參數的真實值有一定機率落在測量結
果附近的程度。
信賴區間公式有很多種,可以在不同情形下使用,但是更
重要的是,解釋的方法都是一樣的。
2.抽樣分布是在描述從同一母體抽出的許多樣本之結果;
我們可以信任大的
隨機樣本的結果,都很接近母體的真正值。
但是我們永遠不會知道,我們
手上的這組數據所得到的區間,是不是真正的母體參數,如果認為風險太
大,可以改用更高比例的信賴區間。
3.用簡單隨機樣本(SRS)中的成功比例,來估計母體中的成功比例p。
統計量做為參數p之估計,表現如何?
要知道答案,我們會問:
「如果我們取許許多多樣本,會發生什麼情況?
」我們也知道這個抽樣變異並不是偶發的。
長期下來它有很清楚的型態,用常態曲線可以把這個型態描繪得相當接近。
第22章什麼是顯著性檢定
統計推論是利用樣本的數據,來對母體做結論,所以統計檢定處理的,是有關母體的判斷,故顯著性檢定則是要評估對某一未知參數斷言的證據;
顯著性檢定用機率來回答之問題為,光憑機遇就會得到像某樣本的極端結果之機率有多少?
統計檢定的p值,如果小於或等於α值,代表我們的結果只靠機遇碰巧發生的機率不大,p值是在H0為真的假設下計算得到的,結果應該會像著對立假設的方向。
1.統計量對於參數的結果,完全是由機遇造成的機率非常小,可以用顯著性
檢定對這個基本論據,處理得更精確;
統計檢定會先假設我們再找的效應
並不存在,然後開始尋找的證據,必須不利這項假設,而支持我們想找的
效應。
2.統計檢定的P值是在H0為真的假設下,所得到樣本結果會像實際觀測結果
那麼極端或更極端的機率。
P值愈小,資料所提供否定H0的證據就愈強;
在實際應用時,大部分的統計檢定可以由電腦軟體來執行。
3.統計檢定量(即其對應之P)是否落在拒絕區域,即落在顯著水準α值外更為
極端之區域,來判定是否該拒絕這個假設。
(以下參考教育論文寫作一書)
p>
.05,表示結果不顯著,不加以註記;
p≦.05,表示結果顯著,通常會以「*」註記;
p<
.01,表示結果更顯著,通常會以「**」註記。
1.顯著性檢定的目的,通常是想提出母體中存在某種不利原始假設的證據有
多強,檢定並沒有說我們正在尋求的母體效應,到底有多大或多重要;
但
是要證明原始假設不正確,p值要多小才能令人信服?
不同的人常會想用
不同的顯著水準,所以在「顯著」與「不顯著」之間並沒有清楚的界線。
2.如果P值小於或等於α值,我們稱該組數據於水準α有統計顯著性。
然而
「顯著」(significant)在統計上的意義並不是「重要」,而只代表「光是靠
機遇不容易發生」。
第23章統計推論的使用與濫用
「信賴區間」和「顯著性檢定」這兩種主要的統計推論,背後的倫理基礎是一樣的,但是聰明做推論的第一步,是了解你的數據及你想回答的問題。
了解信賴區間和統計顯著性檢定檢定的意義,有助於避免不恰當的的結論,只是樣本小時,母體的重要真實情況卻可能達不到顯著性的標準,樣本大時,也不見得有實質上的意義。
1.推論統計的要點:
(1)產生數據的設計很重要:
「數據從哪裡來的?
」是所有統計研究中該問
的第一個問題。
數據必須是從我們關心的母體中所抽出的簡單隨機樣本
(SRS)。
(2)了解信賴區間的運作:
信賴區間可以估計未知參數的值,同時告訴我們
估計的不確定程度有多大。
(3)了解統計顯著性的意義:
許多統計研究的目的,是想要顯示某種斷言是
正確的,檢定可以幫助我們了解,是否的確找到了正在尋找的目標。
(4)了解所用的方法必須滿足的條件:
我們對於比例p所做的檢定及信賴區
間,都要求母體必需比樣本大很多,還要求樣本本身也要夠大,使得樣
本比例的抽樣分布會接近常態。
2.讀一項顯著性檢定的結果時,要特別注意樣本大小,理由:
(1)較大的樣本會讓顯著性檢定比較敏感,但是可能一項發現有統計顯著
性,卻沒有實際上的重要性。
(2)沒有達到統計顯著性不代表效應不存在,只能說我們沒有找到合理證據
來支持,因此小樣本常會漏掉母體中確實存在的一些效應。
3.在「顯著」與「不顯著」之間並沒有清楚的界線,只是在p值越來越小時,
我們就有越來越強的證據而已。
所以「水準5%之顯著性」並非一個全球性
的標準。
1.統計推論是根據樣本所提供的證據,對母體做出結論,在數學領域做結論,
是要從某些假設開始,然後根據邏輯推演,證明結論確實毫無疑問絕對成
立。
統計卻不一樣,統計結論不是百分之百確定的,因為樣本不等於整個
母體。
所以統計推論除了結論以外,還得說明結論的不確定程度。
2.信賴區間提供的訊息比檢定多,因為信賴區間實際上估計了母體參數的
值,而且信賴區間比較容易解釋,因此,好的作法是儘可能以提出信賴區
間的方式來推論統計。
3.我們必須真正瞭解統計顯著性的意義:
(1)樣本愈多愈容易拒絕虛無假設。
(2)統計上的顯著性和實際上的顯著性是不一樣的。
除了注意P值外,要多
花點時間詳細檢視資料本身。
(3)選擇顯著水準。
(4)不要忽略沒有顯著性的結果。
4.統計推論是利用樣本的數據,來對母體做結論。
如果我們取許多樣本而且
斷言正確,我們很少會得到這樣的結果。
要得到樣本證據強度的數值量度,
就要把語意模糊的「很少」用機率來取代。
第24章雙向表及卡方檢定
要顯示兩個類別變數之間的關聯,可以用「雙向表」,來探討兩個類別變數之間是否有關係;
要檢視樣本數據很容易,但是樣本顯示出的關聯,是否可以證明整個母體中這兩個變數有關聯?
還是只因為隨機抽樣的巧合就發生了呢?
卡方檢驗是一種用途很廣的計數資料的假設檢驗方法,可以用來判斷雙向表中所出現的關聯,是否有統計顯著性,避免由潛在變數造成的誤導。
1.要顯示兩個類別變數之間的關聯,用雙向表來探討兩個類別變數之間是否
有關係;
例如職級是列變數(rowvariable),每一列代表一種職級,性別是
行變數(columnvariable),每一行代表一種性別。
職級和性別之間有何關聯,
一定要用到整個雙向表,根據所給的計數,計算出適當的百分比。
2.辛浦森詭論(Simpson’sparadox):
當潛在變數存有影響時,雙向表觀察到的
關聯有可能是誤導的,在幾組值中都顯示出的關聯或比較,有可能在數據
合併成一組時全都消失甚至倒轉方向。
3.預期計數:
H0為真時,雙向表中任一格的預期計數(expectedcount)為:
預期計數=(列總和×
行總和)/表總和
要檢定H0,會把雙向表中以觀察到的計數和預期計數做比較,如果觀察到
的計數和預期計數相差很大,就是不利於H0的證據。
4.卡方統計量:
度量出雙向表中所觀察到的計數和預期計數之間的差距,其
公式是:
X2=Σ(觀察到的數據—預期的數據)2/預期的數據
用以檢定數據是否提供了不利於「沒有關聯」的原始假設之證據,對所觀
察到的數據與預期沒有關聯的數據作比較。
5.卡方分布:
當無關聯的原始假設為真時,卡方統計量X2的分布就稱為卡方
分布(chi-squaredistribution),卡方分布是指一整族的分布,而這個分布只
有正值且為右偏。
1.類別尺度資料無法透過散布圖、計算相關係數或迴歸直線來描述變數間的
關聯,表列數字只能呈現事實,但無法解釋其意義。
要描述類別變數間的
關聯,可根據雙向表所給的計數,計算出適當的百分比,通常用百分比可
將分布的情形更清楚表出。
2.當存在潛在變數時,觀察到的關聯有可能是誤導的,所以第十五章曾經提
醒過,潛在變數可以藉由共同反應或交絡製造出關聯,所以如果可以實驗,
才可以得到足以證明的證據來證明因果關聯。
3.檢驗兩個或兩個以上總體的某一特性分布,也就是各變數的比例是否統一
或相近,稱為卡方統一性檢驗或者卡方同質性檢驗在不同水準之下,卡方
統計量X2的值要多大,才能使結果有統計顯著性?
每一種自由度對應不同
的結果。
第25章有關母體平均數的推論
信賴區間和顯著性檢定背後的理論依據是一樣的,但是處理方法卻大不相同,推論過程的形式,首先和想從中尋求的資訊參數有關,第二項影響因素是抽樣或實驗的設計。
我們用取自母體的SRS之樣本平均χ,來估計母體平均數μ,μ的信賴區間和顯著性檢定,是根據χ的抽樣分布得來的,但是關於μ的推論方式,很像關於母體比例p的推論,因為兩者都是根據常態抽樣分布而來的。
1.從平均數為μ,標準差為σ的母體抽取大小為n的SRS,則
(1)當樣本大小n較大時,χ的抽樣分布會近似常態。
(2)抽樣分布的平均數等於μ。
(3)抽樣分布的標準差是σ/√n。
2.中央極限定理:
3.從個體平均數為μ的大母體裡,抽取大小為n的SRS,當n很大時,μ的近
似水準C信賴區間為χ±
z*s/√n。
4.H0為真時很難得出現的χ值,就是H0不正確的根據。
如果假設檢定是要檢
定母體平均數的值,檢定人員選定的顯著水準就決定了發生型Ⅰ錯誤的機
率。
再藉著控制樣本數,檢定人員可同時控制發生型Ⅱ錯誤的機率。
5.若母體呈常態分配,則不管樣本多大,抽樣分配為常態。
若母體標準差為
已知,即使是小樣本,仍能計算母體平均數的區間估計值。
當樣本很大時,樣本平均數的抽樣分配近以於常態分配。
若樣本大小在30(含)以上時,就認為其滿足大樣本的條
件。
若母體呈常態分配,則不管樣本多大,的
抽樣分配為常態。
若母體標準差為已知,即使是小樣本,仍
能計算母體平均數的區間估計值。