基础统计教学资料51.docx
《基础统计教学资料51.docx》由会员分享,可在线阅读,更多相关《基础统计教学资料51.docx(13页珍藏版)》请在冰豆网上搜索。
基础统计教学资料51
第五章關聯
一、常見的關聯性問題:
(1)死於肺癌與吸煙有很強的關聯性嗎?
可不可能有某種遺傳因子,使人既容易對尼古丁上癮,又容易得肺癌?
(2)得口腔癌與食用檳榔有關聯性嗎?
可不可能是食用檳榔者有不健康的生活習慣,才是造成口腔癌的原因?
(3)肥胖與心臟病有關聯性嗎?
(4)父母的智商與兒女的智商有關聯性嗎?
(5)經常上網與青少年犯罪有關聯性嗎?
二、兩個變數間的關係,有可能被其他隱藏在背後的變數嚴重影響。
要研究兩個變數間的關係,就得在若干同樣的個體上度量這兩個變數的值,再根據這些資料推測二變數間的關係為何?
三、變數間的相聯性(Association)
對於同樣個體度量的兩個變數,如果兩者中有一個變數的某些值,會隨著另一個變數的某些值同時出現的頻率,多於第二個變數的其他值同時出現的頻率,則稱此二變數為相聯的。
實例:
父親的智商與兒子的智商有關聯性嗎?
表一:
父親的智商與兒子的智商的統計表
人數
父親的智商
合計
90
91~100
101~110
111~120
121~130
130
兒
子
的
智
商
90
16
12
5
3
1
0
37
91~100
8
18
12
7
4
2
51
101~110
7
14
20
14
8
5
68
111~120
3
10
16
21
15
9
74
121~130
0
5
10
13
17
10
55
130
0
4
5
7
9
11
36
合計
34
63
68
65
54
37
321
四、變數間的關係可概分為:
(1)函數關係(Functionalrelation)
二變數X與Y間滿足Y之值被X唯一確定時,則此二變數X與Y為函數關係,通常可表為Y=f(X)。
函數關係最常見於物理現象,例如:
(a)
,其中
為初速,t為經歷的時間,
為t秒末的速度,a為加速度。
(b)
,其中t為經歷的時間,
為自由落體經歷t後所落下的距離,g為自由落體的加速度。
(2)統計關係(Statisticalrelation)
二變數X與Y間滿足Y之值沒有被X唯一確定,但Y的期望值被X唯一確定時,也就是「平均上來說」Y之值被X確定,則此二變數X與Y為統計關係,通常可表為E[Y]=f(X),亦即:
,其中
為誤差項。
例如:
兒子的平均智商由父親的智商決定之,但即使父親的智商相同,兒子的智商也不盡相同,但應不致於相去太遠。
(3)模糊關係(Fuzzyrelation)
主要用於主觀認知之語文概念上。
五、雙向表(Two-waytable)
(1)當二變數均為名目尺度時,可用雙向表來偵測二變數間的相聯性。
(2)所謂雙向表乃將各個體依據兩個變數(即因子)來分類,以計數各分類的觀測次數的統計表。
(3)實例:
美國男性與女性再追求學位上有差異嗎?
表二:
美國1993年獲頒學位數,以學位及性別區分(單位千人)
學士
碩士
專業
博士
合計
女性
616
194
30
16
856
男性
529
171
44
26
770
合計
1145
365
74
42
1626
六、辛普森詭論(Simpson’sparadox)
(1)實例一:
入學審核有性別期是嗎?
T大學所頒發的學位只有電機工程及英文兩種主修。
某年的申請結果如表三所示:
表三:
入學申請審查結果統計表
男性
女性
合計
通過
35
20
55
不通過
45
40
85
合計
80
60
140
由表三可看出:
男、女性申請之通過率分別為44%及33%,似乎男性高出女性頗多!
真是如此嗎?
(2)三向表(three-waytable)
所謂三向表乃將各個體依據三個變數(即因子)來分類,以計數各分類的觀測次數的統計表。
實例一(續):
將上述申請情況依性別、申請結果及主修等三個變數來分類統計,得表四及表五。
表四:
電機工程入學申請審查結果統計表
男性
女性
合計
通過
30
10
40
不通過
30
10
40
合計
60
20
80
表五:
英文入學申請審查結果統計表
男性
女性
合計
通過
5
10
15
不通過
15
30
45
合計
20
40
60
(a)由表四得:
對電機工程的申請者而言,男、女性申請之通過率均為50%,看似公平!
(b)再由表五得:
對英文的申請者而言,男、女性申請之通過率均為25%,看似公平!
(c)以上所呈現的結果不同於表三,這就是所謂的辛普森詭論。
(3)辛普森詭論
當數組資料合併成一組資料時,相聯本質可能會改變,甚至轉換方向的現象,稱為辛普森詭論。
(4)潛在變數的影響
我們在觀察的兩個變數間的關聯性時,常常會被一些我們沒有度量、或根本沒有想到的變數影響,不可不慎!
(5)實例二:
對抵押貸款對象有大小眼嗎?
資料顯示:
B銀行對申請抵押貸款者的審核結果是這樣的,黑人與白人申貸者的拒絕率分別為17.5%及3.3%,好似有歧視黑人的情形,真是如此嗎?
(6)實例三:
收入因性別而異嗎?
全職工作的女性賺的錢(平均來說)差不多是男性的76%,如此大的差距是否顯示女性受到歧視?
(7)面臨較複雜的狀況,影響結果的變數很多時,表面看到的相聯性很強,但實際情況可能有天淵之別。
七、散布圖
(1)描述兩個數值變數間之關聯的最有效方法為「散布圖」(Scatterplot)。
(2)散布圖是將收集到之若干個體所測得的兩個變數之配對關測值描繪於直角座標系上,所形成的圖形。
※資料應為區間尺度或比例尺度。
※通常自變數(解釋變數)標示於橫軸,因變數(反應變數)標示於縱軸。
※將配對資料
描繪於直角座標系上所形成的圖形,稱為散布圖。
(3)實例:
收集到5對始祖鳥的股骨與肱鼓的長度資料,如下表所示:
表5.1始祖鳥的股骨與肱鼓的長度資料(單位:
公分)
股骨
38
56
59
64
74
肱骨
41
63
70
72
84
其散布圖為:
由上述散布圖,大約可看出始祖鳥的股骨與肱鼓的長度好像有直線的關聯。
(4)散布圖的關聯強度是要看圖形中之各點遵循某種形式(指曲線的形式)的程度而定。
(5)有關「關聯強度」的描述之難易乃視曲線的複雜程度而定,而最簡單的形式為直線。
八、相關係數
(1)相關係數是描述兩個變數間之直線關聯的方向與強度,通常記為r。
(2)設兩個變數X與Y之n對資料為
,則由這組資料所算出二變數X與Y的相關係數為
※相關係數亦可表為
。
(3)有關相關係數r值的意義:
(a)
。
(b)r的絕對值愈大,表二變數間之直線關聯愈強。
(c)r值為正時,表二變數間有正關聯,而r值為負時,表二變數間有負關聯,又r值為0時,表二變數間沒有直線的關聯。
(d)r值為1或1時,表散布圖中之所有點都落在一直線上。
(4)相關係數不會因解釋變數與反應變數間的角色互換而有所不同。
(5)相關係數是一種不穩健的量度,會因離群值而驟變。
(6)切記:
相關係數度量的僅是兩變數間直線關聯的程度。
九、因果問題
(1)當我們觀察到兩個變數間有相聯性時,則此相聯性有以下幾種可能:
(i)因果關係(ii)共同反應(iii)交絡
(2)因果關係:
兩個變數中,其中一個變數(解釋變數)會直接導致另一個變數(反應變數)改變的情形,則稱此二變數有因果關係。
(a)例一:
X表父親的成年身高,Y表兒子的成年身高。
(b)例二:
X表一隻老鼠飼料中人工甜味劑糖精的量,Y表該老鼠膀胱中腫瘤個數。
(3)共同反應:
指兩個變數看起來有相憐性,但實際上是受到另一個潛在變數的影響,而有共同的反應。
(a)例一:
X表公立中學教師薪水的中位數,Y表酒類飲料的年銷售額。
(b)例二:
X表一個學生高三時的SAT計分,Y該學生大一時的成績。
(4)交絡:
指當有多個變數之間有交互作用,而使我們無法對因果關係做出結論的情形。
(a)例一:
X表手術時使用的麻醉劑量,Y表病人有無在手術中死亡。
(b)例二:
X表一位在職者受教育的年數,Y表該在職者的收入。
(5)相聯不代表有因果關係
如果沒有經過實驗,即使解釋變數X與反應變數Y間有很強的相聯性,也不能說明當X值改變時會導致Y值的改變,亦即二變數X與Y不見得有因果關係。
(6)如何建立二變數間的因果關係?
要建立兩個變數間的因果關係當然要透過實驗,但有些情況我們是無法從事實驗,此時我們可依據以下幾個指標來判斷兩個變數間是否有因果關係:
(a)相聯很強。
(b)相聯有一致性。
(c)較高劑量與較強反應相聯。
(d)被懷疑的原因在時間上超前結果。
(e)被懷疑的原因是可信的。
(7)實例:
吸煙與肺癌的相聯性
(a)吸煙與肺癌的相聯性很高。
(b)不論國度、人種,吸煙與肺癌的相聯性是一致的。
(c)每天吸煙量愈多,得肺癌的機會愈高。
(d)得肺癌者總是抽煙行之有年。
(e)由動物實驗結果顯示,吸煙產生的焦油確實會致癌。
(8)是否巧合?
從觀測到有相聯性直至做結論之前,再三搜尋其他可能潛在變數的影響是極為重要的。
十、迴歸與預測
(1)迴歸分析(Regressionanalysis)是在研究反應變數如何受一個或多個解釋變數的影響,進而二者統計關係的函數式子找出來,再利用這者關係做預測。
※上述描述統計關係的函數式子稱為迴歸曲線,當其為直線時稱為迴歸直線。
※當找到適當的為迴歸曲線後,便可以解釋變數的值來預測反應變數的(期望)值。
這個意思是指反應變數的實際值或許不等與所預測的值,但應相去不遠。
※前述的相關分析(Correlationanalysis)僅在於探討反應變數與解釋變數間是否有關係存在,以及相關程度的大小與方向,而不在乎二變數間所存在的關係模式。
※相關分析中之二變數在角色互換時,並不會影響分析的結果。
(2)散布圖是探究反應變數與解釋變數間之關係型式的絕佳工具。
(3)實例:
住戶瓦斯消耗量與氣溫的關係?
A先生十分關心他到底使用多少能源在住家保暖上,於是他便記錄下一整年中需要用暖氣之各月的瓦斯消耗量,如下表所示:
月份
10
11
12
1
2
3
4
5
平均溫度x
49.4
38.2
27.2
28.6
29.5
46.4
49.7
57.1
瓦斯消耗量y
520
610
870
850
880
490
450
250
氣溫是華氏溫度,因每月天數不同,故瓦斯消耗量已修正每天之需求。
試繪出散布圖,以探究瓦斯消耗量y與平均溫度x間之關係型式?
由散布圖可看出:
二者好像有直線的關係。
(4)簡單線性迴歸模式
模式:
。
其中:
(i)x是解釋變數的值。
(ii)y是反應變數的觀測值。
(iii)
是誤差項。
※上述模式亦可表為
,此即所謂的迴歸直線。
(5)最小平方法(Leastsquaremethod)
(a)y對x的最小平方迴歸直線乃使得所有資料點距離直線的鉛垂距離平方和為最小的直線。
(b)針對n個配對資料
之最小平方迴歸直線即滿足
之直線
。
(c)實例(續):
瓦斯消耗量與氣溫的關係。
所得之(配合)迴歸直線為
,故當某月之平均溫度為華氏30度時,則預估該月瓦斯消耗量為
立方英尺(每天)
(d)由n個配對資料
所算得之相關係數的平方
稱為判定係數,可用來衡量用最小平方法所求得之(配合)迴歸直線能解釋y的變化的部分(比率)。
十一、多元迴歸(Multipleregression)
(1)當沒有任何單一解釋變數和反應變數有高相關時,亦即利用單一解釋變數)並不足以解釋反應變數的變化,我們可以考慮同時利用若干個解釋變數來共同預測反應變數的反應,此稱為多元迴歸。
(2)在多元迴歸模式中,我們可以某一解釋變數和反應變數間的複相關係數(Multiplecorrelationcoefficient)的平方(即複判定係數)來衡量該解釋變數在解釋反應變數的變化上的貢獻。
(3)實例:
飲食的費用問題。
在探討一個家庭在一年中用於飲食的費用(y)時,所引用的解釋變數可能有:
(i)該家庭的年收入(
)。
(ii)該家庭的人口數(
)。
(iii)住宅的位置(
)。