卡平方χ2测验.docx

资源描述

卡平方χ2测验.docx

《卡平方χ2测验.docx》由会员分享，可在线阅读，更多相关《卡平方χ2测验.docx（18页珍藏版）》请在冰豆网上搜索。

卡平方χ2测验.docx

卡平方χ2测验

第八章卡平方（χ2）测验

知识目标：

●理解卡平方（χ2）的概念；

●掌握适合性测验的方法；

●掌握独立性测验的方法；

●了解卡平方（χ2）的可加性和联合分析。

能力目标：

●学会适合性测验的方法；

●学会独立性测验的方法；

前面介绍了数量性状资料的统计分析方法。

在生物和农业科学研究中，还有许多质量性状的资料，这样的资料可以转化为次数资料。

间断性变数的计数资料也可整理为次数资料。

凡是试验结果用次数表示的资料，皆称为次数资料。

次数资料的统计分析方法有二项分布的正态接近法和卡平方（χ2）测验法等。

本章主要介绍卡平方测验。

第一节卡平方（χ2）测验

一、卡平方（χ2）概念

为了便于理解，现结合一实例说明χ2统计量的意义。

菠菜雌雄株的性比为1:

1，今观测200株菠菜，其中有92棵雌株，108棵雄株。

按1:

1的性比计算，雌、雄株均应为100株。

以O表示实际观察次数，E表示理论次数，可将上述情况列成表8-1。

表8-1菠菜雌雄株实际观测株数与理论株数的比较

性别

观测株数Ｏ

理论株数Ｅ

Ｏ-Ｅ

（Ｏ-Ｅ）2/Ｅ

雌

92（O1）

100（E1）

-8

0.64

雄

108（O2）

100（E2）

0.64

合计

200

1.28

从表8-1看到，实际观察次数与理论次数存在一定的差异，这里雌、雄各相差8株。

这个差异是属于抽样误差，还是菠菜雌雄性比发生了实质性的变化？

要回答这个问题，首先需要确定一个统计量用以表示实际观察次数与理论次数偏离的程度，然后判断这一偏离程度是否属于抽样误差，即进行显著性测验。

为了度量实际观察次数与理论次数偏离的程度，最简单的办法是求出实际观察次数与理论次数的差数。

从表8-1看出：

Ｏ1-Ｅ1=8，O2-E2=8，由于这两个差数之和为0，显然不能用这两个差数之和来表示实际观察次数与理论次数的偏离程度。

为了避免正、负抵消，可将两个差数O1-E1、O2-E2平方后再相加，即计算

，其值越大，实际观察次数与理论次数相差亦越大，反之则越小。

但利用

表示实际观察次数与理论次数的偏离程度尚有不足。

例如某一组实际观察次数为505，理论次数为500，相差5；而另一组实际观察次数为26，理论次数为21，相差亦为5。

显然这两组实际观察次数与理论次数的偏离程度是不同的。

因为前者是相对于理论次数500相差5，后者是相对于理论次数21相差5。

为了弥补这一不足，可先将各差数平方除以相应的理论次数后再相加，并记之为χ2，即

（8-1）

也就是说，χ2是度量实际观察次数与理论次数偏离程度的一个统计量。

χ2越小，表明实际观察次数与理论次数越接近；χ2=0，表示两者完全吻合；χ2越大，表示两者相差越大。

对于表8-1的资料，可计算得

χ2=

但是，由于抽样误差的存在，χ2值究竟大到什么程度才算差异显著（不相符合），小到什么程度才算差异不显著（相符合）呢？

这个问题需用χ2的显著性测验来解决，而χ2测验的依据则是χ2的抽样分布（χ2分布）。

二、卡平方（χ2）的分布

理论研究证明，χ2的分布为正偏态分布，其分布特点为：

1.χ2分布没有负值，均在0～+∞之间，即在χ2=0的右边，为正偏态分布。

2.χ2的分布为连续性分布，而不是间断性的。

3.χ2分布曲线是一组曲线。

每一个不同的自由度都有一条相应的χ2分布曲线。

4.χ2分布的偏斜度随自由度ν不同而变化。

当ν=1时偏斜最厉害，ν＞30时曲线接近正态分布，当ν→∞时，则为正态分布。

图8-1为几个不同自由度的χ2分布曲线。

附表列出不同自由度时χ2的一尾（右尾）概率表，可供次数资料的χ2测验之用。

三、卡平方（χ2）的连续性矫正

χ2分布是连续性的，而次数资料则是间断性的。

由（8-1）式计算的χ2只是近似地服从连续型随机变量χ2分布。

在对次数资料进行χ2检验利用连续型随机变量χ2分布计算概率时，常常偏低，特别是当自由度ν=1时偏差较大。

Yates（1934）提出了一个矫正公式，矫正后的χ2值记为：

（8-2）

当自由度ν＞1时，（8-1）式的χ2分布与连续型随机变量χ2分布相近似，这时，可不作连续性矫正。

第二节适合性测验

一、适合性测验的意义

判断实际观察的属性类别分配是否符合已知属性类别分配理论或学说的假设测验称为适合性测验。

在适合性测验中，无效假设H0：

实际观察的属性类别分配符合已知属性类别分配的理论或学说；备择假设HA：

实际观察的属性类别分配不符合已知属性类别分配的理论或学说。

并在无效假设H0成立的条件下，按照已知属性类别分配的理论或学说计算各属性类别的理论次数。

因计算所得的各个属性类别理论次数的总和应等于各个属性类别实际观察次数的总和，即独立的理论次数的个数等于属性类别分类数减1。

也就是说，适合性测验的自由度等于属性类别分类数减1。

若属性类别分类数为k，则适合性测验的自由度ν=k-1。

然后根据（8-1）或（8-2）计算出χ2或

。

将计算所得的χ2或

值与根据自由度ν=k-1查χ2值表（附表6）所得的临界χ2值：

、

比较：

若χ2（或

）＜

，P＞0.05，表明实际观察次数与理论次数差异不显著，可以认为实际观察的属性类别分配符合已知属性类别分配的理论或学说；若

≤χ2（或

）＜

，0.01＜P≤0.05，表明实际观察次数与理论次数差异显著，可以认为实际观察的属性类别分配不符合已知属性类别分配的理论或学说；若χ2（或

）≥

，P≤0.01，表明实际观察次数与理论次数差异极显著，可以认为实际观察的属性类别分配极显著地不符合已知属性类别分配的理论或学说。

二、适合性测验的方法

下面结合实例说明适合性测验方法。

[例8.1]大豆花色一对等位基因的遗传研究，在F2获得表8-2所列分离株数。

问这一资料的实际观察比例是否符合于孟德尔遗传规律中3:

1的遗传比例？

测验步骤如下：

1．提出无效假设与备择假设

H0：

大豆花色F2分离符合3:

1比例。

HA：

不符合3:

1比例。

2．选择计算公式由于该资料只有k=2组，自由度ν=k-1=2-1=1，须使用公式（8-2）来计算

。

3．计算理论株数根据理论比例3:

1求理论株数：

紫花理论株数：

E1=289×3/4=216.75

白花理论株数：

E2=289×1/4=72.25

或E2=260-E1=289-216.75=72.25

4．计算

表8-2大豆花色一对等位基因基因遗传的适合性测验

性状

F2代实际株数（O）

理论株数（E）

O-E

紫色

208

216.75

-8.75

0.3140

白色

72.25

+8.75

0.9420

总和

289

1.2560

5．查临界χ2值，作出统计推断当自由度ν=1时，查附表6得

=3.84，计算的

＜

，故P＞0.05，不能否定H0，表明实际观察次数与理论次数差异不显著，可以认为大豆花色这对性状符合孟德尔遗传分离定律3:

1的理论比例。

[例8.2]两对等位基因遗传试验，如基因为独立分配，则F2代的四种表现型在理论上应有9:

1的比率。

有一水稻遗传试验，以稃尖有色非糯品种与稃尖无色糯性品种杂交，其F2代得表8-3结果。

试问这两对性状是否符合孟德尔遗传规律中9:

1的遗传比例？

测验步骤：

1．提出无效假设与备择假设

H0：

实际观察次数之比符合9:

1的分离理论比例。

HA：

实际观察次数之比不符合9:

1的分离理论比例。

2．选择计算公式由于本例共有k=4组，自由度ν=k-1=4-1=3＞1，故利用（8-1）式计算χ2。

3．计算理论次数依据理论比例9:

1计算理论次数：

稃尖有色非糯稻的理论次数E1：

743×9/16=417.94

稃尖有色糯稻的理论次数E2：

743×3/16=139.31

稃尖无色非糯稻的理论次数E3：

743×3/16=139.31

稃尖无色糯稻的理论次数E4：

743×1/16=46.44

或E4=743-417.94-139.31-139.31=46.44

4．计算χ2

表8-3F2代表现型的观察次数和理论次数

类型

实际观察次数O

理论次数E

O-E

稃尖有色非糯

491（O1）

417.94（E1）

73.06

12.772

稃尖有色糯稻

76（O2）

139.31（E2）

-63.31

28.771

稃尖无色非糯

90（O3）

139.31（E3）

-49.31

17.454

稃尖无色糯稻

86（O4）

46.44（E4）

39.56

33.699

总计

743

92.696

χ2=

=12.772+28.771+17.454+33.699=92.696

5．查临界χ2值（附表6），作出统计推断当ν=3时，

=7.815，因χ2＞

，P＜0.05，所以应否定H0，接受HA，表明实际观察次数与理论次数差异显著，即该水稻稃尖和糯性性状在F2的实际结果不符合9:

1的理论比率。

这一情况表明，该两对等位基因并非独立遗传，而可能为连锁遗传。

实际资料多于两组的χ2值通式则为：

χ2=

（8-3）

上式的mi为各项理论比率，ai为其对应的观察次数。

如本例，亦可由（8-3）算得

χ2=

前面的χ2=92.696，与此χ2=92.706略有差异，系前者有较大计算误差之故。

第三节独立性测验

一、独立性测验的意义

对于次数资料，除进行适合性测验外，有时需要分析两个变数是相互独立还是彼此相关，这是次数资料的一种相关研究。

例如，小麦种子灭菌与否和麦穗发病两个变数之间，若相互独立，表示种子灭菌和麦穗发病高低无关，灭菌处理对发病无影响；若不相互独立，则表示种子灭菌和麦穗发病高低有关，灭菌处理对发病有影响。

应用χ2进行独立性测验的无效假设是：

H0：

两个变数相互独立，对HA：

两个变数彼此相关。

在计算χ2时，先将所得次数资料按照两个变数作两向分组，排列成相依表；然后，根据两个变数相互独立的假设，算出各个组的理论次数；再由（8-1）算得χ2值。

这个χ2的自由度随两个变数各自分组数不同而不同，设横行分r组，纵行分c组，则ν=（r-1）（c-1）。

当观察的χ2＜

时，便接受H0，即两个变数相互独立；当观察的χ2≥

时，便否定H0，接受HA，即两个变数彼此相关。

独立性测验与适合性测验是两种不同的检验方法，除了研究目的不同外，还有以下区别：

1．独立性测验的次数资料是按两个变数属性类别进行归组。

根据两个变数属性类别数的不同而构成2×2表、2×c表、r×c表（r为行变数的属性类别数，c为列变数的属性类别数）。

而适合性测验只按某一变数的属性类别将次数资料归组。

2．适合性测验按已知的属性分类理论或学说计算理论次数。

独立性测验在计算理论次数时没有现成的理论或学说可资利用，理论次数是在两变数相互独立的假设下进行计算的。

3．在适合性测验中确定自由度时，只有一个约束条件：

各理论次数之和等于各实际次数之和，自由度为属性类别数减1。

而在r×c表的独立性测验中，共有rc个理论次数，但受到以下条件的约束：

（1）rc个理论次数的总和等于rc个实际次数的总和；

（2）r个横行中的每一个横行理论次数总和等于该行实际次数的总和。

但由于r个横行实际次数之和的总和等于rc个实际次数之和，因而独立的行约束条件只有r-1个；

（3）类似地，独立的列约束条件有c-1个。

因而在进行独立性测验时，自由度ν=rc-1-（r-1）-（c-1）=（r-1）（c-1），即等于（横行属性类别数-1）×（直列属性类别数-1）。

二、独立性测验的方法

下面结合实例分别介绍2×2表、2×c表、r×c表独立性测验的具体过程。

1．2×2表的独立性测验

2×2相依表是指横行和纵行皆分为两组的资料。

2×2表的一般形式如表8-4所示，其自由度ν=（c-1）（r-1）=（2-1）（2-1）=1，在进行χ2检验时，需作连续性矫正，应计算

值。

[例8.3]调查经过种子灭菌处理与未经种子灭菌处理的小麦发生散黑穗病的穗数，得表8-4，试分析种子灭菌与否和散黑穗病穗多少是否有关？

表8-4防治小麦散黑穗病的观察结果

处理项目

发病穗数

未发病穗数

总数

种子灭菌

26（34.7）

50（41.3）

种子未灭菌

184（175.3）

200（208.7）

384

总数

210

250

460

（1）提出无效假设与备择假设

H0：

两变数相互独立，即种子灭菌与否和散黑穗病病穗多少无关；HA：

两变数彼此相关。

（2）计算理论次数根据两变数相互独立的假设，由样本数据计算出各个理论次数。

两变数相互独立，就是说种子灭菌与否不影响发病率。

也就是说种子灭菌项与未灭菌项的理论发病率应当相同，均应等于总发病率210/460。

依此计算出各个理论次数如下：

种子灭菌项的理论发病数：

E11=76×210/460=34.7；

种子灭菌项的理论未发病数：

E12=76×250/460=41.3，或E12=76-34.7=41.3；

种子未灭菌项的理论发病数：

E21=384×210/460=175.3，或E21=210-34.7=175.3；

种子未灭菌项的理论未发病数：

E22=384×250/460=208.7，或E22=250-41.3=208.7。

从上述各理论次数Eij的计算可以看到，理论次数的计算利用了行、列总和，总总和，4个理论次数仅有一个是独立的。

表8-4括号内的数据为相应的理论次数。

（3）计算

值将表8-4中的实际次数、理论次数代入8-2式得：

（4）由自由度ν=1，查临界χ2值（附表6），作出统计推断因为

=3.84，而

=4.267＞

，P＜0.05，否定H0，接受HA。

表明种子灭菌与否和散黑穗病发病高低有关，种子灭菌对防治小麦散黑穗病有一定效果。

在进行22表独立性检验时，还可利用下述简化公式（8-4）计算

：

（8-4）

在（8-4）式中，不需要先计算理论次数，直接利用实际观察次数，行、列总和和总总和进行计算，比利用公式（8-2）计算简便，且舍入误差小。

对于［例8.3］，利用（8-4）式可得：

所得结果与前面计算结果相同。

表8-52×2表的一般形式

总计

a11

a12

a21

a22

总计

2．2×c表的独立性测验

2×c表是横行分为两组，纵行分为c≥3组的相依表资料。

在作独立性测验时，其自由度ν=（2-1）（c-1）=c-1，因为c≥3，所以自由度大于等于2，在进行χ2检验时，不需作连续性矫正。

[例8.4]为了解某苹果品种开花花期不同与坐果率高低的关系，调查到下列数据：

立夏前，首批花200朵，坐果72个；立夏至小满，第二批花150朵，坐果48个；小满以后，末批花50朵，坐果3个（表8-6）。

问坐果率高低与开花期是否有关？

表8-6某苹果花期与坐果关系的相依表

立夏前

立夏至小满

小满后

总计

坐果花数

72（61.50）

48（46.13）

3（15.38）

123

未坐果花数

128（138.50）

102（103.88）

47（34.63）

277

总计

200

150

400

这是一个2×3表独立性测验的问题。

测验步骤如下：

（1）提出无效假设与备择假设

H0：

开花期不同对苹果坐果率的影响是相同的，即坐果率的高低与开花期早晚无关；

HA：

坐果率的高低与开花期早晚有关。

（2）计算各个理论次数，并填在各观察次数后的括号中计算方法与2×2表类似，即根据不同花期坐果率相同的假设计算。

如不同花期坐果花数的理论次数按理论比率123/400计算；未坐果花数的理论次数按理论比率277/400计算。

立夏前坐果花数的理论次数：

E11=200×123/400=61.50；

立夏前未坐果花数的理论次数：

E21=200×277/400=138.50，或E21=200-61.50=138.50；

其余各个理论次数的计算类似。

（3）计算χ2值

（4）由自由度ν=2，查临界χ2值（附表6），作出统计推断因为

=9.21，而χ2=17.08<

，P＜0.01，应否定H0，接受HA，表明开花期与坐果率有关，开花期极显著地影响坐果率。

在进行2×c表独立性测验时，还可利用下述简化公式（8-5）或（8-6）计算χ2：

（8-5）

或

（8-6）

（8-5）与（8-6）式的区别在于：

（8-5）式利用第一行中的实际观察次数a1i和行总和R1；（8-6）式利用第二行中的实际观察次数a2i和行总和R2，计算结果相同。

2×c表的一般形式见表8-7。

表8-72×c表的一般形式

…

总　计

a11

a12

…

a1i

…

a1c

a21

a22

…

a2i

…

a2c

总　计

…

对于[例8.4]利用（8-5）式计算χ2值得：

3．r×c表的独立性测验

r×c表是指横行分r组，纵行分c组，且r≥3，c≥3，则为r×c相依表。

对r×c表作独立性测验时，其ν=（r-1）（c-1），故求χ2值不需要连续性矫正。

[例8.5]表8-8为不同灌溉方式下水稻叶片衰老情况的调查资料。

试测验水稻叶片衰老情况是否与灌溉方式有关？

表8-8不同灌溉方式下水稻叶片的衰老情况

灌溉方式

绿叶数

黄叶数

枯叶数

总计

深水

146（140.69）

7（8.78）

7（10.53）

160

浅水

183（180.26）

8（11.24）

13（13.49）

205

湿润

152（160.04）

14（9.98）

16（11.98）

182

总计

481

547

测验步骤如下：

（1）提出无效假设与备择假设

H0：

稻叶衰老情况与灌溉方式无关，即二者相互独立。

HA：

稻叶衰老情况与灌溉方式有关。

（2）计算理论次数根据H0的假定，计算各组格观察次数的相应理论次数：

如与146相应的E=（481×160）/547=140.69，与183相应的E=（481×205）/547=180.26，……，所得结果填于表8-8括号内。

（3）计算χ2值利用（8-1）式计算χ2值，得：

χ2=

（4）查临界χ2值（附表6），进行统计推断由自由度ν=（3-1）（3-1）=4，查临界χ2值得：

=9.49，因为计算所得的χ2<

，P＞0.05，不能否定H0，即不同的灌溉方式对水稻叶片的衰老情况没有显著影响。

r×c表的一般形式见表8-9。

表8-9r×c表的一般形式

…

总计

a11

a12

…

a1i

…

a1c

a21

a22

…

a2i

…

a2c

aj1

aj2

…

aji

…

ajc

ar1

ar2

…

ari

…

arc

总计

…

由表8-9直接计算χ2值的公式：

（8-7）

（8-7）中的i=1，2，…c；j=1，2，…r。

将表8-8资料，代入（8-7）有

前面的χ2=5.62，与此χ2=5.63略有差异，系前者有较大计算误差之故。

小结

复习思考题

1.写出卡平方（χ2）公式，χ2分布有哪些特性？

2.χ2测验与t测验、F测验在应用上有什么区别？

3.什么是适合性测验和独立性测验？

它们有何区别？

4.什么情况下χ2测验需作矫正？

如何矫正？

5.大豆花色的遗传研究，在F2代获得红花植株210株、白花植株80株。

问这一资料的实际观测数是否符合于3:

1的理论比例？

[

=0.901，不显著]

样本号

观察次数

理论比率

134

240

120

240

15:

6.两对相对性状杂交子二代A_B_，A_bb，aaB_，aabb4种表现型的观察次数依次为315、108、101、32，问是否符合9:

1的遗传比例？

根据计算结果，是独立遗传还是连锁遗传？

[χ2=0.475，不显著]

7.试用χ2法测验下表各样本观察次数是否符合各相应的理论比率：

［

（1）

=1.1294，不显著；

（2）

=12.8925，显著；（3）

=2.7348，不显著；（4）

=0.3607，不显著］

8.有一大麦杂交组合，在F2代的芒性状表现型有钩芒、长芒和短芒三种，观察其株数依次分别为348、115、157。

试测验是否符合9:

4的理论比率？

[χ2=0.0482，不显著]

田间反应

温室幼苗反应

抗病

分离

感染

抗病

142

分离

404

感染

176

9.某一杂交组合的F3代共有810系，在温室内鉴定各系幼苗对某种病害的反应，并在田间鉴定植株对此病害的反应，所得结果列于下表，试测验两种反应间是否相关？

[χ2=1127.95，显著]

10.以习题7数据为对象，试测验这4个样本的分离是否一致符合3:

1的分离比率？

[综合值χ2=0.0820，同质性χ2=89.1797]

展开阅读全文