生物统计学教案10Word文件下载.docx
《生物统计学教案10Word文件下载.docx》由会员分享,可在线阅读,更多相关《生物统计学教案10Word文件下载.docx(19页珍藏版)》请在冰豆网上搜索。
干重(mg/dm2)重复值
NaCl含量(g/kg土壤)
1
80
90
95
2
100
85
89
94
106
125
137
3
75
107
103
128
4
93
92
110
143
127
5
91
113
132
155
6
79
120
108
131
121
7
101
78
117
129
148
8
105
112
9
83
114
134
10
98
111
116
平均值
86.2
93.1
101.9
109.3
117.6
125.5
134.5
如果增加每一NaCl浓度下的重复次数,用其平均值画成散点图,则点子直线化的程度要好得多。
上表给出10次重复的平均值,从下图中可见,点子更接近在一条直线上。
当以Y的条件平均数所做的散点图,则完全在一条上。
10.2.2一元正态线性回归模型
xi和各xi上Y的条件平均数μy.x可构成一条直线:
μY=α+βX
对于变量X的每一个值,都有一个Y的分布,其平均数是上式所示的线性函数。
对于随机变量Y:
Y=α+βX+ε
ε:
NID(0,σ2)Y:
NID(α+βX,σ2)
上式称为一元正态线性回归模型。
10.2.3参数α和β的估计
在实际工作中,我们是无法得到α和β的,只能得到它们的估计值a和b,从而得到一条估计的回归线:
上式称为Y对X的回归方程,所画出的直线称为回归线。
a是直线的截距,称为常数项;
b是直线的斜率,称为回归系数。
对于因变量Y的每一个观测值yi:
yi=a+bxi+ei
yi的回归估计值
是对
的估计,因此
也是平均数。
在各种离差平方和中,以距平均数的离差平方和为最小。
因此我们就把ei=yi-
平方和为最小的直线作为最好的回归线。
记
求出使L达到最小时的a和b,这种方法称为最小二乘法。
为使
达到最小,令:
可以得到以下一组联立方程:
解该方程组,得到β的最小二乘估计:
及a的最小二乘估计:
公式的分子部分称为X和Y的校正交叉乘积和,以SXY表示。
分母部分称为X的校正平方和,以SXX表示。
因变量Y的平方和称为总平方和,以SYY表示。
因此,b又可以表示为:
10.2.4
回归方程的计算
X
X’=X-2.4
X’2
Y
Y’=Y-110
Y’2
X’Y’
-2.4
5.76
-30
900
72
-1.6
2.56
-20
400
32
-0.8
0.64
-15
225
12
5
25
0
0.8
20
16
1.6
8
2.4
625
60
和
17.92
-10
2600
200
由此得出回归方程:
回归系数的含义是:
当自变量X每变动一个单位,因变量Y平均变动11.16个单位。
10.3一元线性回归的检验
10.3.1b和a的数学期望和方差
上式中的σ2是由ε得到的,ε是实际观测值与总体回归估计值的离差
。
由于α和β都是未知的,因此无法得到εi,只能用εi的估计值ei,
称为误差平方和即为SSe
可以证明
MSe是σ2的无偏估计量,因此样本回归系数b的方差
a的方差
根据表10-2中的7套重复数据(细线所示),和它们的平均数(粗虚线所示)所绘出的回归线。
如果无限增加重复次数,最终将得到一条直线μY=α+βX。
实际上这条直线是无法获得的,只能得到它的估计直线(由一套或几套数据获得),
这些估计直线是总体回归线的无偏估计。
它们有自己的分布,因此有自己的期望和方差。
10.3.2b和a的显著性检验
10.3.2.1b的显著性检验
b的显著性检验原理与第五章所讲的假设检验原理类似。
β决定回归线的倾斜程度,当β=0时两变量间不存在回归关系。
b有自己的分布,
根据b的分布,在β=0这一假设下计算出,获得回归系数为b的这一事件出现的概率很小,而实际上它却出现了,说明假设的条件不正确,从而拒绝假设。
上面已经说过,σb2无法得到,只能用sb2估计,因此需用t检验。
所使用的检验统计量为:
服从n-2自由度的t分布。
因回归系数是由μY.X的估计值
得到的,因此sb是标准误差,而不是标准差。
例对前述回归方程的回归系数的显著性作检验。
解H0:
β=0
HA:
β≠0
计算MSe,
检验统计量
t5,0.005=4.032,t>
t0.005,P<
0.01,拒绝H0。
结论是干物重在NaCl含量上的回归极显著。
t检验还可以检验β具有某一给定值的假设。
例对前述方程的以下假设做检验
H0:
β=7
β≠7
检验统计量
t5,0.025=2.571,t<
t0.025,P>
0.05,接受H0。
b很可能抽自β=7的总体。
10.3.2.2a的显著性检验
,在H0:
α=0的假设下
具n-2自由度
在H0:
α=α0的假设下
,具n-2自由度
例对前述方程的a的显著性做检验
解H0:
α=0
HA:
α≠0
先计算sa,
计算统计量的值
t5,0.025=2.571,t>
t5,0.025,P<
0.05,拒绝H0:
α=0。
例对前述方程的a=100这一假设做检验
α=100
α≠100
sa在上例中已经求出,计算统计量的值
t5,0.025=2.571,|t|>
t0.025,P<
0.05,结论是拒绝H0:
α=100的假设。
10.3.4一元回归的方差分析
10.3.4.1无重复时一元回归的方差分析
回归方程方差分析的基本思想与第八章所述方差分析的基本思想是相同的。
即将总变差的平方和分解为各个分量的平方和。
从图中可见,
,将等式两边平方,然后对全部n个点求和。
其中的第三项等于0,因此
等号左边一项是Y的平方和,称为总校正平方和,记为SYY。
等号右边的第二项称为回归平方和,是由于X对Y的线性贡献而产生的平方和,记为SSR。
等号右边的第一项是观测值距回归估计值离差的平方和,称为误差平方和或剩余平方和,记为SSe。
“剩余平方和”的含义是,该平方和表示除了X对Y的线性影响外,一切因素对Y的变差的作用,包括X对Y的非线性影响及实验误差等。
SYY具n–1自由度,SSR具1自由度,SSe具n–2自由度。
由此可以得到相应的均方。
,以及检验统计量
方差分析的零假设H0:
β=0,备择假设HA:
β≠0。
当F>
F1,n-2,α时拒绝H0。
在实际计算时,可以利用以下二式求出误差平方和及回归平方和。
SSe=SYY-bSxySSR=SYY-SSe=bSXY
最后,将计算结果列成方差分析表。
例对前例的方程做方差分析。
已知SYY=2585.71,SXY=200,b=11.16。
由此计算出SSR=bSXY=11.16×
200=2232,
SSe=SYY-bSXY=2585.71-2232=353.71。
将上述结果列成方差分析表
变差来源
平方和
自由度
均方
F
回归
2232
1
31.55**
剩余
353.71
70.74
总和
2585.71
6
**α=0.01
F>
F1,5,0.01,结果是回归极显著。
10.3.4.2有重复时的一元回归的方差分析
如果同一自变量,因变量重复观测两次以上,则称为有重复观测。
这时误差平方和可以通过重复平方和获得,因此总平方和可以做如下分解:
SYY=SSR+SSLOF+SSpe
其中SSpe称为纯实验误差平方和,是通过重复观测获得的。
SSLOF称为失拟平方和,是剩余平方和除掉纯实验误差平方和之后的剩余部分,这部分是由于模型选择不当造成的。
各项平方和的计算如下:
设实验共收集i=1,2,…,n对数据,在每一xi下做了j=1,2,…,m次重复,各平方和由以下各式给出
自由度分别为:
回归项为1,失拟项为n-2,纯误差项为mn-n,总和为mn-1。
从而得出各项均方。
在作检验时,首先用纯误差均方对失拟均方作检验
如果结果是显著的,可能有以下几个原因:
①除X外,还有其它影响Y的因素。
②模型选择不当,X、Y之间可能是非线性关系。
③X和Y无关。
这时没有必要用SSLOF对MSR做检验。
若结果是不显著的,说明失拟平方和基本是由实验误差造成的,这时需将失拟平方和与纯误差平方和合并,用合并的平方和对回归平方和做检验。
若检验的结果仍不显著,可能的原因有:
①X和Y不存在回归关系。
②实验误差过大。
例以10.2节所给出的前两次重复为例,做方差分析。
NaCl含量
干
重复I
115
130
135
重
重复II
100
106
125
137
16400
15325
16946
22061
28136
28850
36994
164712
32400
30625
33856
43681
55696
57600
73984
327842
由以上数据计算出回归方程:
,以及SYY=4853.71和SSR=3744.61。
纯误差平方和
代入上表右下角数字,得
失拟平方和SSLOF=SYY-SSR-SSpe=4853.71-3744.61-791.00=318.10。
将以上结果列成方差分析表:
自由度
均方
F
回归
3744.61
40.52
失拟
318.10
63.62
0.56
纯误差
791.00
7
113.00
总和
4853.71
13
对失拟做检验的结果,F=0.56。
将失拟平方和与误差平方和合并后对回归做检验的结果F=40.52。
F>
F0.01,Y与X存在极显著的回归关系。
10.3.6一元回归分析的意义
1、预报2、减少实验误差
10.4一元非线性回归
10.4.2对数变换
例用X射线照射大麦种子,记处理株第一叶平均高度占对照株高度的百分数为X,存活百分数为Y,得到以下结果。
28
32
40
50
60
72
85
12
18
30
55
61
在直角坐标纸上做成的散点图和线性回归线如下:
可以明显看出用直线拟合散点是不合适的。
为了能够以直线拟合散点,对X和Y进行坐标变换,取X’=lgX,Y’=lgY,重新作图如下:
这时可按直线回归,求出线性方程:
将X’=lgX,Y’=lgY代入上式,经整理得到如下回归方程:
例钩虫病人的重复治疗次数X和复查阳性率Y如下表:
治疗次数X
复查阳性率Y
63.9
36.0
17.1
10.5
7.3
4.5
2.8
1.7
散点图如下:
从散点图可见,Y和X显然不是线性关系,很可能呈指数函数关系。
令Y'
=lnY,变换后的散点图可用直线拟合,求出Y’和X的线性方程
,以lnY代替
,整理后得到以下回归方程:
图中的实线就是根据该方程绘出的。
10.4.3概率对数变换
在寻找半致死剂量时,常用到这种变换。
例用不同剂量的γ射线照射小麦品种库班克调查死苗率,得到以下结果:
剂量(Kr)X
14
16
20
22
24
26
死苗率(%)Y
70
93
散点图和拟合曲线如下:
上图为一S形曲线,曲线的下半部比较陡峭,上半部比较平缓。
将剂量X作对数变换,变换后的图形,成为对称的S形曲线。
该曲线的形状与正态分布累积分布曲线的形状是一样的。
因此,只要把死亡率的百分率坐标变换为概率坐标,S形曲线便化作为直线。
有时为了防止出现负值,将变换后的每一个值都加上5。
当然,不做这样处理也可以。
本例中,剂量是自变量,死亡率是因变量,因此剂量为横坐标,死亡率为纵坐标。
但是在计算半致死剂量时,要求在死亡50%时的剂量,这时经常将死亡率作为横坐标,剂量作为纵坐标。
经概率坐标变换的图形如下:
于是可以得到一个线性方程,
在半致死剂量处,X=50,X’=0,回归方程变为
半致死剂量LD50可由下式得到:
上例经变换后所得回归方程为:
半致死剂量的估计为:
10.4.5曲线拟合优劣的检验
10.4.5.1通过比较剩余均方来判断曲线拟合好坏
对于一个未知的曲线,可以用几种不同的方法拟合。
在几种不同的拟合曲线中,必然有一种是最好的。
为了得到最优拟合曲线,可以计算各种拟合曲线的剩余平方和,哪一个剩余平方和最小,哪一个就是最优拟合。
但在计算剩余平方和时一定要用实测点与回归估计点离差的平方和来计算,这一点至关重要。
10.4.5.2根据失拟均方的大小判断曲线拟合优劣
对于有重复的实验数据,可以采取多种方法直线化,求出直线方程,按有重复实验方差分析方法进行分析。
用纯误差均方对失拟
均方做检验,所得F值不显著的拟合最好。
10.4.5.3根据相关指数做判断
相关指数记为R2。
在计算上式的SS剩余时,不能使用变换后的X’和Y’根据
来计算,而应由实测值与回归估计值之差的平方和来计算。
R2越大拟合的越好。
10.5相关
10.5.1相关系数
由回归所引起的变差占总变差分数的平方根称为相关系数。
10.5.2相关系数的性质
相关系数的平方
r2只能小于等于1,或|r|≤1。
当0<
r≤1时,称为正相关;
当r=0时,不相关;
当-1≤r<
0时,称为负相关。
10.5.3相关系数的计算(略)
10.5.4相关系数的检验
利用相关系数检验表检验相关系数的显著性。
对于简单相关系数,附表12中的独立自变量的个数为1,相关系数检验的自由度为剩余自由度,即n-2。
当相关系数大于表中给出的值时,相关显著。
回归系数的显著性,也可通过相关系数的显著性做检验。