猪的健康指数模型Word文档格式.docx
《猪的健康指数模型Word文档格式.docx》由会员分享,可在线阅读,更多相关《猪的健康指数模型Word文档格式.docx(14页珍藏版)》请在冰豆网上搜索。
多元回归模型加权健康指数残差分析SPSS软件
三、问题的重述
当前猪场一般针对某一疫病进行抗体检测来观察疫苗免疫效果,检测病原或抗原确定是否存在病毒感染,但不能判断猪场猪群的健康情况,亦不能确定疫病可能发生的风险有多大,不能进行快速的诊断。
大量的健康动物机体携带病原,但并不发病。
实验室检测也充分证明,猪群带有猪繁殖与呼吸综合征病毒,即使表现为病毒血症,猪群亦表现为健康状态,这给临床判断带来极大困难。
血液是动物和人体内不可缺少的组成部分,对于平衡机体和环境之间的矛盾起着极其重要的缓冲作用,机体血液中含有各种各样与机体抵抗力相关的成分,血液之中的各种成分会随着机体健康状态的改变而改变。
所以,通过血液成分的变化来判断机体的健康状态就有了科学的依据。
四、符号说明
符号
含义
随机误差
影响健康指数的主要因素
健康指数
对健康指数影响的权重
9
变量因素个数
1
线性方程个数
五、基本假设
1、本文注重影响健康指数的主要因素——白细胞,红细胞,血小板,血红蛋白,中毒指数,病毒指数,细菌指数,过敏指数,免疫指数;
大胆假设他们与健康指数的关系依次为线性关系;
2、忽略了次要的及相对微弱因素,例如贫血指数。
为综合评判后的健康指数,
,
…
为各主要因素,
…..
为对健康指数影响的权重;
3、各血液成分给予一定的加权,计算出一个综合数值,称为健康指数忽略外界温度、湿度、营养等环境因素的影响。
六、问题的分析
机体血液中含有各种各样与机体抵抗力相关的成分,血液之中的各种成分会随着机体健康状态的改变而改变。
机体健康状态的改变直接影响血液成分的变化,通过测量机体内部各血液成分的变化可以预测机体的健康指数,我们可以给予各血液成分一定的加权,利用多元线性回归模型计算出一个综合数值,即健康指数。
下面首先给出加权的定义及多元线性回归模型。
名词解释:
加权
统计学认为,在统计中计算平均数等指标时,对各个变量值具有权衡轻重作用的数值就称为权数变量大小对平均数起决定作用它的大小决定着平均数的大小。
权数大小对平均数起权衡轻重的作用,它的比重大小影响平均数的大小,使平均数趋于权数大的变量值。
一般说的平均数,就是把所有的数加起来,再除以这些数的总个数。
表示为:
(p1+p2+p3+…..+pn)/n;
但有的数据记录中有一些相同的数据,在计算的时候,那一个数有几个相同数,就把这个数乘上几,这个几,就叫权,加权,就是乘上几后再加。
平均数还是要除以总个数。
还是以上面的各个数为例:
它们每个数都有一些相同数,表示为:
k1,k2,k3…….kn;
加权平均的公式是:
(k1p1+k2p2+k3p3+……knpn)/(k1+k2+k3+…..kn)
对于本题,由于各个因素不同,则考虑健康指数的侧重比重亦不同,但是都是具体常量。
所以我们大胆假设,健康指数与各主要因素之间是线性关系。
多元线性回归:
有一个或一组非随机变量估计或预测某一随机变量的观测值时,所建立的数学模型称为回归模型,根据回归模型进行的统计分析,叫回归分析,如果这个模型是线性的,则成为线性回归分析。
设可控或不可控的因素为
;
目标函数为
。
主要因素分段描述:
………………………………………….白细胞所占的加权数
…………………………………………..红细胞所占的加权数。
.................
…………………………………………….免疫指数所占的加权数
则健康指数为
其中
为常数系数。
建立线性模型
................
为测量误差,相互独立。
令
,
,
上式称为线性回归方程的数学模型。
利用最小二乘法估计或极大似然估计,最小二乘解
所满足的方程就是
可得系数
的值。
将得出的系数代入方程
由于实际意义,机体在被细菌或病毒感染时,血液内的细胞数量和形态会立即发生变化,各血液成分给予一定的加权,计算出一个综合数值,称为健康指数。
我们大胆假设,健康指数与各主要因素之间是线性关系。
由于各个因素不同,则考虑健康指数的侧重比重亦不同,但是都是具体常量。
七、模型的建立与求解
综合上面的分析,建立如下的数学模型:
直接通过MALAB统计工具箱得到如下结果:
参数
参数估计值
参数置信区间
a0
93.2069
[-192.114378.523]
a1
0.0141
[-1.76891.7971]
a2
-1.3421
[-24.967822.284]
a3
-0.0052
[-0.04600.0357]
a4
-4.5338
[-20.56711.4998]
a5
-0.3840
[-1.00100.2330]
a6
-0.0224
[-0.32570.2809]
a7
-0.1830
[-0.83230.4662]
a8
0.0338
[-0.28990.3575]
a9
0.6988
[0.51440.8832]
F=58.3104R2=0.9292P=0
表1
应用SPSS软件得到如下结果:
相关性
白细胞
红细胞
血小板
血红蛋白
中毒指数
病毒指数
细菌指数
过敏指数
免疫指数
Pearson相关性
1.000
-.145
.311
.183
-.564
-.441
-.342
-.479
-.750
.965
.267
.376
.114
-.306
-.585
.748
.464
-.171
.239
-.054
-.889
-.417
.088
-.083
.219
-.326
-.210
-.107
.191
-.195
.201
.071
.083
.479
.428
-.582
.549
-.142
.117
-.345
-.133
-.288
.594
-.497
-.803
表2
图1残差分析图
图2
从残差图1可以看出,除第十四、二十、三十二个数据外,其余数据的残差离零点均较近,且残差的置信区间均包含零点,这说明回归模型:
8能较好的符合原始数据,而第十四、二十、三十二个数据可视为异常点。
而表1显示,R2=0.9292指因变量健康指数的94.8%可由模型确定,F=58.3104,P=0远小于0.05也说明此模型从整体看是可用的。
且通过对已知数据的估计,影响健康指数的其他因素作用都包含在随机变量
中,由图2,随机误差
大致服从均值为零的正态分布。
八、模型的改进
通过对表1表2的观察分析可知参数的置信区间包含零点,说明模型存在一定的不可靠性,且红细胞和中毒指数、免疫指数和过敏指数存在很高的相关性,二者肯存在一定的交互作用,我们可以对模型进行一定的改进,模型记作:
-60.5414
[-395.816,274.733]
-0.3645
[-2.182,1.4528]
8.0338
[-17.406,33.473]
0.0088
[-0.034,0.052]
1.3185
[-16.564,19.201]
-4.4096
[-9.167,0.347]
-0.0566
[-0.361,0.248]
-0.0256
[-0.98,0.647]
-0.0840
[-0.469,0.301]
0.7510
[0.554,0.948]
a10
0.7333
[-0.115,1.582]
a11
0.0029
[-0.003,0.0085]
F=49.706R2=0.9350P=0
表3
图3
8、模型的分析
表3与表2相比,R2有所提高,通过图3可以看出,残差与原模型相比,与零点较接近,说明改进后的模型比原模型要精确。
而且,该模型得出了影响猪的健康指数的各种因素的权重,给如何判定猪的健康状况提供了一个可靠的依据,且如果实验正确,对猪群的健康检测不会有太大的误差。
九、模型的优缺点
优点
1、本文的基础为多元回归算法,由于有成熟的算法,使得计算过程十分流畅,算法效率很高。
2、忽略了很多次要的及相对微弱因素,例如贫血指数,尽量减少未知量,使计算过程更加简便。
缺点
1、忽略了其他因素之间的相关性,只考虑到相关性很高的红细胞与中毒指数,过敏指数与免疫指数;
2、该模型给定了一定的假设条件,存在一定的理想性,可能与实际有一定的偏差。
十、参考文献
[1]姜启源等,数学模型(第三版),高等教育出版社2003.8
[2]缪铨生等,概率与统计(第三版),华东师范大学出版社2000.5
[3]萧树铁等,数学实验(第二版),高等教育出版社2006.5
附录一:
1、利用MATLAB统计工具箱得到初步的回归方程
设回归方程为:
实现本功能的MATLAB程序为:
>
B=[12.234.016.521.818.210.411.013.911.914.127.016.115.826.525.923.626.621.624.430.718.429.359.037.11.913.923.520.425.619.1;
6.37.45.96.16.06.36.25.56.56.07.46.16.46.26.96.56.95.95.97.17.76.77.56.97.37.88.08.07.77.8;
15860021422780171326267344547011337712821749944648126782396312273116613123471330606579180;
12.613.212.511.811.712.412.012.913.512.313.512.413.613.313.213.113.413.613.414.312.612.412.912.613.312.113.312.913.212.8;
42.0074.062.065.339.349.3100.029.370.7061.334.754.0027.34.776.071.30012.704.0000000;
35.8042.20100.0100.090.9100.0100.0100.0065.767.204.141.200.656.7023.7000100.067.614.680.6067.6;
054.10011.20000042.3006.348.532.416.09.242.168.5023.8100.032.400.029.315.621.11.5;
0100.0100.0100.0100.000000100.00100.0100.0100.0100.0100.0100.0100.0100.049.795.0100.0100.00100.0100.020.6100.070.0;
147.249.532.964.327.1120.5216.370.570.9145.629.3112.926.825.848.728.647.453.226.037.775.082.328.680.1129.553.650.765.846.957.1];
A=[17.719.917.122.317.024.626.421.221.724.825.231.823.128.020.513.329.623.420.118.4;
6.87.37.07.17.47.27.07.07.47.07.56.87.77.37.77.17.87.97.27.2;
413.3396.4553.2585.0540.0522.5516.6565.0534.9626.8434.8481.3609.5532.6471.5499.5599.3713.3483.5392.0;
12.012.212.512.012.512.211.912.312.111.712.312.112.112.512.512.312.211.912.712.6;
6.000000000006.000000000;
0000000000000006.00000;
000001.00000049.500000000;
0000064.000100.00088.403.60031.8000;
241.3238.7248.6242.9201.795.2357.3326.594.4283.9284.674.8194.6220.5215.8149.1153.1242.5187.2230.2];
C=[A,B]
C=
1.0e+003*
Columns1through9
0.01770.01990.01710.02230.01700.02460.02640.02120.0217
0.00680.00730.00700.00710.00740.00720.00700.00700.0074
0.41330.39640.55320.58500.54000.52250.51660.56500.5349
0.01200.01220.01250.01200.01250.01220.01190.01230.0121
0.006000000000
000000000
000000.0010000
000000.0640000.1000
0.24130.23870.24860.24290.20170.09520.35730.32650.0944
Columns10through18
0.02480.02520.03180.02310.02800.02050.01330.02960.0234
0.00700.00750.00680.00770.00730.00770.00710.00780.0079
0.62680.43480.48130.60950.53260.47150.49950.59930.7133
0.01170.01230.01210.01210.01250.01250.01230.01220.0119
000.0060000000
0000000.006000
000.0495000000
000.088400.0036000.03180
0.28390.28460.07480.19460.22050.21580.14910.15310.2425
Columns19through27
0.02010.01840.01220.03400.01650.02180.01820.01040.0110
0.00720.00720.00630.00740.00590.00610.00600.00630.0062
0.48350.39200.15800.60000.21400.22700.80100.71300.2620
0.01270.01260.01260.01320.01250.01180.01170.01240.0120
000.042000.07400.06200.06530.03930.0493
000.035800.042200.10000.10000.0909
0000.0541000.011200
0000.10000.10000.10000.100000
0.18720.23020.14720.04950.03290.06430.02710.12050.2163
Columns28through36
0.01390.01190.01410.02700.01610.01580.02650.02590.0236
0.00550.00650.00600.00740.00610.00640.00620.00690.0065
0.67300.44500.47000.11300.37700.12800.21700.49900.4460
0.01290.01350.01230.01350.01240.01360.01330.01320.0131
0.10000.02930.070700.06130.03470.054000.0273
0.10000.10000.100000.06570.067200.00410.0412
0000.0423000.00630.04850.0324
0000.100000.10000.10000.10000.1000
0.07050.07090.14560.02930.11290.02680.02580.04870.0286
Columns37through45
0.02660.02160.02440.03070.01840.02930.05900.03710.0019
0.00690.00590.00590.00710.00770.00670.00750.00690.0073
0.48100.26700.08200.39600.31200.27301.16600.13100.0230
0.01340.01360.01340.01430.01260.01240.01290.01260.0133
0.00470.07600.0713000.012700.00400
00.00060.056700.02370000.1000
0.01600.00920.04210.068500.02380.10000.03240
0.10000.10000.10000.10000.04970.09500.10000.10000
0.04740.05320.02600.03770.07500.08230.02860.08010.1295
Columns46through50
0.01390.02350.02040.02560.0191
0.00780.00800.00800.00770.0078
0.47100.33000.60600.57900.1800
0.01210.01330.01290.01320.0128
00000
0.06760.01460.080600.0676
00.02930.01560.02110.0015
0.10000.10000.02060.10000.0700
0.05360.05070.06580.046