1、R语言论文于海龙基于R语言方法对大豆形状影响产量的研究 学院 理学院 班级 统计1001班 姓名 于海龙 学号 A*基于R语言方法对大豆形状影响产量的研究 背景分析 大豆是是我国重要粮食作物之一,也是世界上最重要的豆类,已有五千年栽培历史,现知约有1000个栽培品种。 大豆是一年生草本植物,其种子也称为大豆。也是世界上最重要的豆类。大豆起源于中国,中国学者大多认为原产地是云贵高原一带。也有很多植物学家认为是由原产中国的乌苏里大豆衍生而来。现种植的栽培大豆是从野生大豆通过长期定向选择、改良驯化而成的。 本文通过对我国吉林省部分不同大豆品种对于其产量的影响作出分析。通过多元回归分析方法进行数学模拟
2、,对影响大豆产量因素进行科学估计。 下图是吉林省历年大豆产量及播种面积统计表。可以对吉林省的大豆产量状况做出直观估计。 那么影响大豆产量的最主要的因素包括哪些呢?本文从吉林省大量大豆种子数据中抽样选取了部分样本做以分析说明。引起数据类型较符合统计方法中的多元回归分析,采用R软件进行统计分析。 数据来源 吉林省大豆品种及其产量情况程序设计流程多元回归分析 首先建立模型 DZLZ=a1SYRS+a2ZG+a3ZC+a4DZLS+a5DZJS+a6YXFZS 其中SYRS 为种子的生育日数, ZG为株高, ZC为株粗, DZLS为单株粒数, DZJS为单株夹数, YXFZS为有效分枝数, DZLZ为
3、单株粒重。 程序如下 x=read.table(D:test.txt,header=TRUE) x NUM NAME SYRS ZG ZC DZLS DZJS YXFZS DZLZ1 A001 HF24 102 67.6 0.7 73.8 29.3 0.13 13.82 A002 HF25 102 66.9 0.8 123.1 49.3 0.60 21.53 A003 HF25(2) 105 62.2 0.8 107.6 42.9 0.40 18.64 A004 LQ(QH) 104 83.7 0.9 81.9 41.7 1.33 14.05 A005 HHHD 89 70.1 0.6 73.
4、7 36.9 1.53 13.86 A006 SN1 96 74.8 0.7 99.5 40.6 0.20 17.17 A007 HH4 95 55.7 0.7 81.2 36.9 0.70 14.68 A008 HH17 89 54.9 0.6 83.3 33.4 0.40 12.99 A009 HH27 94 60.9 0.7 64.5 29.6 0.00 15.710 A010 SN14 102 77.9 0.7 82.7 37.1 0.07 16.411 A011 LX1 111 39.9 0.8 61.4 36.3 2.92 21.412 A012 DN44 89 51.9 0.6
5、76.4 32.3 0.33 14.513 A013 SN14 103 80.6 0.8 130.1 55.5 0.27 23.914 A014 BF11 97 60.0 0.6 77.3 33.9 0.13 14.515 A015 HH19 97 58.1 0.6 78.7 37.6 0.07 15.916 A016 HF39 103 73.7 0.8 100.7 42.2 0.07 18.817 A017 SN10 104 79.5 0.7 77.9 28.6 0.20 14.018 A018 HH18 104 79.7 0.7 88.3 38.7 0.53 15.019 A019 BF9
6、 98 77.0 0.8 104.2 40.3 0.00 16.520 A020 BF14 98 67.2 0.7 104.5 44.1 0.00 15.921 A021 HH13 91 57.7 0.6 61.5 26.7 0.13 12.222 A022 HF30 98 74.2 0.8 112.9 45.4 0.07 18.723 A023 HH35 90 53.2 0.5 61.6 24.3 0.07 10.124 A024 HH29 91 55.0 0.6 74.9 30.6 0.00 12.025 A025 HH31 93 57.5 0.5 68.5 33.9 0.13 12.82
7、6 A026 HH25 87 44.6 0.5 53.1 23.3 0.07 9.427 A027 JN21 112 95.5 0.8 133.9 54.5 1.00 23.428 A028 HH14 94 47.3 0.6 67.7 28.1 0.33 13.729 A029 HF37 94 62.6 0.6 80.1 34.7 0.53 12.430 A030 DD2 81 39.4 0.5 62.2 26.7 0.00 9.3 test plot(x3:9) test.reg summary(test.reg) 散点图如下所示Call:lm(formula = DZLZ SYRS + Z
8、G + ZC + DZLS + DZJS + YXFZS, data = test)Residuals: Min 1Q Median 3Q Max -3.0772 -0.7143 0.0983 0.8750 3.1914 Coefficients: Estimate Std. Error t value Pr(|t|) (Intercept) -15.01034 4.72092 -3.180 0.00418 *SYRS 0.22688 0.06947 3.266 0.00340 *ZG -0.08549 0.03144 -2.719 0.01223 * ZC 2.39889 4.89316 0
9、.490 0.62860 DZLS 0.04386 0.04849 0.904 0.37514 DZJS 0.23279 0.12544 1.856 0.07635 . YXFZS 0.14235 0.70657 0.201 0.84211 -Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1 Residual standard error: 1.441 on 23 degrees of freedomMultiple R-squared: 0.8828, Adjusted R-squared: 0.8522 F-statistic: 28.87 on
10、 6 and 23 DF, p-value: 1.318e-09 由获得的数据可以看出有些变量的回归系数并不显著,如ZC(株粗),YXFZS(有效分枝数)的回归系数对应的T统计量p值均大于0.5,这说明将所有变量纳入回归模型是不合适的,因此要对变量进行筛选。 程序如下 test_step-step(test.reg)Start: AIC=27.93DZLZ SYRS + ZG + ZC + DZLS + DZJS + YXFZS Df Sum of Sq RSS AIC- YXFZS 1 0.0842 47.819 25.987- ZC 1 0.4988 48.234 26.246- DZLS
11、 1 1.6977 49.433 26.983 47.735 27.934- DZJS 1 7.1476 54.883 30.120- ZG 1 15.3454 63.081 34.296- SYRS 1 22.1352 69.870 37.363Step: AIC=25.99DZLZ SYRS + ZG + ZC + DZLS + DZJS Df Sum of Sq RSS AIC- ZC 1 0.6044 48.424 24.364- DZLS 1 2.1417 49.961 25.301 47.819 25.987- DZJS 1 12.9791 60.799 31.191- ZG 1
12、17.5794 65.399 33.379- SYRS 1 25.1707 72.990 36.674Step: AIC=24.36DZLZ SYRS + ZG + DZLS + DZJS Df Sum of Sq RSS AIC- DZLS 1 2.223 50.647 23.710 48.424 24.364- DZJS 1 14.587 63.011 30.263- ZG 1 17.109 65.533 31.440- SYRS 1 48.098 96.522 43.057Step: AIC=23.71DZLZ SYRS + ZG + DZJS Df Sum of Sq RSS AIC
13、50.647 23.710- ZG 1 14.891 65.537 29.443- SYRS 1 45.894 96.541 41.063- DZJS 1 108.182 158.829 55.999 summary(test_step)Call:lm(formula = DZLZ SYRS + ZG + DZJS, data = test)Residuals: Min 1Q Median 3Q Max -3.4228 -0.7039 0.2203 0.7159 3.1551 Coefficients: Estimate Std. Error t value Pr(|t|) (Intercep
14、t) -15.70285 3.82613 -4.104 0.000356 *SYRS 0.24016 0.04948 4.854 4.94e-05 *ZG -0.07512 0.02717 -2.765 0.010333 * DZJS 0.34621 0.04646 7.452 6.51e-08 *-Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1 Residual standard error: 1.396 on 26 degrees of freedomMultiple R-squared: 0.8756, Adjusted R-squared:
15、 0.8613 F-statistic: 61.03 on 3 and 26 DF, p-value: 6.692e-12 上表数据显示了每一步筛选的变量,筛选进行了四步,最终选入的模型变量为SYRS(生育日数),ZG(株高),DZJS(单株夹数)。根据最后一步筛选,可以写出的多元回归方程为: DZLZ=0.24061SYRS 0.07512ZG + 0.34621DZJS 15.70285下面我们通过残差图对以上结果进行检验程序如下 Plot(test.reg) 运行结果 1图 2图 3图 4图由以上四个图表中分析可知 第1个图是拟合值与残差的散点图,从图上可以发现,除去第9个离群点和第4个
16、离群点外,所有点基本上是随机地分散在纵坐标值为-2 和+2 的两条平行线之间,这说明随机误差项具有同方差性,说明回归直线对原观测值的拟合情况良好。2图表明随机误差项是服从正态分布的,其原因是正态Q-Q 图近似地可以看成一条直线;3图是拟合值与残差的标准差的散点图,其意义与1图类似;4图的CooK 距离图进一步证实第9个观测值和第4个观测值是两个离群点,它对回归方程的影响是比较大的,要根据具体问题,讨论出现这一观测值的实际背景。从“残差图”可以直观地看出残差的绝对数值都比较小,所描绘的点都在以0为横轴的直线上下随机散布,回归直线对各个观测值的拟合情况是良好的。说明变量自变量(种子性状)与因变量(
17、单株产量)之间有显著的线性相关关系。结论 从数据中分析得出结论,这说明种子的单株粒重受到生育日数,株高,单株夹数这三个因素的影响其依赖关系大致如回归方程所示。 吉林省大豆产业无论是与竞争性作物相比,还是与其他大豆主产区相比都存在一定的比较优势,发展前景广阔。选种育种对于大豆产量的影响是明显的,采用科学的方法筛选出优质大豆既体现科学的严谨性的同时也使得农业产量科学性发展得以实现。大豆产品是吉林省的重要发展支柱,建立大豆产品市场质量标准和自主品牌;加强政府对大豆产业的扶持;建立健全适应大豆产业化经营需要的社会化服务体系。鼓励大豆产业发展,使之在带动吉林省农业可持续发展发挥科学示范作用。参考资料 中国统计网 XX百科 中华粮网数据中心
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1