回归分析与非参数检验Word下载.docx
《回归分析与非参数检验Word下载.docx》由会员分享,可在线阅读,更多相关《回归分析与非参数检验Word下载.docx(14页珍藏版)》请在冰豆网上搜索。
姓名:
侯祥飞
班级:
141班
指导教师:
滕颖俏
完成时间:
2016年10月30日
实验目的:
掌握线性回归分析的主要目标及其具体操作,能够读懂基本分析结果,掌握计算结果之间的数量关系,并能够写出回归方程,对回归方程进行各种统计检验。
了解SPSS非参数检验的具体操作,能够解释分析结果。
实验内容、实验步骤、实验结果及分析
一、线性回归分析
(一)9.5粮食总产量
1.实验内容
先收集到若干年粮食总产量以及播种面积、使用化肥量、农业劳动人数等数据,请利用建立多元线性回归方程,分析影响粮食总产量的主要因素。
数据文件名为“粮食总产量.sav”。
2.实验步骤
步骤:
分析→回归→线性→粮食总产量导入因变量、其余变量导入自变量→确定;
分析→回归→线性→(向后)→确定
3.实验结果及分析
上表进行了拟合优度检验,由于该方程有多个解释变量,因此参考调整判定系数(0.986)较接近1,因此认为拟合有度较高,被解释变量可以被模型解释的部分较多,不能被解释的部分较少。
上表进行了回归方程的显著性检验,由于Sig为0小于0.05,所以拒绝原假设,认为各回归系数不同时为0,被解释变量与解释变量全体的线性关系是显著的,可以建立线性模型。
上表进行了回归系数的显著性检验,可以看出除粮食播种面积与农业劳动者人数变量的P-值均大于0.05,所以接受原假设,认为这些偏回归系数与0无显著性差异,它们与被解释变量的线性关系是不显著的,不应该保留在方程中。
影响程度来由大到小依次是风灾面积、施用化肥量、总播种面积和年份(排除农业劳动者人数和粮食播种面积对粮食产量的影响)。
得回归方程为:
,其中X1,X2,X3,X4分别为年份,总播种面积,施用化肥量,风灾面积比例。
(二)9.6销售量
一家产品销售公司在30个地区设有销售分公司。
为研究产品销售量(y)与该公司的销售价格(x1)、各地区的年人均收入(x2)、广告费用(x3)之间的关系,搜集到30个地区的有关数据。
进行多元线性回归分析所得的部分分析结果如下:
1)
将第一张表中的所缺数值补齐。
2)
写出销售量与销售价格、年人均收入、广告费用的多元线性回归方程,并解释各回归系数的意义。
3)
检验回归方程的线性关系是否显著?
4)
检验各回归系数是否显著?
5)
计算判定系数,并解释它的实际意义。
6)
计算回归方程的估计标准误差,并解释它的实际意义。
2.实验结果
1)
Anovab
模型
平方和
df
均方
F
Sig.
1
回归
1.20E+07
3
4.01E+06
72.797
8.88E-13
残差
1.43E+06
26
55069.715
总计
1.35E+07
29
2)
,-117.8861表示销售价格越高,销售量越低,X1对Y的增长起抑制作用,X1与Y是负相关关系。
80.6107表示各地区销售人员的人均收入越高,销售人员的工作积极性越高,所以销售量也越高,X2与Y是正相关关系。
0.5012表示广告费用越高,销售量也越高,X3与Y是正相关关系。
3)回归方程显著性Sig值为8.88341E-13<
0.05,所以拒绝原假设,线性关系显著。
4)各变量显著性Sig值分别为0.00457,0.00103,0.00001,0.00049均小于0.05,拒绝原假设,各回归系数显著。
5)判定系数为:
R2=回归和/综合=12026774.1/13458586.7=0.894
意义为:
产品的销售量的总误差中有89.4%可以用产品的销售价格、各地区的年人均收入和广告费用的线性关系来解释,只有10.6%属于随机因素影响,因此这条回归线是合适的。
6)估计标准误差为:
二、非参数检验
(一)7.1
为分析不同年龄段人群对某商品满意程度的异同,进行随机调查收集到数据(略),选择恰当的非参数检验方法,以恰当形式组织上述数据,分析不同年龄段人群对该商品满意程度的分布状况是否一致。
建立SPSS数据数据→加权个案→对频次进行加权→分析→非参数检验→多个独立样本→把年龄段导入分组变量(1-3)、满意程度导入检验变量列表→确定
从下表中可以看出,Kruskal-Wallis检验与中值检验在显著水平为0.05下得到的sig值均为0.00<
0.05,故拒绝原假设,即认为不同年龄段人群对该商品满意程度的分布存在显著差异。
但Jonckheere-Terpstra检验的sig值为0.641>
0.05,故接受原假设,认为不同年龄段人群对该商品满意程度的分布存在显著差异。
(二)7.2
利用习题二第6题数据,选择恰当的非参数检验方法,分析本次存款金额的总体分布与正态分布是否存在显著差异。
分析→非参数检验→单个独立样本K-S检验→本次存款金额导入检验变量列表→正太分布检验→确定
如上表所示,在显著水平为0.05下得到的sig值均为0.00<
0.05,故拒绝原假设,认为本次存款金额的分布与正太分布有显著差异。
(三)7.3
利用习题二第6题数据,选择恰当的非参数检验方法,分析不同常住地人群本次存款金额的总体分布是否存在显著差异。
分析→非参数检验→2个独立样本→常住地导入分组变量、本次存款金额导入检验变量列表→确定
从上表中可以看出,在显著水平为0.05下得到的sig值为0.135>
0.05,故接受原假设,认为不同常住地人群本次存款金额的总体分布无显著差异。
(四)7.4
利用习题二第6题数据,选择恰当的非参数检验方法,分析不同收入人群本次存款金额的总体分布是否存在显著差异。
分析→非参数检验→多个独立样本→不同收入人群导入分组变量、本次存款金额导入检验变量列表→确定
在表中可以看出,在Kruskal-Wallis检验、中值检验、Jonckheere-Terpstra检验在显著水平为0.05下得到的sig值均为0.00<
0.05,所以拒绝原假设,即认为不同收入人群本次存款金额的总体分布存在显著差异。
(五)7.5
选择恰当的非参数检验方法,对“裁判打分.sav”数据随机选取10%的样本,并以恰当形式重新组织数据后,分析不同国家裁判对运动员的打分标准是否一致。
原假设:
不同国家裁判对运动员的打分标准无显著差异
数据→选择个案→随机个案样本→样本→大约10%所有个案→继续→确定→挑选初选中的数据→国家和评分组建新的SPSS数据→分析→非参数检验→多个独立样本检验→把评分导入检验量→把国家导入分组→确定
根据上表,在Kruskal-Wallis检验、中值检验、Jonckheere-Terpstra检验中,在显著水平为0.05下得到的sig值分别为0.00,0.00,0.047均0.05,拒绝原假设,认为不同国家对其评分有显著影响。
(六)7.6
为分析大众对牛奶品牌是否具有偏好性,随机挑选超市了收集其周一至周六各天三种品牌牛奶的日销售额数据,如下表:
请选择恰当的非参数检验方法,以恰当形式组织上述数据进行分析,并说明分析结论。
建立spss数据→加权个案→销售额进行加权→分析→非参数检验→两个独立样本检验→确定
据上表,Kruskal-Wallis检验、中值检验、Jonckheere-Terpstra检验在显著水平为0.05下得到的sig值分别为0.484,0.733,0.651均0.05,故接受原假设,不同日期对品牌销售量的分布无显著差异。
实验启示:
通过本次实验,我们了解到回归分析是一种应用极为广泛的数量分析方法。
我们还掌握了线性回归分析的具体操作,并会对回归方程进行各种统计检验。
能够运用SPSS进行非参数检验,能够读懂结果并进行分析。