数据分析大作业.docx
《数据分析大作业.docx》由会员分享,可在线阅读,更多相关《数据分析大作业.docx(56页珍藏版)》请在冰豆网上搜索。
数据分析大作业
第一章数据描述分析
(一)目的与要求:
掌握利用统计软件求样本的数据特征、数据的分布,并理解所求各统计值的实际意义及作用,能把数据特征及数据分布用以解决实际问题。
掌握正态分布、对数正态分布、威布尔分布、指数分布等几种常见分布的拟合检验方法。
理解相关的本质含义,并会判断几个变量的相关性,掌握几种不同相关性的差别方法;能利用软件输出的结果判断变量的相关性。
(二)重点与难点:
掌握求数据的数字特征的程序结构,并能看懂程序输出的结果。
区别不同的程序过程能求得一些相同的结果,但它们的功能上的区别;掌握几种描述数据分布软件处理方法、意义、实际应用;掌握平均数与中位数的区别与优劣;理解并能利用程序计算结果计算上、下截断点,会利用上、下截断点判别一组数据中是否有截断点,会处理异常值。
掌握多元数据的数字特征及相关性的判断,并会应用程序结果。
1.1某小学60名11岁学生的身高(单位:
cm)数据如下:
(1)计算均值、方差、标准差、变异系数、偏度、峰度;
(2)计算中位数、下和上四分位数、四分位极差、三均值;
(3)作出直方图;
(4)作出茎叶图;
(5)进行正态W检验(
);
(6)进行经验分布函数的
检验。
126149143141127123137132135134146142
135141150137144137134139148144142137
147138140132149131139142138145147137
135142151146129120143145142136147128
142132138139147128139146139131138149
1.21949-1980年全国历年人口(单位:
亿人)如下:
(1)计算均值、方差、标准差、变异系数、偏度、峰度;
(2)计算中位数、下、上四分位数、四分位极差、三均值;
(3)作出直方图;
(4)作出茎叶图;
(5)找出异常值。
(6)进行正态W检验(
);
(7)进行经验分布函数的
检验。
5.41675.51965.63005.74825.87966.0266
6.14656.28286.46536.59946.72076.6207
6.58596.72956.91727.04997.25387.4542
7.63687.85348.06718.29928.52298.7177
8.92119.08599.24209.37179.49749.6259
9.75429.870510.007210.154110.2495
10.347510.4532
1.31978年至1999年我国居民消费数据如表1.3所示
(1)计算均值、方差、标准差、变异系数、偏度、峰度;
(2)计算中位数、下、上四分位数、四分位极差、三均值;
(3)作出直方图;
(4)作出茎叶图;
(5)找出异常值。
1978184138405
1979207158434
1980236178496
1981262199562
1982284221576
1983311246603
1984354283662
1985437347802
1986485376920
19875504171089
19886935081431
19897625531568
19908035711686
19918966211925
199210707182356
199313318553027
1994174611183891
1995233614344874
1996264117685430
1997283418765796
1998297218956217
1999318019736651
1.42002年11月以及1至11月全国各省、市、区财政预算收入数据如下:
(1)计算均值、方差、标准差、变异系数、偏度、峰度;
(2)计算中位数、下、上四分位数、四分位极差;
(3)作出直方图;
(4)作出经验分布函数图;
(5)X1和X2的观测值的pearson相关系数与spearman相关系数。
北京35.22499.80
天津10.41161.37
河北17.22273.29
山西10.70134.79
内蒙古10.2990.92
辽宁18.66348.99
吉林4.41106.89
黑龙江6.24196.44
上海49.72656.95
江苏47.70580.70
浙江36.55518.10
安徽14.85179.41
福建19.46250.16
江西10.93122.06
山东40.26552.74
河南19.82268.20
湖北19.49221.43
湖南16.01197.68
广东99.321080.26
广西14.77160.60
海南3.9639.51
重庆10.49111.76
四川21.71250.09
贵州13.0695.87
云南20.34183.62
西藏0.776.08
陜西11.38133.50
甘肃3.6664.86
青海1.2118.30
宁夏2.3123.81
新疆3.24103.81
1.5对某民族的21人测量其血液4种成分的含量,观测数据如下:
求总体均值向量
及总体协方差矩阵
的估计。
18.828.15.135.1
17.425.64.933.9
16.027.45.032.2
19.329.51.729.1
17.427.44.535.6
15.325.33.632.2
16.725.84.433.0
17.426.74.433.0
16.225.72.333.9
16.726.76.435.0
18.228.03.229.7
16.726.72.134.9
18.126.74.331.5
16.726.03.032.7
18.130.27.034.9
20.230.54.834.4
20.229.55.536.2
21.531.55.836.5
18.830.65.435.4
21.627.85.434.1
21.329.55.835.8
1.7一组人体的胸部、腹部、手臂部分皮肤的有关数据如下:
(1)计算观测数据均值向量和中位数向量;
(2)计算观测数据的pearson相关矩阵,spearman相关矩阵及各元素对应的检验值,并做相关性的显著性检验。
9.012.03.0
8.515.03.0
13.019.03.0
10.07.04.0
7.013.02.5
15.528.55.0
22.520.04.5
5.58.53.0
25.035.06.5
15.019.04.0
12.520.03.0
17.019.55.0
16.017.56.0
20.020.07.5
12.017.04.0
22.020.06.0
17.028.05.5
16.018.03.0
21.027.56.0
13.014.04.0
21.013.09.0
21.06.03.5
13.56.53.5
5.07.53.5
16.020.05.5
14.514.54.0
10.023.06.0
11.013.06.0
10.512.03.5
15.015.53.0
9.012.55.0
23.024.06.5
14.021.06.5
16.011.03.0
16.517.04.0
16.015.03.0
12.015.53.5
9.04.02.0
12.06.05.0
5.014.03.0
17.015.04.5
16.011.03.0
17.518.03.0
11.515.03.0
4.03.02.0
17.515.04.5
9.511.52.5
26.038.04.0
15.013.04.5
19.012.03.0
第二章线性回归分析
(一)目的与要求:
掌握建立多元回归方程的方法,并能检验所建立回归方程的显著性与方程系数的显著性,能根据实际问题作预测与控制。
(二)重点与难点:
会对实际数据建立有效的多元回归模型,能对回归模型作残差分析;掌握SAS输出结果中用于判别回归方程优良性的不同统计量;能对回归模型进行运用,对实际问题进行预测或控制。
2.4某公司管理人员为了了解某化妆品在一个城市的月销售量Y(单位:
箱)与该城市中适合使用该化妆品的人数X1(单位:
千人)以及他们人均月收入X2(单位:
元)之间的关系,在某个月中对15个城市作了调查,得到的观测值如下:
(1)求回归系数
的最小二乘估计和误差方差
的估计,写出回归方程并对回归系数作解释;
(2)求出方差分析表,解释对线性回归关系显著性检验的结果,求复相关系数的平方
的值并解释其意义;
(3)分别求
和
的置信度为95%的置信区间;
(4)对
,分别检验人数X1及收入X2对销量Y的影响是否显著,利用与回归系数有关的一般假设方法检验X1和X2的交互作用(即X1X2)对Y的影响是否显著;
(5)该公司欲在一个适宜使用该化妆品的人数X01=200,人均月收入X02=2500的新的城市中销售该化妆品,求其销量的预测值及其置信度为95%的置信区间;
(6)求Y的拟合值,残差及学生化残差,根据对学生化残差,根据对学生化残差正态性的频率检验及正态QQ图检验说明模型误差项的正态性假定是否合理,有序学生化残差与相应标准正态分布的分位数的相关系数是多少?
作出各种残差图,分析模型有关假定的合理性。
1622742450
1201803254
2233753802
1312052838
67862347
1692653782
81983008
1923302450
1161952137
55532560
2524304020
2323724427
1442362660
1031572088
2123702605
2.5下面的数据是由特定模型产生的20组模拟数据
(1)首先拟合Y关于X的线性回归模型,结果如何?
通过残差分析(尤其是残差图分析)并参考Y与X的散点图,选择你认为合理的回归函数形式,拟合你所选择的回归模型,再通过残差分析考察所设定的模型的合理性,最后,将你所拟合的回归方程与真实模型(
)比较,你是否给出了正确的模型形式。
(2)如果对因变量作BOX-COX变换,求变换参数的值,拟合变换后的变量关于X的简单线性回归模型,结果如何?
你对BOX-COX变换有何新的认识?
0.055.9421
0.155.4691
0.255.8724
0.355.1815
0.455.1955
0.555.2487
0.655.1356
0.755.2260
0.855.0813
0.955.2236
1.054.7349
1.154.5949
1.255.1543
1.355.2844
1.455.3448
1.555.1462
1.655.4091
1.755.6500
1.856.0256
1.955.5350
2.6在林业工程中,研究树干的体积与离地面一定高度的树干直径和树干高度之间的关系具有重要的实用意义,下面给出了31棵树的相关数据:
(1)首先拟合线性回归模型
,通过残差分析考察模型的合理性,是否需要对数据作变换?
(2)对因变量Y作BOX-COX变换,求变换参数的值。
对变换后的因变量重新拟合与X1,X2的线性回归模型并作残差分析,BOX-COX变换的效果如何?
8.37010.3
8.66510.3
8.86310.2
10.57216.4
10.78118.8
10.88319.7
11.06615.6
11.07518.2
11.18022.6
11.27519.9
11.37924.2
11.47621.0
11.47621.4
11.76921.3
12.07519.1
12.97422.2
12.98533.8
13.38627.4
13.77125.7
13.86424.9
14.07834.5
14.28031.7
14.57436.3
16.07238.3
16.37742.6
17.38155.4
17.58255.7
17.98058.3
18.08051.5
18.08051.0
20.68777.0
2.9某医院为了了解病人对医院工作的满意程度和病人的年龄、病情的严重程度和病人的忧虑程度之间的关系,随机调查了该医院的23位病人,得数据如下:
(1)拟合线性回归模型
,通过残差分析考察模型及有关误差分布正态性假定的合理性;
(2)若
(1)中模型合理,分别在(i)
、(ii)
和(iii)
准则下选择最优回归方程,各准则下的选择结果是否一致?
(3)对
,用逐步回归法选择最优回归方程,其结果和
(2)中的是否一致?
(4)对选择的最优回归方程作残差分析,与
(1)中的相应结果比较,有何变化?
50512.348
36462.357
40482.266
41441.870
28431.889
49542.936
42502.246
45482.454
52622.926
29502.177
29482.489
43532.467
38552.247
34512.351
53542.257
36492.066
33562.579
29461.988
33492.160
55512.449
29522.377
44582.952
43502.360
第三章方差分析
(一)目的与要求:
能利用原始数据与误差分析作方差分析,并能理解各因素对观测的影响和作用;能根据SAS输出结果进行有无交互效应的分析。
(二)重点与难点:
理解观测数据在单因素和两因素下的总平方和分解表达式,两因素中无交互效应的分析,能利用方差分析的SAS过程解决有关实际应用问题。
3.4考察四种不同催化剂对某一化工产品得率的影响,在四种不同催化剂下分别作了6次试验,得数据如下:
假定各种催化剂下产品的得率服从同方差的正态分布,试在下
,检验四种不同催化剂对该化工产品的得率有无显著影响。
a10.88
a10.85
a10.79
a10.86
a10.85
a10.83
a20.87
a20.92
a20.85
a20.83
a20.90
a20.80
a30.84
a30.78
a30.81
a30.80
a30.85
a30.83
a40.81
a40.86
a40.90
a40.87
a40.78
a40.79
3.5为了了解生产某种电子设备的公司在过去三年中的科研经费投入(分为低、中、高三档)对当年生产能力提高的影响,调查了共计27家生产该设备的公司,对当年生产能力较之三年前的提高量作评估,得数据如下:
(1)建立方差分析表,在显著水平
下检验过去三年科研经费投入的不同是否对当年生产力的提高有显著影响。
(2)分别以
和
记在过去三年科研经费投入为低、中、高情况下当年生产能力提高量的均值,分别给出
和
的置信度为95%的置信区间以及差值
、
和
的置信度不小于95%的Bonferroni置信区间。
是否过去三年科研经费投入越高,当年生产能力的改善越显著?
a17.6
a18.2
a16.8
a15.8
a16.9
a16.6
a16.3
a17.7
a16.0
a26.7
a28.1
a29.4
a28.6
a27.8
a27.7
a28.9
a27.9
a28.3
a28.7
a27.1
a28.4
a38.5
a39.7
a310.1
a37.8
a39.6
a39.5
3.6为研究两种形式的铁离子(Fe3+和Fe2+)在不同计量下在动物体内的存留量是否有显著不同,进行了如下试验:
将108只小白鼠随机地分为6组,每组均为18只,其中3组分别给以三种不同剂量(高、中、低剂量)的三价铁Fe3+;另3组给以相应剂量的二价铁Fe2+。
经过一段时间后,测量各小白鼠体内两种铁离子的存留量关于最初服用剂量的百分比,其数据如下:
(1)求出各组合水平的观测值的样本均值和标准差。
各水平组合上的标准差差异是否明显?
你认为假定误差的等方差性是否合理?
(2)对观测数据作自然变换,再进行
(1)中分析。
此时,各组合水平上的标准差是否趋于一致?
(3)对变换后的数据进行方差分析,建立方差分析表,在显著水平
下,因素的交互效应是否显著?
各因素的交互效应是否显著?
各因素的影响是否显著?
(4)分别求各因素在其不同水平上的均值的置信度为95%的置信区间以及两两均值之差的置信度不小于95%的Bonferroni置信区间,并对结果作解释。
a1b10.71
a1b11.66
a1b12.01
a1b12.16
a1b12.42
a1b12.42
a1b12.56
a1b12.60
a1b13.31
a1b13.64
a1b13.74
a1b13.74
a1b14.39
a1b14.50
a1b15.07
a1b15.26
a1b18.15
a1b18.24
a1b22.20
a1b22.93
a1b23.08
a1b23.49
a1b24.11
a1b24.95
a1b25.16
a1b25.54
a1b25.68
a1b26.25
a1b27.25
a1b27.90
a1b28.85
a1b211.96
a1b215.54
a1b215.89
a1b218.30
a1b218.59
a1b32.25
a1b33.93
a1b35.08
a1b35.82
a1b35.84
a1b36.89
a1b38.50
a1b38.56
a1b39.44
a1b310.52
a1b313.46
a1b313.57
a1b314.76
a1b316.41
a1b316.96
a1b317.56
a1b322.82
a1b329.13
a2b12.20
a2b12.69
a2b13.54
a2b13.75
a2b13.83
a2b14.08
a2b14.27
a2b14.53
a2b15.32
a2b16.18
a2b16.22
a2b16.33
a2b16.97
a2b16.97
a2b17.52
a2b18.36
a2b111.65
a2b112.45
a2b24.04
a2b24.16
a2b24.42
a2b24.93
a2b25.49
a2b25.77
a2b25.86
a2b26.28
a2b26.97
a2b27.06
a2b27.78
a2b29.23
a2b29.34
a2b29.91
a2b213.46
a2b218.40
a2b223.89
a2b226.39
a2b32.71
a2b35.43
a2b36.38
a2b36.38
a2b38.32
a2b39.04
a2b39.56
a2b310.01
a2b310.08
a2b310.62
a2b313.80
a2b315.99
a2b317.90
a2b318.25
a2b319.32
a2b319.87
a2b321.60
a2b322.25
3.7为研制一种治疗枯草热病的药物,将两种成分(A和B)各按三种不同剂量(高、中、低)混合,将36位自愿受试患者随机分成9组,每组4人服用各种剂量混合下的药物,记录其病情缓解的时间(单位:
小时)如下:
(1)计算每个水平组合(Ai,Bj)上的均值
的估计值
,做出形如图3.2的图形,判断A与B的交互效应是否显著?
(2)假设所给数据服从方差分析模型,建立方差分析表,A与B的交互效应在
是否显著?
(3)A与B的交互效应显著,分别就A的各水平Ai(i=1,2,3),给出在B的各水平Bj上的均值
的置信度为95%的置信区间以及两两均值之差的置信度不小于95%的Bonferroni置信区间。
固定B的各水平Bj,关于因素A作类似分析,你能选出最佳是水平组合?
a1b12.4
a1b12.7
a1b12.3
a1b12.5
a1b24.6
a1b24.2
a1b24.9
a1b24.7
a1b34.8
a1b34.5
a1b34.4
a1b34.6
a2b15.8
a2b15.2
a2b15.5
a2b15.3
a2b28.9
a2b29.1
a2b28.7
a2b29.0
a2b39.1
a2b39.3
a2b38.7
a2b39.4
a3b16.1
a3b15.7
a3b15.9
a3b16.2
a3b29.9
a3b210.5
a3b210