数据分析大作业讲解.docx

上传人:b****4 文档编号:619646 上传时间:2022-10-11 格式:DOCX 页数:46 大小:72.08KB
下载 相关 举报
数据分析大作业讲解.docx_第1页
第1页 / 共46页
数据分析大作业讲解.docx_第2页
第2页 / 共46页
数据分析大作业讲解.docx_第3页
第3页 / 共46页
数据分析大作业讲解.docx_第4页
第4页 / 共46页
数据分析大作业讲解.docx_第5页
第5页 / 共46页
点击查看更多>>
下载资源
资源描述

数据分析大作业讲解.docx

《数据分析大作业讲解.docx》由会员分享,可在线阅读,更多相关《数据分析大作业讲解.docx(46页珍藏版)》请在冰豆网上搜索。

数据分析大作业讲解.docx

数据分析大作业讲解

第一章数据描述分析

(一)目的与要求:

掌握利用统计软件求样本的数据特征、数据的分布,并理解所求各统计值的实际意义及作用,能把数据特征及数据分布用以解决实际问题。

掌握正态分布、对数正态分布、威布尔分布、指数分布等几种常见分布的拟合检验方法。

理解相关的本质含义,并会判断几个变量的相关性,掌握几种不同相关性的差别方法;能利用软件输出的结果判断变量的相关性。

(二)重点与难点:

掌握求数据的数字特征的程序结构,并能看懂程序输出的结果。

区别不同的程序过程能求得一些相同的结果,但它们的功能上的区别;掌握几种描述数据分布软件处理方法、意义、实际应用;掌握平均数与中位数的区别与优劣;理解并能利用程序计算结果计算上、下截断点,会利用上、下截断点判别一组数据中是否有截断点,会处理异常值。

掌握多元数据的数字特征及相关性的判断,并会应用程序结果。

1.1某小学60名11岁学生的身高(单位:

cm)数据如下:

(1)计算均值、方差、标准差、变异系数、偏度、峰度;

(2)计算中位数、下和上四分位数、四分位极差、三均值;

(3)作出直方图;

(4)作出茎叶图;

(5)进行正态W检验();

(6)进行经验分布函数的检验。

126149143141127123137132135134146142

135141150137144137134139148144142137

147138140132149131139142138145147137

135142151146129120143145142136147128

142132138139147128139146139131138149

1.21949-1980年全国历年人口(单位:

亿人)如下:

(1)计算均值、方差、标准差、变异系数、偏度、峰度;

(2)计算中位数、下、上四分位数、四分位极差、三均值;

(3)作出直方图;

(4)作出茎叶图;

(5)找出异常值。

(6)进行正态W检验();

(7)进行经验分布函数的检验。

5.41675.51965.63005.74825.87966.0266

6.14656.28286.46536.59946.72076.6207

6.58596.72956.91727.04997.25387.4542

7.63687.85348.06718.29928.52298.7177

8.92119.08599.24209.37179.49749.6259

9.75429.870510.007210.154110.2495

10.347510.4532

1.31978年至1999年我国居民消费数据如表1.3所示

(1)计算均值、方差、标准差、变异系数、偏度、峰度;

(2)计算中位数、下、上四分位数、四分位极差、三均值;

(3)作出直方图;

(4)作出茎叶图;

(5)找出异常值。

1978184138405

1979207158434

1980236178496

1981262199562

1982284221576

1983311246603

1984354283662

1985437347802

1986485376920

19875504171089

19886935081431

19897625531568

19908035711686

19918966211925

199210707182356

199313318553027

1994174611183891

1995233614344874

1996264117685430

1997283418765796

1998297218956217

1999318019736651

1.42002年11月以及1至11月全国各省、市、区财政预算收入数据如下:

(1)计算均值、方差、标准差、变异系数、偏度、峰度;

(2)计算中位数、下、上四分位数、四分位极差;

(3)作出直方图;

(4)作出经验分布函数图;

(5)X1和X2的观测值的pearson相关系数与spearman相关系数。

北京35.22499.80

天津10.41161.37

河北17.22273.29

山西10.70134.79

内蒙古10.2990.92

辽宁18.66348.99

吉林4.41106.89

黑龙江6.24196.44

上海49.72656.95

江苏47.70580.70

浙江36.55518.10

安徽14.85179.41

福建19.46250.16

江西10.93122.06

山东40.26552.74

河南19.82268.20

湖北19.49221.43

湖南16.01197.68

广东99.321080.26

广西14.77160.60

海南3.9639.51

重庆10.49111.76

四川21.71250.09

贵州13.0695.87

云南20.34183.62

西藏0.776.08

陜西11.38133.50

甘肃3.6664.86

青海1.2118.30

宁夏2.3123.81

新疆3.24103.81

1.5对某民族的21人测量其血液4种成分的含量,观测数据如下:

求总体均值向量及总体协方差矩阵的估计。

18.828.15.135.1

17.425.64.933.9

16.027.45.032.2

19.329.51.729.1

17.427.44.535.6

15.325.33.632.2

16.725.84.433.0

17.426.74.433.0

16.225.72.333.9

16.726.76.435.0

18.228.03.229.7

16.726.72.134.9

18.126.74.331.5

16.726.03.032.7

18.130.27.034.9

20.230.54.834.4

20.229.55.536.2

21.531.55.836.5

18.830.65.435.4

21.627.85.434.1

21.329.55.835.8

1.7一组人体的胸部、腹部、手臂部分皮肤的有关数据如下:

(1)计算观测数据均值向量和中位数向量;

(2)计算观测数据的pearson相关矩阵,spearman相关矩阵及各元素对应的检验值,并做相关性的显著性检验。

9.012.03.0

8.515.03.0

13.019.03.0

10.07.04.0

7.013.02.5

15.528.55.0

22.520.04.5

5.58.53.0

25.035.06.5

15.019.04.0

12.520.03.0

17.019.55.0

16.017.56.0

20.020.07.5

12.017.04.0

22.020.06.0

17.028.05.5

16.018.03.0

21.027.56.0

13.014.04.0

21.013.09.0

21.06.03.5

13.56.53.5

5.07.53.5

16.020.05.5

14.514.54.0

10.023.06.0

11.013.06.0

10.512.03.5

15.015.53.0

9.012.55.0

23.024.06.5

14.021.06.5

16.011.03.0

16.517.04.0

16.015.03.0

12.015.53.5

9.04.02.0

12.06.05.0

5.014.03.0

17.015.04.5

16.011.03.0

17.518.03.0

11.515.03.0

4.03.02.0

17.515.04.5

9.511.52.5

26.038.04.0

15.013.04.5

19.012.03.0

第二章线性回归分析

(一)目的与要求:

掌握建立多元回归方程的方法,并能检验所建立回归方程的显著性与方程系数的显著性,能根据实际问题作预测与控制。

(二)重点与难点:

会对实际数据建立有效的多元回归模型,能对回归模型作残差分析;掌握SAS输出结果中用于判别回归方程优良性的不同统计量;能对回归模型进行运用,对实际问题进行预测或控制。

2.4某公司管理人员为了了解某化妆品在一个城市的月销售量Y(单位:

箱)与该城市中适合使用该化妆品的人数X1(单位:

千人)以及他们人均月收入X2(单位:

元)之间的关系,在某个月中对15个城市作了调查,得到的观测值如下:

(1)求回归系数的最小二乘估计和误差方差的估计,写出回归方程并对回归系数作解释;

(2)求出方差分析表,解释对线性回归关系显著性检验的结果,求复相关系数的平方的值并解释其意义;

(3)分别求和的置信度为95%的置信区间;

(4)对,分别检验人数X1及收入X2对销量Y的影响是否显著,利用与回归系数有关的一般假设方法检验X1和X2的交互作用(即X1X2)对Y的影响是否显著;

(5)该公司欲在一个适宜使用该化妆品的人数X01=200,人均月收入X02=2500的新的城市中销售该化妆品,求其销量的预测值及其置信度为95%的置信区间;

(6)求Y的拟合值,残差及学生化残差,根据对学生化残差,根据对学生化残差正态性的频率检验及正态QQ图检验说明模型误差项的正态性假定是否合理,有序学生化残差与相应标准正态分布的分位数的相关系数是多少?

作出各种残差图,分析模型有关假定的合理性。

1622742450

1201803254

2233753802

1312052838

67862347

1692653782

81983008

1923302450

1161952137

55532560

2524304020

2323724427

1442362660

1031572088

2123702605

2.5下面的数据是由特定模型产生的20组模拟数据

(1)首先拟合Y关于X的线性回归模型,结果如何?

通过残差分析(尤其是残差图分析)并参考Y与X的散点图,选择你认为合理的回归函数形式,拟合你所选择的回归模型,再通过残差分析考察所设定的模型的合理性,最后,将你所拟合的回归方程与真实模型()比较,你是否给出了正确的模型形式。

(2)如果对因变量作BOX-COX变换,求变换参数的值,拟合变换后的变量关于X的简单线性回归模型,结果如何?

你对BOX-COX变换有何新的认识?

0.055.9421

0.155.4691

0.255.8724

0.355.1815

0.455.1955

0.555.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 经管营销 > 经济市场

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1