统计学实验报告.docx

资源描述

统计学实验报告.docx

《统计学实验报告.docx》由会员分享，可在线阅读，更多相关《统计学实验报告.docx（27页珍藏版）》请在冰豆网上搜索。

统计学实验报告.docx

统计学实验报告

福建农林大学经济与管理学院旅游学院

实验报告

课程名称：

统计学

专业班级：

学号：

学生姓名:

指导教师：

成绩:

2011年12月20日

实验一：

EXCEL的数据整理与显示

一、实验目的及要求：

（一）目的

1．了解EXCEL的基本命令与操作、熟悉EXCEL数据输入、输出与编辑方法；

2．熟悉EXCEL用于预处理的基本菜单操作及命令；

3．熟悉EXCEL用于整理与显示的基本菜单操作及命令。

（二）内容及要求

根据学生实验数据2011-2012,

1．用Excel制作一张学生政治面貌的频数分布表，并绘制一张柱状图，反映不同政治面貌的学生人数分布情况。

2．对学生的体重进行等距分组，整理成频数分布表，并绘制直方图。

3．编制生源与专业交叉分布的列联表，并画出雷达图，比较两个专业的学生生源的分布是否相似。

二、仪器用具

硬件：

计算机（安装Windows98、Windows2000或WindowsXP或以上）

软件：

EXCEL

三、实验原理

统计中数据整理与显示的相关理论。

四、实验方法与步骤

（1）选中所有的数据—数据—数据透视表和数据透视图

打开数据表，选中所提供的所有数据。

点击“数据”，选择“数据透视表和数据透视图”，进入数据透视表和数据透视图向导页面，选择数据区域—布局—将“政治面貌”字段拉入“行”区域，在“数据“中拉入”政治面貌“，选择其汇总方式为“计数”，见图1，将结果保持在新工作表中，得到学生政治面貌的频数分布表。

图1政治面貌数据透视表操作

点击数据透视表的工作菜单中的透视图的图标，得到“政治面貌“的频数分布的柱形图。

（2）工具--加载宏—工具—数据分析---直方图

选择体重这一字段的所有数据，首先先对体重字段数据进行排序。

然后，为该字段设置接受区域，分别为49，59，69，79，89。

图2接收区域设置

选择工具菜单中的数据分析，选择直方图，录入数据的输入区域，接收区域和输出区域，并输出图表。

（３）数据透视表---交叉频数分布列联表表---分布表处理---插入雷达图

首先，先建立数据透视表，得到专业和生源的交叉频数分布列联表表处理。

然后，对得到的交叉频数分布列联表表进行处理，得到每个专业中不同地区生源比例分布表。

最后，通过插入菜单中的插入图表，选择插入雷达图得到结果。

五、实验结果与数据处理

（１）实验一操作结果如下表1和图3：

表1学生政治面貌的频数分布表

政治面貌

汇总

共青团员

160

其他

中共党员

总计

180

图3学生政治面貌的频数分布柱状图

（２）实验二操作结果如下表2、和图4：

表2接收区域结果输出

接收区域

频率

累积%

40-49

32.22%

50-59

71.11%

60-69

93.33%

70-79

99.44%

80-89

100.00%

其他

100.00%

图4　学生体重频率分布直方图

（3）实验三操作结果如下表3、表4和图5：

表3生源与专业交叉分布的列联表

专业

生源

北京、天津、上海

农村

省会城市

县城

小城镇、集镇

中等城市

总计

会计

110

物流

总计

180

表4生源与专业交叉分布的列联表数据处理

生源

专业

会计

物流

北京、天津、上海

0.2273

0.2

农村

0.1182

0.1714

省会城市

0.1273

0.1857

县城

0.2091

0.2

小城镇、集镇

0.1091

0.0714

中等城市

0.2091

0.1714

总计

图5生源与专业交叉分布雷达图

六、讨论与结论

对于实验一，我比较常用的是数据透视表和数据透视图。

关于这数据透视表和数据透视图，刚开始应用的时候，比较生疏。

其实，在学校统计学之前，我们已经接触过这数据透视表和数据透视图了。

但是，由于使用不经常，导致对其掌握不够。

在今年学习统计学后，对于透视表中行和列的数据选择方面就比较不清楚该把哪个因素放在行向量，哪个应该放在列向量。

第二个实验题目，对于我来说，就比较陌生了。

如果没有认真地在课上，听老师的讲解，我就不知道如何下手了。

这关于接收区域，这是以前从来就没有接触过的。

还好，我认真听课了，虽然，操作地不是很流畅。

但是，大概的步骤就比较清楚。

而后面，为了视图的美观，我们又要修改接收区域。

其实，在excel所输出的操作结果里，“人数”这一栏系统总是默认为“频率”。

但是，其实这一项是频数。

操作时如果不注意，我们就会被误导了。

对于第三题中的雷达图，我之前也没有自己操作过。

这操作过程中，我原先是没有进行我所描写的步骤里的第二步的。

就是说没有对得到的交叉列联表进行处理。

只是单纯的利用输出的数量进行画图。

但是，总会出现错误。

后来，老师告诉我，这雷达图画图使用的数据必须是百分比数据。

这才把这一题给解决了。

其实，这统计学学习还挺有趣的。

因为这一门课程，我才发觉自己对excel的利用是非常不够的。

生活中其实很多地方都可以直接利用excel的强大功能了。

实验报告评分表

学生姓名

念彩娟

学号

091735013

专业年级

2009旅游管理

实验项目名称

实验一：

EXCEL的数据整理与显示

实验学时

3学时

评价项目

权重

评价内容

评价结果

得分

实验态度

20%

实验态度端正，遵守实验室守则，严格按照实验要求进行操作。

实验过程

30%

实验项目符合大纲，实验方法科学；步骤操作合理，逻辑条理清晰，符合指导书要求。

实验结论与讨论

30%

实验结论正确，分析、讨论深入。

实验报告描述

20%

语言精炼、流畅、准确、灵活，逻辑性强；结构严谨规范，条理清晰，布局合理，系统严密。

总分

教师签名

实验二：

EXCEL的数据特征描述、列联分析、多元回归分析

一、实验目的及要求：

（一）目的

熟悉EXCEL用于数据描述统计、列联分析、多元回归的基本菜单操作及命令。

（二）内容及要求

根据学生实验数据2011-2012，

1．对学生的身高进行描述统计，说明学生身高的一些基本特征。

2．对不同户口中贫困生的分布情况编制列联表，并分析贫困生的数量的多少是否与户口的不同是有关。

3．根据学生的体育成绩（y1）与学生的年龄（x1）、体重（x2）和身高（x3），性别（x4）建立一个多元回归模型，并判断此模型有无意义。

二、仪器用具

硬件：

计算机（安装Windows98、Windows2000或WindowsXP或以上）

软件：

EXCEL

三、实验原理

统计中数据整理与显示的相关理论。

四、实验方法与步骤

（1）加载宏—分析数据库—工具—数据分析—描述统计—录入数据—得到结果—进行分析

首先，先通过工具菜单，选择“加载宏”，选择“分析工具库”。

再通过工具中出现的“数据分析”中的“描述统计”，录入输入区域为所有“身高”字段的数据，默认分组方式为“逐列”，选择输出区域，默认系统的其他选项，选择确定后，得到身高特征描述统计表。

图1描述统计页面

图2身高数据的众数、中位数和平均数及其构成趋势图

由描述统计结果及图2可以分析得到：

a、由集中趋势度量值中位数、众数和平均值的关系：

平均值>中位数>众数，且其偏度为0.248125331>0，故身高因素呈右偏分布；

b、由标准差与平均值的比值得到离散系数为0.048458，说明身高变量的离散程度小。

c、有峰态度量峰度=-0.696982464可知，身高因素呈平峰分布。

（2）数据透视表—布局—列联表—计算得到期望系数—计算期望值—引入统计函数“CHITEST”—对结果进行分析

首先，通过“数据”菜单中的透视表和透视图得到贫困生与户口的交叉列联表。

由得到的交叉列联表中的数据得到城市户口的期望系数和农村的期望系数。

并由此计算得到相应的期望值，得到观察值和期望值对比分布表。

表1观察值和期望值对比分布列联表

户口

贫困生

非贫困生

贫困生

城市户口

观察值

122

期望值

119.38

16.62

农村户口

观察值

期望值

38.62

5.38

总计

158

将观察值和期望值列表，通过插入统计函数“CHITEST”计算得到p值为0.587505>0.1，因此可以认定贫困生的数量的多少与户口的不同无关。

（3）按顺序提取因素—对体育成绩变量的数据进行处理—处理定性数据性别变量—数据分析—回归—分析结果并得到回归方程模型—判断模型有效性

首先，将学生的体育成绩（y1）与学生的年龄（x1）、体重（x2）和身高（x3）按顺序提取放在新的工作表中。

考虑到，男女生体育成绩不具可比性，先对体育成绩进行处理。

先对数据进行“筛选”，选出性别为“女”的学生的所有体育成绩，利用函数公式，将其成绩分别除以0.8，得到结果。

然后，用同样步骤选出性别“男”的体育成绩，分别除以1得到结果。

又考虑到性别因素是定性因素，对该因素引入0-1变量，以0代表性别为“男”，1代表性别为“女”。

然后，通过数据分析中的回归，录入x值和y值，选定适当输出区域，得到计算结果如下表2、表3和表4。

表2回归统计结果

项目

数据结果

MultipleR

0.796934

RSquare

0.635103

AdjustedRSquare

0.626763

标准误差

25.01996

观测值

180

表3方差分析结果

SignificanceF

回归分析

190671.3

47667.83

76.14687

2.77007E-37

残差

175

109549.7

625.9985

总计

179

300221

表4T检验结果

Coefficients

标准误差

tStat

P-value

Lower95%

Upper95%

Intercept

461.06

78.62

5.86

0.00

305.90

616.23

年龄

-1.67

2.05

-0.81

0.42

-5.71

2.37

体重

0.31

0.34

0.90

0.37

-0.36

0.98

身高

-0.92

0.43

-2.15

0.03

-1.76

-0.08

性别

-56.93

6.20

-9.18

0.00

-69.17

-44.69

最后，对结果进行分析，由回归建立回归方程，我们可得到回归函数模型如下：

，

并通过回归分析中的

、方差分析的分析

<0.05和T检验的P值结果，综合判断模型的有效性。

五、实验结果与数据处理

（1）实验一操作结果如下表5：

表5身高特征描述统计

项目

数据

项目

数据

平均

164.7722222

区域

标准误差

0.595129756

最小值

150

中位数

163.5

最大值

186

众数

155

求和

29659

标准差

7.984503536

观测数

180

方差

63.75229671

最大

（1）

186

峰度

-0.696982464

最小

（1）

150

偏度

0.248125331

置信度（95.0%）

1.174372756

（2）实验二操作结果如下表2：

表6贫困生与户口列联表

户口

贫困生

总计

非贫困生

贫困生

城市

122

136

农村

总计（人）

158

180

将观察值和期望值列表，通过插入统计函数“CHITEST”计算得到p值为0.587505>0.1，因此可以认定贫困生的数量的多少与户口的不同无关。

（3）实验三操作结果。

由回归得到结果，我们可得到回归函数模型如下：

由

和修正后的

可知，该回归方程能解释体育成绩与三个因素的关系的比率分别0.635103和0.626763，说明该模型可行。

查看方差分析结果，其

<0.05，该结果是可接受的。

查看T检验，发现四个因素中，年龄、体重两个因素不能通过T检验。

因此，认为该模型是没有意义的。

六、讨论与结论

其实，对于这一份实验报告内的内容，因为之前经常应用，总体上我掌握的比较好。

我认为，对于这个实验报告，比较有必要提的就是对数据分析工具的应用了。

因为，掌握了数据分析工具，很多问题都可以应用这一工具解决的。

这一份实验报告中，除了要掌握数据分析工具外，还要具备一定的知识。

像我们必须了解这工具处理输出的结果中的数据都分别代表什么意思。

比如，我们做回归拟合与预测，我们必须要懂得输出的回归统计表格中的R-Squre是用百分比数据代表我们平时用来表示该拟合的方程模型能够解释数据的程度。

如果比值越大，则表示该模型越能够解释数据；否则，反之。

还有，方差分析表格中，我们其实需要看的最重要的一个数据，便是significanceF这个项了。

这一项就是方差分析中的P值了。

如果其值大于0.1，则表示该回归模型不能通过方差检验。

而如果其比值小于0.05，则可以认为该模型十分有意义；否则，就可以认为该模型没有意义。

同样，在T检验中，我们要注意的就是P-value这个选项了。

这个选项的应用标准和方差分析中significanceF的应用标准是一样的。

不论在T检验中，有几项没有通过经检，都认为模型不具有存在意义。

当然，在T检验中，除了要注意P-value这个选项外，还要注意Coefficients这个选项了。

因为，我们所需要的回归方程就是从这而来了。

Intercept这一栏中的数据，就是线性回归模型中的常数项了，以下的项就根据不同因素，代表各个自变量的系数。

只有掌握了该具备的知识，对于系统输出的结果才能看得懂其意思。

否则，即使学会了机械的操作，也无济于事。

实验报告评分表

学生姓名

念彩娟

学号

091735013

专业年级

2009旅游管理

实验项目名称

实验二：

用EXCEL展示数据的分布特征、

列联分析、多元回归

实验学时

3学时

评价项目

权重

评价内容

评价结果

得分

实验态度

20%

实验态度端正，遵守实验室守则，严格按照实验要求进行操作。

实验过程

30%

实验项目符合大纲，实验方法科学；步骤操作合理，逻辑条理清晰，符合指导书要求。

实验结论与讨论

30%

实验结论正确，分析、讨论深入。

实验报告描述

20%

语言精炼、流畅、准确、灵活，逻辑性强；结构严谨规范，条理清晰，布局合理，系统严密。

总分

教师签名

实验三：

时间序列分析

一、实验目的及要求：

（一）目的

掌握EXCEL用于移动平均、线性趋势分析的基本菜单操作及命令。

（二）内容及要求

综合运用统计学时间序列中的移动平均、季节指数运算、时间序列因素分解、图形展示等知识，并结合经济学等方面的知识，对一家大型百货公司最近几年各季度的销售额数据（见Book13）的构成要素进行分解，并绘制图形进行分析。

二、仪器用具

硬件：

计算机（安装Windows98、Windows2000或WindowsXP或以上）

软件：

EXCEL

三、实验原理

时间序列分析中的移动平均分析原理、季节指数原理等。

四、实确定验方法与步骤

（1）首先，先将数据进行处理，按顺序整理成按季度为单位发展的时间序列。

然后，通过移动平均剔除法，采用“4步移动，2步移正”求出该百货公司各季度销售额的中心化移动平均值，并得到销售额与中心化移动平均值的比值。

表1某百货公司销售额的中心化移动平均值及其比值

年/季

时间标号t

销售额Y

移动平均值

中心化移动平均值（CMA）

比值（Y/CMA）

1991/1

993.1

——

971.2

——

2264.1

1542.925

1627.988

1.390735

1943.3

1713.05

1833.088

1.060124

1992/1

1673.6

1953.125

2161.088

0.774425

1931.5

2369.05

2511.088

0.769189

3927.8

2653.125

2736.725

1.435219

3079.6

2820.325

2897.963

1.062678

1993/1

2342.4

2975.6

2953.063

0.79321

2552.6

2930.525

3104.675

0.822179

3747.5

3278.825

3392.825

1.104537

4472.8

3506.825

3718.4

1.202883

续表1某百货公司销售额的中心化移动平均值及其比值

年/季

时间标号t

销售额Y

移动平均值

中心化移动平均值（CMA）

比值（Y/CMA）

4245.2

4480.875

4718.413

0.899709

5951.1

4955.95

5037.175

1.181436

6373.1

5118.4

5225.988

1.219502

1995/1

3904.2

5333.575

5496.263

0.710337

5105.9

5658.95

5941.125

0.859416

7252.6

6223.3

6420.675

1.12957

8630.5

6618.05

6729.475

1.282492

1996/1

5483.2

6840.9

7031.338

0.779823

5997.3

7221.775

7233.038

0.829154

8776.1

7244.3

7199.35

1.219013

8720.6

7154.4

7161.113

1.217772

1997/1

5123.6

7167.825

7269.838

0.704775

6051

7371.85

7324.425

0.82614

9592.2

7277

7254.35

1.322269

8341.2

7231.7

7328.513

1.138185

1998/1

4942.4

7425.325

7338.813

0.67346

6825.5

7252.3

7300.038

0.934995

8900.1

7347.775

7356.213

1.209875

8723.1

7364.65

7293.7

1.195977

1999/1

5009.9

7222.75

7112.338

0.704396

6257.9

7001.925

6894.738

0.907634

8016.8

6787.55

6918.725

1.158711

7865.6

7049.9

6995.125

1.12444

2000/1

6059.3

6940.35

6908.1

0.87713

5819.7

6875.85

6908.675

0.842376

7758.8

6941.5

——

8128.2

5426.675

——

接着，将得到的比值再按季度进行重新排列，计算出各比值的平均值与季节指数并对数据进行重新整理得到下表2。

表2各季节指数计算表

年份

季度

1991

——

1.390735494

1.06012397

1992

0.7744249

0.76919

1.435219103

1.06267766

1993

0.7932104

0.82218

1.10453678

1.20288296

1994

0.7738576

0.89971

1.181436023

1.21950158

1995

0.7103373

0.85942

1.12956971

1.28249232

1996

0.7798232

0.82915

1.219012828

1.21777168

1997

0.704775

0.82614

1.322268708

1.13818459

1998

0.6734605

0.935

1.209875326

1.19597735

1999

0.7043957

0.90763

1.158710601

1.12444024

2000

0.8771297

0.84238

——

续表2各季节指数计算表

合计

6.7914143

7.69079

11.15136457

10.5040523

平均

0.7546016

0.85453

1.239040508

1.16711693

季节指数

0.7517278

0.85128

1.234321836

1.16267216

总平均值

9.034406

——

最后，利用得到的季节指数，插入折线图，得到销售额的季节变动图。

（2）通过公式

计算得到季节分离后的序列值。

然后，利用“数据分析”中的回归工具，建立线性回归，得到回归趋势值如表3，并对模型进行统计检验如表4、表5和表6。

表31991—2000年各季度销售额的预测值

年/季

时间

标号

销售额

（Y）

季节指

数（S）

季节分离后的

时间序列（Y/S）

回归后的

趋势（T）

最终预

测值

预测

误差

1991/1

993.1

展开阅读全文