统计学.docx - 冰豆网

资源描述

统计学.docx

《统计学.docx》由会员分享，可在线阅读，更多相关《统计学.docx（26页珍藏版）》请在冰豆网上搜索。

统计学.docx

统计学

四川师范大学经济与管理学院

统计分析实训报告册

课程名称

专业

班级

学生姓名

学号

指导老师

实训一Excel软件基本统计（描述统计）操作实训

一、实训目的

利用Excel掌握建立数据文件、数据整理、数据描述与显示等操作。

能计算各种平均指标、离散指标，会应用基本统计函数，会使用Excel描述统计工具进行统计分析。

二、实训内容

（一）基本函数使用（用函数工具指令完成此项内容）

1，要求

表1某班学生期末成绩单

学号

性别

数学

语文

外语

学号

性别

数学

语文

外语

0301

女

0311

男

0302

男

0312

男

0303

男

0313

女

0304

男

0314

男

0305

女

0315

男

0306

女

0316

女

0307

女

0317

男

0308

男

0318

男

0309

女

0319

女

0310

女

0320

男

（1）计算个人平均成绩，按平均分从大到小进行排序，挑选出学习成绩最好、最差的3个同学；

（2）求这3门课的平均分和标准差、最大值、最小值、峰度、偏度；

（3）将数学成绩按5级分类汇总统计（优、良、中、及格和不及格）人数。

2，实训步骤

第一种方法

（1）通过函数“AVERAGE”算出平均分；“数据”中的“降序”排序；

（2）通过函数“AVERAGE/STDEV.P/MAX/MIN/SKEW/QURT”算出平均分/标准差/最大值/最小值/偏度/峰度；

（3）先用“IF”将成绩划分等级，再“数据”中的“降序”排序；“数据”中的“分类汇总”汇总。

第二种方法

利用“数据分析”的“描述统计”获得平均分/标准差/最大值/最小值/偏度/峰度。

3，实训结果与分析

第一种方法

（1）将所有数据列向分布，在第一位同学的外语成绩的单元格直接输入“=average（K3:

M3）”或者采用插入函数和选择区域的方式输入，再单击"Enter"并下拉，就可以算出平均分；选择平均分数据，再在“数据”中选择“降序”，就对数据进行了排序，可获得最高分和最低分。

三位最高和最低的平均分为（310，女，93）（307，女，91.33）（317，男，84.67）（306,女，67.33）（305，女，64.33）（311，男，64.33）所以，可以看出该班同学这次考试成绩极差即差距大。

（2）在数学成绩下的单元格输入“=AVERAGE（C3:

C26）”或者采用插入函数和选择区域的方式输入并右拉，就可以算出平均分；同样在平均分下的单元格输“=STDEV.P/MAX/MIN/SKEW/QURT（C3:

C26）”或者采用插入函数和选择区域的方式输入并右拉，就可以算出标准差/最大值/最小值/偏度/峰度。

数学成绩的平均分为76.2，最大值为98，最小值为56，标准差为10.88393，离散系数为0.142834，偏度为0.255195，峰度为-0.31207。

语文成绩的平均分为77.12，最大值为92，最小值为50，标准差为1，离散系数为0.119732，偏度为-1.05791，峰度为2.503167。

外语成绩的平均分为76.85，最大值为96，最小值为58，标准差为10.5843，离散系数为0.137727，偏度为0.098244，峰度为-0.78075。

所以，该班学生三门成绩的平均分相差较小；数学和外语、语文成绩的离散程度递减；数学和外语成绩呈右偏分布，语文成绩成左偏分布，且偏斜程度从大到小为语文，数学和外语；数学与外语成绩呈扁平分布，语文成绩呈尖峰分布。

（3）首先在第一行成绩的右边空白单元格输入“=IF（K3>90,"优",IF（K3>80,"良",IF（K3>70,"中",IF（K3>60,"及格","不及格"））））”

再下拉（完成对数学成绩的等级分类），用“数据”中的“排序或升降序”排序；最后选择所有数据后单击“数据”中的“分类汇总”设置条件即可。

数学成绩优、良、中、及格和差的人数分别为3、3、8、4和2，其所占比率为15%、15%、40%、20%和10%，，所以该班数学成绩主要集中在中等水平，优秀率和不及格率较低。

第二种方法

单击“工具”中的“数据分析”，再选择“描述统计”，然后在对话框中输入输入区域和输出区域，勾选想要知道的数据。

（二）利用描述统计工具进行指标分析

1，要求

现有300名员工，从中随机抽取30名员工的工资进行统计，具体资料为3569、3107、3013、2187、1848、1689、1368、1342、1256、1133、1157、1082、1088、2874、2310、1762、3172、1939、1851、1480、1424、1354、1700、1097、2003、3133、3176、1459、1097、1396，使用描述统计工具对工资进行统计。

2，实训步骤

单击“工具”中的“数据分析”，再选择“描述统计”，然后在对话框中输入输入区域和输出区域，勾选想要知道的数据。

3，实训结果与分析

得到的描述统计的数据为平均工资为1902.23，标准误差为141.76，中位数为1694.5，众数为1097，标准差为776.45，方差为602881.2，峰度为-0.67，偏度为0.83，最小值为1082，最大值为3569，极差=2487。

所以工资水平一般，集中趋势点较低，差距较大，离散程度较高，分布呈右偏和扁平分布，且偏斜程度和扁平程度较大。

三、实训总结

学会了利用Excel掌握建立数据文件、数据整理、数据描述与显示等操作：

运用函数AVERAGE/STDEV.P/MAX/MIN/SKEW/QURT或者使用数据分析分别计算平均数/标准差/最大值/最小值/偏度/峰度；运用数据选项卡中有关命令排序、汇总。

注意点：

评价一组数据的离散程度可以使用极差、标准差、方差、峰度等，一组数据分布倾斜方向以及程度可以使用偏度，但评价不同水平或计量单位的几组数据用离散系数。

实训二统计分组和统计表、统计图的制作

一、实训目的

掌握用Excel进行统计分组。

掌握频数分布表和直方图数据分析基本技巧和操作方法。

利用统计图表工具进行数据直观分析。

掌握Excel柱形图、条形图、折线图、饼图、散点图、面积图、环形图等各种图形工具的使用方法和统计作用。

二、实训内容

（一）函数法进行统计分组、编制频数分布表、绘制直方图

1，要求

在Excel中利用函数进行统计分组和编制频数分布表可利用COUNTIF（）和FREQUENCY（）等函数，但要根据变量值的类型不同而选择不同的函数。

某区共有30家企业，他们类型情况如下表，试编制此区企业类型的频数分布表，并生成直方图和拆线图（要求合并在一张图上）。

某地区企业类型情况表

企业编号

企业类型

企业编号

企业类型

中型企业

大型企业

小型企业

中型企业

小型企业

中型企业

小型企业

大型企业

中型企业

小型企业

中型企业

大型企业

小型企业

中型企业

小型企业

大型企业

小型企业

中型企业

小型企业

2，实训步骤

（1）用函数“=COUNTIF”或“FREQUENCY”或“数据分析”制作频率分布表；

（2）采用“插入”直方图生成直方图，再利用“选择数据”生成相同的直方图，最后“更换图表类型”。

3，实训结果与分析

1）频率分布表

第一种方法（COUNTIF）

首先将数据列向分布，其次在空白的单元格中输入企业类型等文本，然后在“大型企业”下面的单元格中输入“=COUNTIF（$B$2:

$B$31,"大型企业"）”或在“公式”中“插入函数”（中型企业和小型企业只需复制后再更改内容）

第二种方法（FREQUENCY）

将数据列项分布，在第一个企业类型的右边单元格输入“=IF（I2="大型企业",1,IF（I2="中型企业

",2,3））”或在“公式”中“插入函数”，然后拖动鼠标下拉，就可以把文本转换为数据。

在两个列向空白的单元格中输入分段点，即文本企业类型转换的数值型数据“1”“2”，选中“1”“2”下面的单元格和右边单元格，单击“插入函数”选择“FREQUENCY”在第一个输入域输入引入的数据区域，第二个输入域输入分段点区域，或者直接输入=“FREQUENCY（引入的数据区域，分段点区域）”

然后单击“Ctrl+Shif+Enter”即可。

第三种方法（数据分析）

将数据列项分布，在第一个企业类型的右边单元格输入“=IF（I2="大型企业",1,IF（I2="中型企业",2,3））”或在“公式”中“插入函数”，然后拖动鼠标下拉，就可以把文本转换为数据。

在两个列向空白的单元格中输入分段点，即文本企业类型转换的数值型数据“1”“2”，然后选择“数据分析”中的“直方图”（不勾选累计频率）单击“确定”。

2）直方图和折线图及其合并

选择频率分布表，在“插入”选项卡中选择“柱形图”或者在上面用数据分析制作频率分布图时勾选“图表输出”。

右击生成的图表，在“选择数据”中单击“添加”并填入“序列值”（7，10，13）就生成一个同样但不同颜色的柱形图，再右击一个柱形图，然后选择“更改图形类型”中的“折线图”生成折线图。

再右击剩下的柱形图，选择“设置数据系列格式”，把间距调为无间距就生成了直方图。

最后在出现的活动选项卡“设计”和“格式”或者在图形右边浮动的工具栏或者右击图表出现的浮动工具栏中增添内容和更改样式。

大型企业7个，中型企业10个，小型企业13个，所以，小型企业最多，中型企业次之，大型企业最少，企业的总体规模不大，集中在中小企业。

（二）其它图形

1，要求

根据某地三大产业产值的情况基本数据，绘制该地三个产业的产值的条形图、饼图、折线图。

年份

第一产业

第二产业

第三产业

1990

53.2

29.8

1995

33.7

22.3

2000

35.6

35.4

2004

26.1

43.6

30.3

2005

24.5

45.1

30.4

2006

22.6

45.8

31.6

2007

20.1

46.8

33.1

2008

19.2

47.6

33.2

2，实训步骤

选中所有数据，单击“插入”，在图表中选择条形图，折线图以及饼图中环形图，最后在出现的活动选项卡“设计”和“格式”或者在图形右边浮动的工具栏或者右击图表出现的浮动工具栏中增添内容和更改样式。

3，实训结果与分析

从饼状图的面积可以看出，第一产业的每年的面积越来越小，第一产业的在逐年减少，第二三产业的每年的面积越来越大，第二三产业在逐年不断发展；从条形图可以看出，1995年以前，第一产业长度最长，是最大的产值产业，第二产业在1995-2000年长度超过第一产业，成为最大的产值产业，第三产业也在2000-2004年产值超过第一产业；从折线图可以看出，从2000年以后，第二、三产业的增速加快。

三、实训总结

我学会了如何用excel制作频率分布表和直方图、折线图、条形图等各种图形，并从获得的表和图形中利用数据进行分析，如：

通过插入函数COUNTIF或FREQUENCY或者利用工具数据分析生成频率分布表；利用插入或数据分析的工具生成直方图。

注意：

FREQUENCY相比COUNTIF,只能用于数值型数据，共同计算多个数据频率时，不能点击Enter或者确定，只能按Ctrl+Shift+Enter获得；其次在分析图表的数据时，应注意横纵坐标的刻度尺，而且获取不同数据可以采用不同的图表，如饼图便于研究数据的结构，折线图便于研究数据的趋势；最后，我们要学会利用图表数据进行预测。

实训三置信区间估计与假设检验应用实训

一、实训目的

掌握Excel软件中假设检验方法（单样本t检验）及置信区间应用

二、实训内容

在正常生产情况下，某厂生产的一种无缝钢管服从正态分布。

从某日生产的钢管中随机抽取10根，测得其内径分别为：

53.8、54.0、55.1、54.2、52.1、54.2、55.0、55.8、55.4、55.5（单位：

mm）

（一）区间估计。

1，要求

请建立该批无缝钢管平均内径95%的置信区间？

2，实训步骤

（1）通过“数据分析”或函数AVERAGE和STDEV.S获得平均数和标准差；

（2）通过查表或者通过函数“T.INV.2T”得到的tα/2进行一定运算获得置信区间。

3，实训结果与分析

（1）

将数据列向录入表格中，选择“数据分析”中的“描述统计”，在输入区域输入数据所在区域，输出区域选择一个空白单元格，分组方式选择逐列，勾选“汇总统计”和“平均数置信度”，并在填写区域输入“95”，或者通过函数AVERAGE和STDEV.S，“T.INV.2T（0.05,9）”即可获得平均数54.51和标准误差与临界值的积0.783。

（2）那么置信区间为平均数54.51加减一个标准误差与临界值的积0.783，即置信区间为（53.727，55.293）。

（3）所以，在置信水平95%下，该批无缝钢管平均内径介于53.727mm到55.293mm。

（二）假设检验

1，要求

若该日无缝钢管的内径服从均值为54mm的正态分布。

试在5%的显著性水平下检验该日产品的生产是否正常？

2，实训步骤

统计量检验

（1）通过“数据分析”或函数AVERAGE和STDEV.S获得平均数和标准差；

（2）通过计算公式获得标准化的统计量；

（3）再通过查表或者函数T.INV.2T获得临界值。

P值检验

通过函数“TDIST”获得P值，再与α比较。

3，实训结果与分析

统计量检验

（1）

由于需要检验到该日产品的生产是不正常，所以设

H0：

μ=54

H1:

μ҂54

（2）通过函数“AVERAGE（A1:

A10）/STDEV.S（A1:

A10）”

或者选择“数据分析”中的“描述统计”计算样本均值54.51和样本标准差s=1.09；

（3）再通过输入“（B4-B6）/（B8/SQRT（9））”计算标准化的统计量t=1.397；

（4）最后通过查t分布表或者函数“T.INV.2T（0.05,9）”计算出临界值tα/2=2.26。

（5）临界值tα/2=2.26〉标准化的统计量t=1.397，则不拒绝原假设，即在5%的显著性水平下检验该日产品的生产是不正常的。

P值检验

（1）选

择“公式”中的“插入函数”中的“TDIST”，在“X文本框”中输入查表或者函数“T.INV.2T（0.05,9）”得到的临界值tα/2=2.26，在“Degfreedom”输入自由度“9”，在“tails”输入“1”就可以得到p/2值为0.05；

（2）p/2=0.05〉α/2=0.025，则不拒绝原假设，即在5%的显著性水平下检验该日产品的生产是不正常的。

三、实训总结

我学会了用函数STDEV.S/T.INV.2T/TDIST计算标准差/临界值/p值，并如何运用STDEV.S/T.INV.2T/TDIST和数据分析进行区间估计和假设性检验。

注意点：

进行区间估计时，须清楚是大样本还是小样本，若是大样本，还须清楚σ已知还是未知，若是小样本，须清楚总体正态还是非正态分布。

计算临界值时，单尾采用函数T.INV.，双尾采用函数T.INV.2T，但其输入的显著性水平不变。

实训四方差分析应用实训

一、目的要求

掌握Excel软件中方差分析应用（单因素方差分析和双因素方差分析）

二、实训内容

（一）单因素方差分析

1，要求

某城市东西南北5个地区发生交通事故的次数如下表所示。

由于是随机抽样，有一些地区的汽车密度高、发生事故多（如南部和西部），而有些地区汽车密度低、发生事故少（如东部）。

试以α=5%的显著水平检验各地区平均每天交通事故次数是否相等?

表1某城市5个地区交通事故发生次数

东部

北部

中部

南部

西部

2，实训步骤

利用“数据分析”中“单因素方差分析”，获得有关数据“F”（检验ρ统计量）“Fcrit”临界值）“P-value”（P值）。

3，实训结果与分析

（1）提出假设

H0：

μ东=μ南=μ西=μ北=μ中

H1:

μi不完全相等

（2）选择“数据分析”中“单因素方差分析”，在输入数据区域（不包含文本型数据）“输入区域”，“分组方式”选中“列”，选中“标志位于第一行”，然后在“α”和“输出区域”中分别输入“0.05”一个空白的单元格。

单击“确定”就可获得有关数据：

“SSA=82.64”“SSE=118.02”“MSE=20.66”“MSA=215.62”“F=3.68”（检验统计量）“Fcrit=2.84”临界值）“P-value=0.02”（P值）；

（3）统计量检验

F=3.68>Fcrit=2.84,即：

检验统计量处于拒绝域中；

P值检验

P-value=0.02<α=0.05，即：

接受原假设的概率低于拒绝原假设的概率；

进而拒绝原假设，以α=5%的显著水平检验各地区平均每天交通事故次数不是都相等的。

所以，不同地区对交通事故发生次数有影响。

（二）双因素方差分析

1，要求

某农科所实训在水溶液中种植西红柿，采用了3种施肥方式和4种不同的水温。

3种施肥方式一开始就给可溶性的肥料；每两个月给1/2的溶液；每月给以1/4的溶液。

水温分别为4℃、10℃、16℃、20℃。

实验结果的产量如下表所示。

表2不同水温水平不同施肥方式下的西红柿产量

水温

施肥方式

一次施肥

二次施肥

四次施肥

冷（4℃）

凉（10℃）

温（16℃）

热（20℃）

问施肥的方式和水温对产量的影响是否显著（α=5%）？

2，实训步骤

利用“数据分析”中“无重复双因素方差分析”，获得有关数据“FR”（检验统计量）“FcritR”临界值）“P-value”（P值）”（临界值）“P-valueR”（P值）“FC”（检验统计量）“FcritC”（临界值）“P-valueC”（P值）

3，实训结果与分析

（1）提出假设

施肥方式为

H0：

μ1=μ2=μ3施肥的方式对产量的影响不显著

H1:

μr不完全相等施肥的方式对产量的影响显著

水温为

H0：

μ1=μ2=μ3水温对产量的影响不显著

H1:

μk不完全相等水温对产量的影响显著

（2）选择“数据分析”中“无重复双因素分析”，在输入数据区域（不包含文本型数据）“输入区域”，然后在“α”和“输出区域”中分别输入“0.05”一个空白的单元格。

单击“确定”就可获得有

关数据“SSR=294”“SSC=0.5”“SSE=7.5”“SST=302”“MSR=98”“MSC=0.25”“MSE=1.25”“FR=78.4”（检验统计量）“Fcrit利用“数据分析”中“单因素方差分析”，获得有关数据“FR=78.4”（检验统计量）“FcritR=4.76”（临界值）“P-valueR=3.34E-05”（P值）“FC=0.2”（检验统计量）“FcritC=5.14”（临界值）“P-valueC=0.82”（P值）；

（2）水温对产量统计量检验FR=78.4>FcritR=4.76;

P值检验P-valueR=3.34E-05<α=0.05，

拒绝原假设，不同水温下产量不相等，所以水温对产量的影响显著。

施肥对产量统计量检验FC=0.2

P值检验P-valueC=0.82>α=0.05，

不拒绝原假设，不同施肥方式下产量相同，所以水温对产量的影响不显著。

三、实训总结

学会了运用EXCEL中的单因素和双因素方差分析来判断不同因素下的几组数据的均值是否相等，进而推测不同因素是否对数据有影响。

注意点：

当“输入区域”包含了水平所在区域，则要勾选“标志”；我们利用方差分析，可以比多次假设性检验更快判断多组数据的平均是否都相等，即总体水平是否相等，也可以来检验一个因素是否对结果有影响。

实训五相关与回归分析实训

一、实训目的

掌握Excel软件中回归分析及相关分析应用

二、实训内容

零售商要了解每周的广告费X及消费额Y之间的关系，记录如表所示。

表1每周广告费X与消费额Y数据表

385

400

395

365

475

440

490

420

560

525

480

510

（一）

1，要求

画出散点图；

2，实训步骤

选择所有数据，单击“插入”中“图表”的“散点图”，生成散点图。

实训结果与分析

广告费与消费额的紧密程度较高，呈线性相关关系，而且是广告费越多，消费额越大的正相关关系。

（二）

1，要求

计算相关系数，并进行相关系数的显著性检验（α=5%）；

2，实训步骤

（1）运用“数据”中的“相关系数”或者函数“CORREL”或“PEARSON”进行相关系数的计算；

（2）通过将用函数“T.INV.2T”得到的临界值tα/2和运算公式获得的统计量t进行比较来相关系数显著性检验。

3，实训结果与分析