统计学实验报告.docx
《统计学实验报告.docx》由会员分享,可在线阅读,更多相关《统计学实验报告.docx(22页珍藏版)》请在冰豆网上搜索。
统计学实验报告
统计学实验报告
实验一
数据的搜集与整理
1、数据的收集。
统计数据主要来源于两种渠道:
一种是间接数据,这些数据来源于别人的调查或实验数据;另一种是直接数据来源于直接的调查获取,并进行相关的整理、研究得来的统计数据。
间接数据的搜集方法有两种:
第一是直接进入专业数据库网站查询数据,这种方法主要适用于目标明确并且能够找到对应专业数据库网站的一些数据;
例:
1,进入浏览器输入
2,在统计数据年度数据中
选择统计年鉴2008年数据下载后即可得到数据。
第二种是使用搜索引擎,适用于目标不明确并且数据库网站又没有直接提供的统计数据。
例,1,在XX中输入所需输入的信息名称
2,在搜索项中点击第一项成都市的统计局,进入统计数据。
即可擦看到成都市统计局关于2008年成都人口数的下载表
直接数据。
这一类数据的收集获得途径有:
科学实验、观察实验或者是直接调查。
二、数据的整理
数据的整理包括:
数据编码、数据录入、数据文件的导入、数据的筛选、数据的排序以及数据文件的保存。
(1)数据的编码,数据编码是指把需要加工处理的数据库信息,用特写的数字来表示的一种技术是根据一定数据结构和目标特征,将数据转换为代码或码字符,在数据传输中表示数据组成,并作为送、接受和处理的一组规则和约定。
(2)数据的录入,数据的录入是将搜集到的数据直接输入到Excel中。
(3)数据的导入:
方法一:
是使用“文件-打开”菜单,
方法二:
是使用“数据-导入外部数据-导入数据”
(4)数据的筛选
数据的筛选是从大数据表单中选出分析所要用的数据。
Excel中提供了两种数据的筛选操作,包括“自动筛选”和“高级筛选”。
(5)数据的排序
数据的排序主要依靠升序排列或者是降序排列工具按钮和数据-排序菜单实现。
在选中排序的区域后,点击升序排列或者降序排列按钮,即可进行快速的排列。
(6)数据文件的保存
可以使用“保存”工具按钮,或者“文件-保存”菜单,还可以使用“文件-另存为”菜单。
实验二,描述数据的图表。
1,频数频率表ferquency函数
意义:
返回某一个选定区域中数据的频数分布,计算出给定的值域和接收与内,每个区间包含的数据个数。
实验操作步骤:
第一步:
激活单元格并输入数据。
第二布:
选中未使用的单元格,点击函数调用卡片选择Frequency函数。
第三步:
点击“插入函数”对话框确定按钮进入“函数参数”对话框。
引用date-array用来计算频率的一个数组。
第四步:
使用组合键“Ctrl+Shift+Enter”得到频数返回结果
直方图分析工具:
“工具”—“数据分析”—“直方图”
直方图制作:
第一步:
将数据输入到单元格。
第二步:
使用“工具——数据分析”菜单,打开“数据分析”对话框,选择“直方图”。
第三步:
单击确定按钮,进入“直方图”分析工具库对话框,点击“输入区域”右侧箭头选中输入数据的单元格,点击“接受区域”右侧箭头选中分组数据分单元格,“输出区域”只需要激活一个右侧和下侧都没有数据的单元格,选中图标输出和累计百分比。
点即确定后就出现了统计图,再对统计图进行部分修改即可。
饼子图制作
第一步:
选择组别按住crlt点击图表导向。
第二步:
点击“数据标志”选项卡,选中值和百分比。
最后点击确定即可。
在工具-数据分析里选择饼图。
或者如直方图的制作,
各种统计图的各自特点。
1,直方图:
不支持手工输入,用来卡分布装抗
2,折线图:
用来比较分心两组即以上的数据。
3,散点图:
用来观察数据之间共同的变化趋势。
实验三、统计数据的描述
统计指标中包括众多的函数,包括算数平均数,调和平均数,集合平均数,众数,中位数,标准差,方差,偏度,还有风度等。
1,均值。
1算数平均数激活一空白单元格,输入公式敲击回车
2几何平均数使用GEOMEAN语法求目标的几何平均数
3中位数使用median函数计算中位数
4众数使用mode进行计算
2,离散程度。
1极差max计算最大值
Min计算最小值
通过max-min构建函数组算出极差
2方差和标准差
Varp计算方差
Var估算样本的方差
Stdevp返回整个总体的标准差
Stdev估计样本的标准差
操作步骤:
1算术平均数:
第一步,激活空白单元格,点击函数卡片
选择该函数点即确定
第二部:
点击选择区域按钮拖选区域
点击确定后就出现平均值。
其他如调和平均数,集合平均数,众数(MODE),中位数(MEDIAM),标准差(stdev),方差(var),偏度(skew),还有风度(kurt)等操作步骤相同,在点击函数卡片后选择对应的函数即可进行计算。
2:
描述统计工具
第一步:
工具—数据分析—描述统计—点击数据分析对话框
第二部:
进入“描述统计”对话框,分别选中输入输出区域。
第三部:
分组方式,选择“逐列”,输出区域选择一个右方和下方都没有数据的单元格,点“标志位于第一行”、“击汇总区域”、“平均数置信度”、“第K大值”、“第K小值”。
几点说明
(1)观测值,计算数组数据的个数,使用函数COUNT(values1,values2,…),其中只有数值型的数据才能被统计。
(2)第k大值和第k小值,第k大值是对数据按将序排列,对数据按升序排列。
(2)标准误差,使用Count、Stdev和Sqrt三个函数组合套用来计算标准误差,返回某一正数的算术平方根,使用的函数是SQRT(number).
(3)平均置信度,选中平均置信度复选框,手工输入置信度。
实验死、参数估计
1、抽样:
“抽样”分析工具将输入区域视为总体,并使用总体来建立样本。
当总体过大而无法处理或制成图表时,就可以使用代表样本。
如果输入数据是周期性的,也可以建立只包含某个周期特定部分数值的样本。
第一步。
在工具中选择数据分析到数据数发生器。
第二部,根据要求,进行随机数的发生。
第三步:
打开“工具—数据分析—抽样”点击确定
第四步:
选择索要数据的输入区域,样本单位个数,并在一个右方和下方没有数据的单元格确定输出数据,点击确定。
2、构建函数表单
在第一数列输入:
样本统计量、样本个数、样本均值、用户输入、总体标准差、置信水平、计算结果、抽样平均误差、Z值、置信区间半径、置信区间下限、置信区间上限
第二部:
在选择相对应的项目后。
点击插入—名称—指定,然后选最左列复选框,再点击确定。
第三步:
选中函数表中的所有单元格,点击插入—名称—指定,然后选最左列复选框,
第四步:
样本个数=count(样本数据)
样本均值=average(样本数据)
抽样平均误差=总体标准差/sqrt(样本个数)
Z值=(样本均值—总体均值假设值)/抽样平均误差)
置信区间下限(=Normsive((1-置信水平)/2))
置信区间上限(=normsive((1-置信水平)/2)+置信水平))
置信区间半径(100*(1-a)%,总体标准差,样本个数)
最后确定。
三、返回总体平均值的置信区间半径:
第一步:
点击置信区间半径所在行的空白单元格,点击函数卡片,找到“confidence”函数,点击确定。
第二步:
在Alpha中填入用于计算的置信度,在standard_dev中填入数据的总体标准差,size为样本容量。
四、返回标准正态累积分布函数
第一步:
在“Z值”所在行选择空白单元格,点击函数卡片,找到normsinv函数,点击确定。
第二步:
在“probability”中输入0.95(置信区间),然后点击确定
五、返回作为概率和自由度的函数的t分布的t值
第一步:
在t值所在行选择空白单元格,点击函数卡片,找到“tinv”函数,点击确定。
第二步:
在“probability”中填入显著性水平,在“deg_freedom”中填入比样本个数少一个的值,然后点击确定。
实验五假设检验
一、总体标准差已知,总体均值的假设检验——Z检验
1,抽样。
抽样:
“抽样”分析工具将输入区域视为总体,并使用总体来建立样本。
当总体过大而无法处理或制成图表时,就可以使用代表样本。
如果输入数据是周期性的,也可以建立只包含某个周期特定部分数值的样本。
第一步。
在工具中选择数据分析到数据数发生器。
第二部,根据要求,进行随机数的发生。
第三步:
根据所需要的数据要求选择变一个数,总体单位,获得数据。
2构建函数表单
第一步:
确定需进行假设检验的总体参数,确定抽样样本统计量及其服从的分布(正态分布、t分布、f分布、卡方分布等),进行双侧或单侧假设设计,确定置信水平。
第二部:
抽样平均误差(=总体标准差/sqrt(样本个数))
检验统计量(=(样本均值—总体均值假设值)/抽样平均误差)
检验区间下限(=Normsive((1-置信水平)/2))
检验区间上限(=normsive((1-置信水平)/2)+置信水平))
第三部:
得出结论。
实验六,方差分析
1,单因素方差分析:
第一步:
使用工具—数据分析菜单,打开数据分析,选择方差分析—单因素方差分析分析工具,确定
第二部:
打开方差分析—单因素方差分析;输入区域要确定进行单因素方差分析数据所在单元格;分组方式的行、列单选框,确认分组总体数据是以行还是以列来划分;“标志位于”复选框确认输入区域数据是否包含标志;a框要求输入显著性系数,输出区域选择输出单元格。
第三部点击方差分析:
单因素方差分析
分析工具的返回结果由两部分构成:
一部分是Summary(汇总),以表格的形式展示出每个组的观测数、求和、平均和方差结果;第二部分是方差分析表。
判断条件一:
在一个给定的显著性水平a,如果计算的F检验统计量大于F的临界值就拒绝原假设,反之,不拒绝原假设。
判断条件二:
在一个给定的显著性水平a,如果P值小于a就拒绝原假设,反之,不拒绝原假设。
2、无重复双因素方差分析
第一步:
使用“工具—数据分析”菜单打开数据分析对话框,选择“方差分析—无重复双因素方差分析”分析工具,点击确定打开对话框。
第二部:
输入区域要确认进行无重复交互作用的双因素方差分析数据所在的单元格;“标志”复选框确认输入区域是否包含标志复选框;a框输入显著性系数;输出区域选择输出单元格。
第三部:
点击“方差分析:
无重复双因素方差分析”点击确定
3、可重复双因素方差分析
第一步:
使用工具—数据分”菜单打开数据分析对话框,选择“方差分析—可重复双因素方差分析”分析工具,点击确定打开对话框。
第二部:
输入区域要确认进行无重复交互作用的双因素方差分析数据所在的单元格;“标志”复选框确认输入区域是否包含标志复选框;a框输入显著性系数;输出区域选择输出单元格。
第三部:
点击“方差分析:
可重复双因素方差分析”点击确定。
判断条件:
在一个给定的显著性水平a下,如果计算的F检验统计量大于F的临界值,行因素P小于显著性系数0.05就拒绝原假设,反之,不拒绝原假设。
第二部分。
一获得数据:
进入国家统计局网站。
点击统计数据,数据年鉴,
年份
年底余额
总计
定期
活期
1978
210.6
128.9
81.7
1980
395.8
304.9
90.9
1985
1622.6
1225.2
397.4
1990
7119.6
5909.4
1210.2
1991
9244.9
7634.9
1610.0
1992
11757.3
9445.0
2312.3
1993
15203.5
12108.3
3095.2
1994
21518.8
16838.7
4680.1
1995
29662.3
23778.3
5884.1
1996
38520.8
30873.2
7647.6
1997
46279.8
36226.7
10053.1
1998
53407.5
41791.6
11615.9
1999
59621.8
44955.1
14666.7
2000
64332.4
46141.7
18190.7
2001
73762.4
51434.9
22327.6
2002
86910.7
58788.9
28121.7
2003
103617.7
68498.7
35119.0
2004
119555.4
78138.9
41416.5
2005
141051.0
92263.5
48787.5
2006
161587.3
103011.4
58575.9
2007
172534.2
104934.5
67599.7
2008
217885.4
139300.2
78585.2
2009
260771.7
160230.4
100541.3
2010
303302.5
178413.9
124888.6
点击链接EXCEL后进入软件,完成数据的获得。
2001
73762.4
51434.9
22327.6
2002
86910.7
58788.9
28121.7
2003
103617.7
68498.7
35119.0
2004
119555.4
78138.9
41416.5
2005
141051.0
92263.5
48787.5
2006
161587.3
103011.4
58575.9
2007
172534.2
104934.5
67599.7
2008
217885.4
139300.2
78585.2
2009
260771.7
160230.4
100541.3
2010
303302.5
178413.9
124888.6
筛选取得2001年到2010年的数据。
二.描述数据图表。
使用折线图来描述年底余额总计的变化。
完成从2001到2010年的收入余额的变化趋势。
从2001年到2010年的收入余额平均数为
平均数
174135.1
最大值
303303
标准差
75334
最小值
73762
方差
2.44E+09
中位数
174135.1
峰度
-0.5
偏度
0.6609351
求和
2.441E+09
观测数
10
3构建函数表单:
使用数据
定期
51434.9
58788.9
68498.7
78138.9
92263.5
103011.4
104934.5
139300.2
160230.4
178413.9
Z值法
抽样。
年底余额定期
样本统计量
样本个数
10
样本均值
103501.5
用户输入
总体标准差
71554
置信水平
0.95
计算结果
抽样标准差
70554
Z值
0.8224268
置信区间半径
58025.501
置信区间下限
12528.499
置信区间上
128579.5
定期
51434.9
58788.9
68498.7
78138.9
92263.5
103011.4
104934.5
139300.2
160230.4
178413.9
T值
样本统计量
样本个数
10
样本均值
103501.5
样本标准差
70554
用户输入
置信水平
0.95
计算结果
抽样标准差
22311.1
自由度
9
T值
2.2621572
置信区间半径
159604.24
置信区间下限
-56102.74
置信区间上限
116102.74
定期
51434.9
58788.9
68498.7
78138.9
92263.5
103011.4
104934.5
139300.2
160230.4
178413.9
样本统计量
样本个数
10
样本方差
1868752500
用户输入
置信水平
0.95
计算结果
自由度
9
a/2卡方值
19.0227678
1-a/2卡方值
2.700389522
置信区间下限
-56102.7361
置信区间上限
116102.7361
使用数据
定期
活期
51434.9
22327.6
58788.9
28121.7
68498.7
35119.0
78138.9
41416.5
92263.5
48787.5
103011.4
58575.9
104934.5
67599.7
139300.2
78585.2
160230.4
100541.3
178413.9
124888.6
定期为样本1活期为样本2
样本统计量
样本1个数
10
样本2个数
10
样本1方差
1868752500
样本2方差
1086814731
用户输入
置信水平
0.95
计算结果
第一自由度
9
第二自由度
9
a/2F值
4.025994158
1-a/2F值
0.248385855
置信区间下限
0.427093665
置信区间上限
6.922602755
抽样结果
定期活期
2004
78138.9
41416.5
2005
92263.5
48787.5
2006
103011.4
58575.9
2007
104934.5
67599.7
2008
139300.2
78585.2
2009
160230.4
100541.3
2010
178413.9
124888.6
假设检验
总体方差已知,总体均值检验
H0
总体均值=总体均值假设值
H1
总体均值≠总体均值假设值
样本统计量
14
样本均值
98334.8
用户输入
总体标准差
40905.25
总体均值假设值
90000
置信水平
0.95
计算结果
抽样平均误差
10932.39
检验统计量
0.762395
检验区间下限
-1.95996
检验区间上限
1.959964
检验结果
不拒绝H0
分差分析单因素方差分析
数据如下
定期活期
2004
78138.9
41416.5
2005
92263.5
48787.5
2006
103011.4
58575.9
2007
104934.5
67599.7
2008
139300.2
78585.2
2009
160230.4
100541.3
2010
178413.9
124888.6
方差分析:
单因素方差分析
SUMMARY
组
观测数
求和
平均
方差
定期
7
856292.7
122327.5
1.4E+09
活期
7
520394.7
74342.1
8.82E+08
方差分析
差异源
SS
df
MS
F
P-value
Fcrit
组间
8.06E+09
1
8.06E+09
7.062673
0.020885
4.747225
组内
1.37E+10
12
1.14E+09
总计
2.18E+10
13
分差分析可重复双因素分析
方差分析:
可重复双因素分析
SUMMARY
78138.86
41416.53
总计
2005
观测数
3
3
6
求和
300209.4
174963.1
475172.5
平均
100069.8
58321.04
79195.41
方差
46627704
88524288
5.77E+08
2008
观测数
3
3
6
求和
477944.4
304015.1
781959.5
平均
159314.8
101338.4
130326.6
方差
3.83E+08
5.36E+08
1.38E+09
总计
观测数
6
6
求和
778153.8
478978.2
平均
129692.3
79829.7
方差
1.22E+09
8.05E+08
方差分析
差异源
SS
df
MS
F
P-value
Fcrit
样本
7.84E+09
1
7.84E+09
29.74483202
0.000606
5.317655
列
7.46E+09
1
7.46E+09
28.28719986
0.000712
5.317655
交互
1.98E+08
1
1.98E+08
0.749021285
0.411987
5.317655
内部
2.11E+09
8
2.64E+08
总计
1.76E+10
11
方差分析:
无重复双因素分析
SUMMARY
观测数
求和
平均
方差
2005
2
141050.99
70525.5
9.45E+08
2006
2
161587.3
80793.65
9.87E+08
2007
2
172534.19
86267.1
6.97E+08
2008
2
217885.35
108942.7
1.84E+09
2009
2
260771.66
130385.8
1.78E+09
2010
2
303302.5
151651.3
1.43E+09
78138.86
6
778153.81
129692.3
1.22E+09
41416.53
6
478978.18
79829.7
8.05E+08