统计学作业.docx
《统计学作业.docx》由会员分享,可在线阅读,更多相关《统计学作业.docx(34页珍藏版)》请在冰豆网上搜索。
统计学作业
统计软件学期作业
学院:
理学院
专业:
统计学
学号:
1109030133
姓名:
郑文星
指导教师:
马建军
一.在T1.sav中数据为某工厂职工的部分基本信息,其中性别变量中男女分别用1,2表示,按教育程度共分为5类,婚姻状况中用0代表未婚,1代表已婚.
(1)决策者希望了解不同受教育水平已婚职工和未婚职工之间的收入差别,试用一条形图反映有关信息.
(2)绘制一线图,以反映出不同受教育水平的男职工和女职工之间的收入差异.
(3)绘制出反映不同受教育程度员工数量的饼图.
(4)绘制一散点图,反映出不同工作年限类别员工的工作满意程度.
(5)绘制出可以反映不同工作年限类别收入水平的箱图.
二在T2.sav中给出了2007年某股票83个交易日的交易信息.
(1)绘制反映该股票每日价格最高值和最低值信息的高低图.
(2)绘制出该股票每个交易日收盘价的时间序列图,并对每日收盘价格进行自相关分析.
自相关分析:
模型描述
模型名称
MOD_2
序列名
1
High
转换
无
非季节性差分
0
季节性差分
0
季节性期间的长度
无周期性
最大滞后数
16
为计算自相关的标准误而假定的过程
独立性(白噪音)a
显示并绘图
所有滞后
正在应用来自MOD_2的模型指定。
a.不适用于计算偏自相关的标准误。
个案处理摘要
High
序列长度
83
缺失值数
用户缺失
0
系统缺失
0
有效值数
83
可计算的第一滞后数
82
自相关图
序列:
High
滞后
自相关
标准误差a
Box-Ljung统计量
值
df
Sig.b
1
.688
.108
40.666
1
.000
2
.603
.107
72.294
2
.000
3
.596
.106
103.573
3
.000
4
.359
.106
115.052
4
.000
5
.428
.105
131.629
5
.000
6
.345
.104
142.517
6
.000
7
.181
.104
145.571
7
.000
8
.175
.103
148.454
8
.000
9
.168
.102
151.148
9
.000
10
.240
.102
156.728
10
.000
11
.235
.101
162.138
11
.000
12
.227
.100
167.275
12
.000
13
.146
.100
169.417
13
.000
14
.068
.099
169.888
14
.000
15
.061
.098
170.280
15
.000
16
-.020
.097
170.320
16
.000
a.假定的基础过程是独立性(白噪音)。
b.基于渐近卡方近似。
(3)创建一双轴线图,使之同时反映出该股票每日收盘价格和交易量.
三某调查者想考察果汁饮料销售量的影响因素,为此调查者观察了碳酸饮料销售量,茶饮料销售量,固体冲泡饮料销售量和咖啡类饮料的销售量,单位均为万升,全部数据如果T3.sav文件中.试利用相关分析或偏相关分析研究果汁饮料与碳酸饮料销售量的相关性.
相关分析:
描述性统计量
均值
标准差
N
碳酸饮料销售量
45.8953
18.83926
15
果汁销售量
25.9893
4.92801
15
相关性
碳酸饮料销售量
果汁销售量
碳酸饮料销售量
Pearson相关性
1
.826**
显著性(双侧)
.000
平方与叉积的和
4968.849
1073.660
协方差
354.918
76.690
N
15
15
果汁销售量
Pearson相关性
.826**
1
显著性(双侧)
.000
平方与叉积的和
1073.660
339.993
协方差
76.690
24.285
N
15
15
**.在.01水平(双侧)上显著相关。
Pearson相关系数为0.825,二者之间的不相关的双侧显著值为0.000<0.01所以,所以在显著性水平为0.01下可拒绝二者不相关的假设。
所以可得结论二者存在显著相关性。
四某实验室培养一种菌群研究其活性,菌群活性和培养天数的部分观测数据见T4.sav文件.
试利用回归分析研究菌群活性与培养天数之间的关系.
第一步:
绘制散点图
上图由知菌群活性与培养天数之间呈现出显著的线性关系。
第二步:
回归分析
输入/移去的变量b
模型
输入的变量
移去的变量
方法
1
培养天数a
.
输入
a.已输入所有请求的变量。
b.因变量:
活性
模型汇总
模型
R
R方
调整R方
标准估计的误差
1
.941a
.886
.877
5.891
a.预测变量:
(常量),培养天数。
(拟合优度检验部分)相关系数R=0.941,判定系数
=0.886,调整的判定系数为0.877,回归估计的标准差S=5.891.从中判断该回归方程的拟合优度很高。
Anovab
模型
平方和
df
均方
F
Sig.
1
回归
3492.139
1
3492.139
100.617
.000a
残差
451.195
13
34.707
总计
3943.333
14
a.预测变量:
(常量),培养天数。
b.因变量:
活性
(回归方程的显著性检验部分)由上表数据得在0.01水平上显著(即F=100.617>F(1,12))。
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准误差
试用版
1
(常量)
46.460
2.762
16.820
.000
培养天数
-.753
.075
-.941
-10.031
.000
a.因变量:
活性
(回归系数的显著性检验)
由上表得知t=16.820>
所以认为该回归系数与零有显著差异,该自变量与因变量之间存在显著地线性关系。
五在文件T5.sav中是研究脑溢血发病机制的数据文件,包括病人和正常人的六项指标,其中病人为分组序号为”1”,正常人为”0”.希望建立上述指标与脑溢血发病之间的联系,以便可以对脑溢血的发病进行早期诊断.(提示可以利用logistic回归或判别分析)
判别分析:
分析案例处理摘要
未加权案例
N
百分比
有效
60
100.0
排除的
缺失或越界组代码
0
.0
至少一个缺失判别变量
0
.0
缺失或越界组代码还有至少一个缺失判别变量
0
.0
合计
0
.0
合计
60
100.0
上图给出了样本数量、有效值和剔除值的相关信息。
表5-2
组统计量
分组
均值
标准差
有效的N(列表状态)
未加权的
已加权的
0
总胆固醇
181.2000
31.17846
30
30.000
甘油三脂
144.2000
75.81165
30
30.000
高密度胆固醇
48.8667
13.06940
30
30.000
低密度胆固醇
100.7667
29.19693
30
30.000
载脂蛋白A1
1.1377
.25658
30
30.000
载脂蛋白B
.8097
.17413
30
30.000
1
总胆固醇
212.9667
40.00731
30
30.000
甘油三脂
179.5000
82.07765
30
30.000
高密度胆固醇
36.7000
6.88401
30
30.000
低密度胆固醇
133.2667
40.40138
30
30.000
载脂蛋白A1
1.0443
.21018
30
30.000
载脂蛋白B
.9320
.22555
30
30.000
合计
总胆固醇
197.0833
39.00121
60
60.000
甘油三脂
161.8500
80.33106
60
60.000
高密度胆固醇
42.7833
12.03680
60
60.000
低密度胆固醇
117.0167
38.59854
60
60.000
载脂蛋白A1
1.0910
.23725
60
60.000
载脂蛋白B
.8708
.20908
60
60.000
上图给出了各组和所有预测的均值、标准差和加权与未加权的有效值。
表5-3
特征值
函数
特征值
方差的%
累积%
正则相关性
1
.631a
100.0
100.0
.622
a.分析中使用了前1个典型判别式函数。
表5-4
Wilks的Lambda
函数检验
Wilks的Lambda
卡方
df
Sig.
1
.613
26.913
6
.000
上图给出了Wilks的Lambda检验的结果,从检验结果可以看出,引入的变量对提高分类精度是有作用的。
表5-5
标准化的典型判别式函数系数
函数
1
总胆固醇
.186
甘油三脂
-.017
高密度胆固醇
-.985
低密度胆固醇
.316
载脂蛋白A1
.338
载脂蛋白B
.166
表5-6
结构矩阵
函数
1
高密度胆固醇
-.746
低密度胆固醇
.590
总胆固醇
.567
载脂蛋白B
.389
甘油三脂
.286
载脂蛋白A1
-.255
判别变量和标准化典型判别式函数之间的汇聚组间相关性
按函数内相关性的绝对大小排序的变量。
上图给出了判别函数的系数与结构矩阵,可以看出,所有变量均在判别分析中使用。
表5-7
组质心处的函数
分组
函数
1
0
-.781
1
.781
在组均值处评估的非标准化典型判别式函数
上图给出了组重心处的判别函数值。
表5-8
组的先验概率
分组
先验
用于分析的案例
未加权的
已加权的
0
.500
30
30.000
1
.500
30
30.000
合计
1.000
60
60.000
上图给出了两个组的先验概率。
预测的分组结果作为新的变量被保存,从中我们可以看出这60位人员的分组,并可以看出spss对未分类观测进行的分类,分类被保存在“Dis_1”变量中,“1”表示病人,“0”表示正常人,与我们在建立变量时的设置有微小的出入,有13个分组不一样。
六根据我国历年钢产量的数据,(可以查<<中国工业经济统计年鉴>>或其它统计数据资源),试分析拟合钢铁产量的长期趋势.
曲线拟合:
模型描述
模型名称
MOD_3
因变量
1
钢铁产量(万吨)
方程
1
线性
2
对数
3
二次
4
增长a
5
指数a
自变量
年份
常数
包含
其值在图中标记为观测值的变量
未指定
用于在方程中输入项的容差
.0001
a.该模型要求所有非缺失值为正数。
个案处理摘要
N
个案总数
18
已排除的个案a
0
已预测的个案
0
新创建的个案
0
a.从分析中排除任何变量中带有缺失值的个案。
变量处理摘要
变量
因变量
自变量
钢铁产量(万吨)
年份
正值数
18
18
零的个数
0
0
负值数
0
0
缺失值数
用户自定义缺失
0
0
系统缺失
0
0
模型汇总和参数估计值
因变量:
钢铁产量(万吨)
方程
模型汇总
参数估计值
R方
F
df1
df2
Sig.
常数
b1
b2
线性
.806
66.533
1
16
.000
-9453058.589
4747.585
对数
.805
66.174
1
16
.000
-7.207E7
9487756.038
二次
.807
66.895
1
16
.000
-4709181.664
.000
1.188
增长
.936
234.428
1
16
.000
-221.070
.116
指数
.936
234.428
1
16
.000
9.783E-97
.116
自变量为年份。
由以上结果得出给出的五种曲线估计中指数模型拟合的曲线与原始观测值拟合得最好,而其他的都有许多观察点没有拟合好。
因此,由拟合图的直观观察来看,指数模型最适合本实验的数据建模。
所以我们可以得出钢产量随年份的关系为Y=9.783E-97+
.
七为了验证某种药物的疗效,对35位患者进行了观察.首先记录了治疗前的测试数据,然后记录了治疗后的测试数据(详见T6.sav).试分析该药品是否具有显著的疗效.
配对样本T检验:
成对样本统计量
均值
N
标准差
均值的标准误
对1
服药前的检查值
88.8286
35
5.85353
.98943
服药后的检查值
81.5829
35
7.88071
1.33208
服药前后的检查值均值,标准差,均值的标准误差。
直观上看,服药前后的检查值有显著差别。
成对样本相关系数
N
相关系数
Sig.
对1
服药前的检查值&服药后的检查值
35
.559
.000
成对样本的相关系数,相关系数0.559>0,响应的概率值为0,服药前后相关系数十分显著。
成对样本检验
成对差分
t
df
Sig.(双侧)
均值
标准差
均值的标准误
差分的95%置信区间
下限
上限
对1
服药前的检查值-服药后的检查值
7.24571
6.69409
1.13151
4.94622
9.54521
6.404
34
.000
T检验的概率值为0<0.05,该药品有显著的疗效
八在文件T7.sav中是少年学生的体质状况的数据.其中脉搏,身高,体重,坐高,胸围为身体指标,立定跳远,小球掷远,体前屈,10米往返跑和双脚连续跳为体质指标.
1)试分析身体指标和体质指标的相关性
2)将少年学生按身体素质的不同分为若干类,并分析每类少年学生身体素质的特点.
3)给出评判少年学生身体素质好坏的标准.
1)
案例处理摘要
案例
有效
缺失
合计
N
百分比
N
百分比
N
百分比
485
100.0%
0
.0%
485
100.0%
共有485个个案,缺失值为0
近似矩阵
值向量间的相关性
脉搏
身高
体重
坐高
胸围
立定跳远
小球掷远
体前屈
10米往返跑
双脚连续跳
脉搏
1.000
-.105
-.056
-.124
-.027
-.071
-.058
-.109
.099
.061
身高
-.105
1.000
.693
.756
.497
.308
.201
-.069
-.242
-.129
体重
-.056
.693
1.000
.632
.709
.208
.134
.017
-.098
-.131
坐高
-.124
.756
.632
1.000
.456
.288
.194
.058
-.237
-.145
胸围
-.027
.497
.709
.456
1.000
.161
.118
.059
-.084
-.039
立定跳远
-.071
.308
.208
.288
.161
1.000
.377
.176
-.366
-.320
小球掷远
-.058
.201
.134
.194
.118
.377
1.000
.106
-.253
-.132
体前屈
-.109
-.069
.017
.058
.059
.176
.106
1.000
-.023
-.162
10米往返跑
.099
-.242
-.098
-.237
-.084
-.366
-.253
-.023
1.000
.278
双脚连续跳
.061
-.129
-.131
-.145
-.039
-.320
-.132
-.162
.278
1.000
这是一个相似性矩阵
各变量之间的相似矩阵,由矩阵表知
2)分层聚类法
*******************HIERARCHICALCLUSTERANALYSIS*******************
DendrogramusingCentroidMethod
RescaledDistanceClusterCombine
CASE0510152025
LabelNum+---------+---------+---------+---------+---------+
131130-+
132131-+
154153-+
336335-+
7675-+
6867-+
301300-+
477476-+
130129-+
274273-+
2120-+
391390-+
338337-+
195194-+
8988-+
271270-+
334333-+
479478-+
296295-+
353352-+
320319-+
272271-+
434433-+
374373-+
474473-+
427426-+
111110-+
363362-+
238237-+
482481-+
263262-+
167166-+
286285-+
125124-+
244243-+
106105-+
335334-+
7069-+
250249-+
249248-+
342341-+
428427-+
348347-+
7170-+
120119-+
429428-+
138137-+
54-+
7271-+
277276-+
443442-+
265264-+
87-+
224223-+
264263-+
333332-+
262261-+
303302-+
176175-+
400399-+
287286-+
3635-+
183182-+
390389-+
205204-+
216215-+
3837-+
143142-+
410409-+
178177-+
218217-+
255254-+
288287-+
7372-+
117116-+
219218-+
139138-+
202201-+
291290-+
165164-+
408407-+
322321-+
240239-+
290289-+
141140-+
6160-+
9493-+
458457-+
158157-+
457456-+
236235-+
1615-+
396395-+
65-+
281280-+
214213-+
349348-+
239238-+
465464-+
7978-+
2726-+
337336-+
156155-+-+
221220-+|
149148-+|
416415-+|
392391-+|
10099-+|
485484-+|
9998-+|
295294-+|
1110-+|
298297-+|
347346-+|
166165-+|
452451-+|
110109-+|
144143-+|
3029-+|
311310-+|
114113-+|
172171-+|
355354-+|
102101-+|
135134-+|
432431-+|
4948-+|
199198-+|
360359-+|
361360-+|
6766-+|
3534-+|
1716-+|
2423-+|
7877-+|
208207-+|
4241-+|
464463-+|
370369-+|
417416-+|
1918-+|
2827-+|
123122-+|
192191-+|
455454-+|
4039-+|