统计软件最终版.docx
《统计软件最终版.docx》由会员分享,可在线阅读,更多相关《统计软件最终版.docx(16页珍藏版)》请在冰豆网上搜索。
统计软件最终版
JIANGSUUNIVERSITY
统计软件应用课程作业
学院名称:
财经学院
专业班级:
研132班应用统计
学生姓名:
朱成伟
学号:
Z1319004
2014年1月
作业1
打开“酸奶口味.sav”,数据是某市场调查公司在上海、北京、上海和成都对10种酸奶产品口味的调查结果,10种酸奶品牌中有两种是试制品,利用该数据进行分析:
1.这10种酸奶口味均值是否存在差异?
2.4个不同城市消费者对10种酸奶口味评分是否存在差异?
3.在酸奶评价中,品牌和城市是否存在交互作用?
4.试制品的口味评分和其它8种品牌酸奶是否存在差异,能否选出最优的一种。
1.由于“样本品牌brand”是字符串型数据,不能参与方差分析,故通过spss重新编码为其他变量不妨设为”品牌brand1”,然后通过spss的单因素方差分析可得:
表1.11方差齐次检验表
TestofHomogeneityofVariances
口感评分
LeveneStatistic
df1
df2
Sig.
1.619
9
1741
.104
TestofHomogeneityofVariances(方差齐次检验表)显示Levene统计量F=1.619,对应的显著性水平Sig.=0.104>0.05,因此在5%的显著性水平下不能拒绝各组方差相等的假定,使用单因素方差分析的基本前提得到满足。
表1.12酸奶口味评价得分的方差分析表
ANOVA
口感评分
SumofSquares
df
MeanSquare
F
Sig.
BetweenGroups
303.968
9
33.774
8.698
.000
WithinGroups
6760.468
1741
3.883
Total
7064.436
1750
ANOVA(方差分析表)显示F=8.698,其显著性水平Sig.=0.000<0.05,在5%的显著性水平下拒绝各组均值相同的假定,这10种酸奶口味均值存在显著差异的。
2.使用spss对不同城市进行单因素方差分析可得:
表1.21方差齐次检验表
TestofHomogeneityofVariances
口感评分
LeveneStatistic
df1
df2
Sig.
7.263
3
1747
.000
TestofHomogeneityofVariances(方差齐次性检验表)显示,Levene统计量为7.263,对应的显著性水平Sig.=0.000<0.05,因此在5%的显著性水平下拒绝各个城市评分方差相等的假定,使用单因素方差分析的基本前提没有得到满足。
虽然4个城市不消费者对10种酸奶口味评分的方差不同,直接使用单因素方差分析不太恰当,但是利用单因素分析中的多重比较或配对比较(pairwisemultiplecompairisions)的方法,我们还是可以看出哪几个城市消费者对10种酸奶口味评分存在显著差异的。
表1.22不同城市评分的多重比较表
MultipleComparisons
口感评分
Tamhane
(I)城市
(J)城市
MeanDifference(I-J)
Std.Error
Sig.
95%ConfidenceInterval
LowerBound
UpperBound
上海
北京
.057
.140
.999
-.31
.43
广州
.303
.131
.121
-.04
.65
成都
-.083
.128
.987
-.42
.26
北京
上海
-.057
.140
.999
-.43
.31
广州
.246
.142
.410
-.13
.62
成都
-.141
.139
.895
-.51
.23
广州
上海
-.303
.131
.121
-.65
.04
北京
-.246
.142
.410
-.62
.13
成都
-.386*
.131
.019
-.73
-.04
成都
上海
.083
.128
.987
-.26
.42
北京
.141
.139
.895
-.23
.51
广州
.386*
.131
.019
.04
.73
*.Themeandifferenceissignificantatthe0.05level.
从MultipleComparisons(多重比较表)中可以看出广州和成都消费者对10种酸奶口味评分之差为-0.386,其对应的显著性水平Sig.=0.019<0.05,在5%显著性水平下拒绝这两个城市消费者对10种酸奶口味评分相等的假设。
类似的,在5%显著性水平下不能拒绝其他各组城市消费者对10种酸奶口味评分相等的假设。
所以可以认为4个不同城市消费者对10种酸奶口味评分存在差异的。
3.
表1.3组间效应检验表
TestsofBetween-SubjectsEffects
DependentVariable:
口感评分
Source
TypeIIISumofSquares
df
MeanSquare
F
Sig.
CorrectedModel
457.309a
39
11.726
3.037
.000
Intercept
65059.647
1
65059.647
16848.025
.000
city
32.495
3
10.832
2.805
.038
brand
296.340
9
32.927
8.527
.000
city*brand
120.667
27
4.469
1.157
.263
Error
6607.128
1711
3.862
Total
73419.000
1751
CorrectedTotal
7064.436
1750
a.RSquared=.065(AdjustedRSquared=.043)
从TestsofBetween-SubjectsEffects(组间效果检验表)可以看出city*brand对应的F=1.157,其显著性水平Sig.=0.263>0.05,在5%的显著性水平下统计不显著,因此不应该拒绝原假设,可以认为在酸奶评价中,品牌和城市不存在存在交互作用,不同城市和品牌对酸奶评分都将不产生显著影响。
图1.3轮廓图
还可以通过轮廓图来进一步的判断交互作用,由于轮廓图上的曲线基本按照相同的规律变动,各直线在各水平基本平行,故也可以认为没有交互作用。
4.
表1.4不同品牌的变异系数
样本品牌
Mean
N
Std.Deviation
变异系数
世*
5.85
162
1.725
0.294871795
伊*
5.6
162
2.05
0.366071429
子*
6.69
169
2.024
0.302541106
卡*
5.68
178
1.993
0.350880282
三*
5.9
173
1.89
0.320338983
中*
5.74
182
2.013
0.350696864
试制品1
6.75
182
1.89
0.28
海*
6.41
176
1.989
0.310296412
香*
6.39
187
2.156
0.337402191
试制品2
6.49
180
1.925
0.296610169
Total
6.16
1751
2.009
0.326136364
从上表可以看出试制品的口味评分和其它8种品牌酸奶存在在差异,变异系数又称“标准差率”,是衡量资料中各观测值变异程度的另一个统计量。
当进行两个或多个资料变异程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。
如果单位和(或)平均数不同时,比较其变异程度就不能采用标准差,而需采用标准差与平均数的比值(相对值)来比较。
从表中可以知道试制品1的变异系数最小,可以认为试制品1是最优的一种。
作业2
打开“bankloan.sav”,数据是某银行收集到的客户违约信息,待分析的因变量是default,其它变量是可能影响客户是否违约的因素。
1.使用logistic回归、判别分析、分类树方法进行分析,判断哪些变量会对客户违约产生影响。
2.比较这几种方法的分类准确性。
1.
(1)运用spss进行Logistic回归可得
表2.11Hosmer和Lemeshow拟合优度检验表
HosmerandLemeshowTest
Step
Chi-square
df
Sig.
1
8.467
8
.389
HosmerandLemeshowTest(Hosmer和Lemeshow检验)。
似然比函数的自然对数值对样品数目很敏感,作为补充和参照,我们需要Hosmer-Lemeshow检验。
该检验依然以卡方分布为标准,但检验的方向与常规检验不同:
我们要求其卡方值低于临界值而不是高于临界值。
取显著性水平0.05,考虑到自由度数目df=8,在Excel中的任意单元格输入函数“=CHIINV(0.05,8)”,回车,理解得到卡方临界值15.507。
作为Hosmer-Lemeshow检验的卡方值4.730<15.507,检验通过。
后面的Sig.值0.786大于0.05,据此也可以判知Hosmer-Lemeshow检验可以通过。
表2.12最终模型包含的变量系数表
VariablesintheEquation
B
S.E.
Wald
df
Sig.
Exp(B)
Step1a
age
.034
.017
3.887
1
.049
1.035
ed
.090
.123
.532
1
.466
1.094
employ
-.258
.033
60.385
1
.000
.773
address
-.105
.023
20.251
1
.000
.901
income
-.009
.008
1.159
1
.282
.991
debtinc
.067
.031
4.881
1
.027
1.070
creddebt
.625
.113
30.724
1
.000
1.869
othdebt
.062
.077
.642
1
.423
1.064
Constant
-1.551
.619
6.274
1
.012
.212
a.Variable(s)enteredonstep1:
age,ed,employ,address,income,debtinc,creddebt,othdebt.
VariableintheEquation(方程中包含的变量表)显示模型的参数估计值(B)、参数估计值的标准误差(S.E)、沃尔德统计量(Wald)及其对应的自由度(df)和显著性水平(Sig.)。
在显著性水平α为0.05的情况下,由于ed,income,othdebt参数估计值对应的显著性水平都大于0.05,这3个自变量在回归模型中的作用并不显著,即可以认为age,employ,address,debtinc和creddebt会对客户违约产生影响。
(2).运用spss进行判别分析:
逐步判别法
表2.13进入判别分析中的变量表
VariablesintheAnalysis
Step
Tolerance
FtoRemove
Wilks'Lambda
1
Debttoincomeratio(x100)
1.000
125.293
2
Debttoincomeratio(x100)
.992
130.842
.920
Yearswithcurrentemployer
.992
65.708
.848
3
Debttoincomeratio(x100)
.766
36.043
.766
Yearswithcurrentemployer
.716
111.035
.844
Creditcarddebtinthousands
.573
44.384
.775
4
Debttoincomeratio(x100)
.766
35.137
.753
Yearswithcurrentemployer
.691
89.788
.809
Creditcarddebtinthousands
.564
48.856
.767
Yearsatcurrentaddress
.898
10.895
.728
VariablesintheAnalysis(进入判别分析中的变量表)显示在逐步判别法的第一步(Step1),判别分析模型中引入了Debttoincomeratio(x100)变量,然后逐步的引入Yearswithcurrentemployer,Creditcarddebtinthousands,Yearsatcurrentaddress等变量。
故可以知道Debttoincomeratio(x100)(debtinc),Yearswithcurrentemployer(employ),Creditcarddebtinthousands(creddebt),Yearsatcurrentaddress(address)会对客户违约产生影响。
(3).分类树方法:
使用Clementine12.0对该案例进行分类树建模处理,得到了每个变量相对重要性的图。
由于这些值都是相对值,因此,所有变量值总和为1.0。
此外,变量重要性与模型的准确性无关。
由图2.1可知,8个变量中,最重要的是debtinc,接下来依次是employ、address、age、ed,而income、creddebt以及othdebt对模型基本没有影响,即对客户是否违约,影响力很小。
2.尽管logistic回归以及判别分析的处理软件都是使用的SPSS18.0进行的,而分类树回归树使用Clementine12.0,但为了便于比较3种方法的分类准确性,我们采用Clementine12.0对3种方法同样处理一遍,以得到对3种方法增益的评估图(图2.2)。
图2.23种方法增益的评估图
图2.2中,$C-default代表的是分类树方法,$L-default代表logistic回归,$D-default代表的则是判别分析。
累积增益图的线从左至右的走势通常是从0% 到100%。
优秀模型的增益图将陡升至100%,然后保持平直。
无法提供有用信息的模型将呈对角线状,即从左下角到右上角。
根据以上规则,模型拟合效果最好的是分类树方法,所以其准确度最高;logistic回归与判别分析的增益图则基本相似,所以这两种方法的分类准确度大致相同。
作业3
打开“产品销售额.sav”,数据是某产品销售额的信息。
1.绘制销售额的时间序列图,判断它的变动趋势。
2.使用时间序列分析方法,通过对比分析建立一个比较好的模型。
arima模型
3.利用建立的模型对2013年销售额进行预测。
1.销售额的时间序列图
图3.1销售额的时间序列图
上图为销售额的时间序图,由上图可以知道产品的销售额随着时间变化而逐渐增加,并且有明显的上升趋势,同时序列中还有很多波峰和波谷,预示着时间序列可能还存在季节变动成分。
2.模型比较:
(1)简单指数平滑模型(不考虑季节因素):
表3.21
ModelDescription
ModelType
ModelID
销售额
Model_1
Simple
表3.22
ModelStatistics
Model
NumberofPredictors
ModelFitstatistics
Ljung-BoxQ(18)
NumberofOutliers
StationaryR-squared
NormalizedBIC
Statistics
DF
Sig.
销售额-Model_1
0
-.004
7.070
216.807
17
.000
0
上表为spss输出的模型适应性检验的Ljung-Box的结果。
BIC即贝叶斯信息准则(Bayesianinformationcriterion)它是一种可使全部判决的平均风险为最小的准则,值越小越精确,该模型标准化的BIC值为7.070,标准化的BIC较大,不能精确的拟合该模型,故不适合使用该模型,同时调整后的R-squared为-0.004,比较小,同样也可以认为该模型是不合适的。
(2)Winters’乘法模型:
表3.23
ModelDescription
ModelType
ModelID
销售额
Model_1
Winters'Multiplicative
表3.24
ModelStatistics
Model
NumberofPredictors
ModelFitstatistics
Ljung-BoxQ(18)
NumberofOutliers
StationaryR-squared
NormalizedBIC
Statistics
DF
Sig.
销售额-Model_1
0
.209
4.842
26.371
15
.034
0
上表为spss输出的模型适应性检验的Ljung-Box的结果。
BIC即贝叶斯信息准则(Bayesianinformationcriterion)它是一种可使全部判决的平均风险为最小的准则,值越小越精确,该模型标准化的BIC值为4.842,标准化的BIC与简单的指数模型(不考虑季节因素)的标准化BIC相比比较小,并且调整后的R-squared也比较简单指数模型(不考虑季节因素)较好,但是Sig.列给出了Ljung-Box统计量的显著性值,该检验是对模型中残差错误的随机检验;表示指定的模型是否正确。
显著性值小于0.05表示残差误差不是随机的,则意味着所观测的序列中存在模型无法解释的结构。
由于该模型的Sig.为0.034小于显著性水平,故残差误差不是随机的,则意味着所观测的序列中存在模型无法解释的结构,选择该模型不是很合理。
(3)ARIMA模型:
在spss的模型预测中选择专家模型并且是考虑了季节因素的模型,可以得到:
表3.25
ModelDescription
ModelType
ModelID
销售额
Model_1
ARIMA(0,1,1)(0,1,1)
表3.26
ModelStatistics
Model
NumberofPredictors
ModelFitstatistics
Ljung-BoxQ(18)
NumberofOutliers
StationaryR-squared
NormalizedBIC
Statistics
DF
Sig.
销售额-Model_1
0
.324
4.834
12.571
16
.704
0
图3.2
上表为spss输出的模型适应性检验的Ljung-Box的结果。
BIC即贝叶斯信息准则(Bayesianinformationcriterion)它是一种可使全部判决的平均风险为最小的准则,值越小越精确,该模型标准化的BIC值为4.834,标准化的BIC与其他两个模型的标准化BIC相比比较小,并且调整后的R-squared也比较其他两个模型较好。
Sig.列给出了Ljung-Box统计量的显著性值,该检验是对模型中残差错误的随机检验;表示指定的模型是否正确。
显著性值小于0.05表示残差误差不是随机的,则意味着所观测的序列中存在模型无法解释的结构。
由于该模型的Sig.为0.704大于于显著性水平,故残差误差随机的,则意味着所观测的序列中不存在模型无法解释的结构,选择该模型是比较合理的。
上图所显示的是实际观测值与预测值之间的拟合程度,可以看出预测值与实际观测值之间的拟合曲线比较接近,预测的效果比较好,也同样可以证明选择该模型是合理的。
综上所述:
从简单指数模型(不考虑季节因素),Winters’乘法模型和ARIMA模型对比来看,选择ARIMA模型是可以比较好的对该时间序列进行拟合,即ARIMA模型是最优的模型。
3.预测分析
表3.27
ModelDescription
ModelType
ModelID
销售额
Model_1
ARIMA(0,1,1)(0,1,1)
表3.28
Model
Jan2013
Feb2013
Mar2013
Apr2013
May2013
Jun2013
Jul2013
Aug2013
Sep2013
Oct2013
Nov2013
Dec2013
销售额-Model_1
Forecast
509.90
584.46
671.44
668.67
559.68
498.64
431.23
478.87
497.98
470.92
530.17
545.23
UCL
570.59
659.20
762.89
765.04
644.56
577.88
502.76
561.53
593.49
567.03
644.59
669.03
LCL
454.14
516.22
588.41
581.65
483.41
427.79
367.56
405.62
414.42
387.50
431.60
439.35
上表给出了2013年12个月的每个月的销售额预测值和它们的95%置信区间,由此可以计算出2013年的销售额为6447.19。
图3.3
上图显示的是实际观测值与预测值之间的拟合程度,并给出了后几期的预测值。
可以看出预测值与实际观测值之间的拟合效果比较接近,预测的效果比较好。