统计软件最终版.docx

资源描述

统计软件最终版.docx

《统计软件最终版.docx》由会员分享，可在线阅读，更多相关《统计软件最终版.docx（16页珍藏版）》请在冰豆网上搜索。

统计软件最终版.docx

统计软件最终版

JIANGSUUNIVERSITY

统计软件应用课程作业

学院名称：

财经学院

专业班级：

研132班应用统计

学生姓名：

朱成伟

学号：

Z1319004

2014年1月

作业1

打开“酸奶口味.sav”，数据是某市场调查公司在上海、北京、上海和成都对10种酸奶产品口味的调查结果，10种酸奶品牌中有两种是试制品，利用该数据进行分析：

1.这10种酸奶口味均值是否存在差异？

2.4个不同城市消费者对10种酸奶口味评分是否存在差异？

3.在酸奶评价中，品牌和城市是否存在交互作用？

4.试制品的口味评分和其它8种品牌酸奶是否存在差异，能否选出最优的一种。

1.由于“样本品牌brand”是字符串型数据，不能参与方差分析，故通过spss重新编码为其他变量不妨设为”品牌brand1”，然后通过spss的单因素方差分析可得：

表1.11方差齐次检验表

TestofHomogeneityofVariances

口感评分

LeveneStatistic

df1

df2

Sig.

1.619

1741

.104

TestofHomogeneityofVariances（方差齐次检验表）显示Levene统计量F=1.619，对应的显著性水平Sig.=0.104>0.05,因此在5%的显著性水平下不能拒绝各组方差相等的假定，使用单因素方差分析的基本前提得到满足。

表1.12酸奶口味评价得分的方差分析表

ANOVA

口感评分

SumofSquares

MeanSquare

Sig.

BetweenGroups

303.968

33.774

8.698

.000

WithinGroups

6760.468

1741

3.883

Total

7064.436

1750

ANOVA（方差分析表）显示F=8.698，其显著性水平Sig.=0.000<0.05，在5%的显著性水平下拒绝各组均值相同的假定，这10种酸奶口味均值存在显著差异的。

2.使用spss对不同城市进行单因素方差分析可得：

表1.21方差齐次检验表

TestofHomogeneityofVariances

口感评分

LeveneStatistic

df1

df2

Sig.

7.263

1747

.000

TestofHomogeneityofVariances（方差齐次性检验表）显示，Levene统计量为7.263，对应的显著性水平Sig.=0.000<0.05，因此在5%的显著性水平下拒绝各个城市评分方差相等的假定，使用单因素方差分析的基本前提没有得到满足。

虽然4个城市不消费者对10种酸奶口味评分的方差不同，直接使用单因素方差分析不太恰当，但是利用单因素分析中的多重比较或配对比较（pairwisemultiplecompairisions）的方法，我们还是可以看出哪几个城市消费者对10种酸奶口味评分存在显著差异的。

表1.22不同城市评分的多重比较表

MultipleComparisons

口感评分

Tamhane

（I）城市

（J）城市

MeanDifference（I-J）

Std.Error

Sig.

95%ConfidenceInterval

LowerBound

UpperBound

上海

北京

.057

.140

.999

-.31

.43

广州

.303

.131

.121

-.04

.65

成都

-.083

.128

.987

-.42

.26

北京

上海

-.057

.140

.999

-.43

.31

广州

.246

.142

.410

-.13

.62

成都

-.141

.139

.895

-.51

.23

广州

上海

-.303

.131

.121

-.65

.04

北京

-.246

.142

.410

-.62

.13

成都

-.386*

.131

.019

-.73

-.04

成都

上海

.083

.128

.987

-.26

.42

北京

.141

.139

.895

-.23

.51

广州

.386*

.131

.019

.04

.73

*.Themeandifferenceissignificantatthe0.05level.

从MultipleComparisons（多重比较表）中可以看出广州和成都消费者对10种酸奶口味评分之差为-0.386，其对应的显著性水平Sig.=0.019<0.05,在5%显著性水平下拒绝这两个城市消费者对10种酸奶口味评分相等的假设。

类似的，在5%显著性水平下不能拒绝其他各组城市消费者对10种酸奶口味评分相等的假设。

所以可以认为4个不同城市消费者对10种酸奶口味评分存在差异的。

表1.3组间效应检验表

TestsofBetween-SubjectsEffects

DependentVariable:

口感评分

Source

TypeIIISumofSquares

MeanSquare

Sig.

CorrectedModel

457.309a

11.726

3.037

.000

Intercept

65059.647

16848.025

.000

city

32.495

10.832

2.805

.038

brand

296.340

32.927

8.527

.000

city*brand

120.667

4.469

1.157

.263

Error

6607.128

1711

3.862

Total

73419.000

1751

CorrectedTotal

7064.436

1750

a.RSquared=.065（AdjustedRSquared=.043）

从TestsofBetween-SubjectsEffects（组间效果检验表）可以看出city*brand对应的F=1.157，其显著性水平Sig.=0.263>0.05，在5%的显著性水平下统计不显著，因此不应该拒绝原假设，可以认为在酸奶评价中，品牌和城市不存在存在交互作用，不同城市和品牌对酸奶评分都将不产生显著影响。

图1.3轮廓图

还可以通过轮廓图来进一步的判断交互作用，由于轮廓图上的曲线基本按照相同的规律变动，各直线在各水平基本平行，故也可以认为没有交互作用。

表1.4不同品牌的变异系数

样本品牌

Mean

Std.Deviation

变异系数

世*

5.85

162

1.725

0.294871795

伊*

5.6

162

2.05

0.366071429

子*

6.69

169

2.024

0.302541106

卡*

5.68

178

1.993

0.350880282

三*

5.9

173

1.89

0.320338983

中*

5.74

182

2.013

0.350696864

试制品1

6.75

182

1.89

0.28

海*

6.41

176

1.989

0.310296412

香*

6.39

187

2.156

0.337402191

试制品2

6.49

180

1.925

0.296610169

Total

6.16

1751

2.009

0.326136364

从上表可以看出试制品的口味评分和其它8种品牌酸奶存在在差异，变异系数又称“标准差率”，是衡量资料中各观测值变异程度的另一个统计量。

当进行两个或多个资料变异程度的比较时，如果度量单位与平均数相同，可以直接利用标准差来比较。

如果单位和（或）平均数不同时，比较其变异程度就不能采用标准差，而需采用标准差与平均数的比值（相对值）来比较。

从表中可以知道试制品1的变异系数最小，可以认为试制品1是最优的一种。

作业2

打开“bankloan.sav”，数据是某银行收集到的客户违约信息，待分析的因变量是default，其它变量是可能影响客户是否违约的因素。

1.使用logistic回归、判别分析、分类树方法进行分析，判断哪些变量会对客户违约产生影响。

2.比较这几种方法的分类准确性。

（1）运用spss进行Logistic回归可得

表2.11Hosmer和Lemeshow拟合优度检验表

HosmerandLemeshowTest

Step

Chi-square

Sig.

8.467

.389

HosmerandLemeshowTest（Hosmer和Lemeshow检验）。

似然比函数的自然对数值对样品数目很敏感，作为补充和参照，我们需要Hosmer-Lemeshow检验。

该检验依然以卡方分布为标准，但检验的方向与常规检验不同：

我们要求其卡方值低于临界值而不是高于临界值。

取显著性水平0.05，考虑到自由度数目df=8，在Excel中的任意单元格输入函数“=CHIINV（0.05,8）”，回车，理解得到卡方临界值15.507。

作为Hosmer-Lemeshow检验的卡方值4.730<15.507，检验通过。

后面的Sig.值0.786大于0.05，据此也可以判知Hosmer-Lemeshow检验可以通过。

表2.12最终模型包含的变量系数表

VariablesintheEquation

S.E.

Wald

Sig.

Exp（B）

Step1a

age

.034

.017

3.887

.049

1.035

.090

.123

.532

.466

1.094

employ

-.258

.033

60.385

.000

.773

address

-.105

.023

20.251

.000

.901

income

-.009

.008

1.159

.282

.991

debtinc

.067

.031

4.881

.027

1.070

creddebt

.625

.113

30.724

.000

1.869

othdebt

.062

.077

.642

.423

1.064

Constant

-1.551

.619

6.274

.012

.212

a.Variable（s）enteredonstep1:

age,ed,employ,address,income,debtinc,creddebt,othdebt.

VariableintheEquation（方程中包含的变量表）显示模型的参数估计值（B）、参数估计值的标准误差（S.E）、沃尔德统计量（Wald）及其对应的自由度（df）和显著性水平（Sig.）。

在显著性水平α为0.05的情况下，由于ed，income，othdebt参数估计值对应的显著性水平都大于0.05，这3个自变量在回归模型中的作用并不显著，即可以认为age，employ，address，debtinc和creddebt会对客户违约产生影响。

（2）.运用spss进行判别分析：

逐步判别法

表2.13进入判别分析中的变量表

VariablesintheAnalysis

Step

Tolerance

FtoRemove

Wilks'Lambda

Debttoincomeratio（x100）

1.000

125.293

Debttoincomeratio（x100）

.992

130.842

.920

Yearswithcurrentemployer

.992

65.708

.848

Debttoincomeratio（x100）

.766

36.043

.766

Yearswithcurrentemployer

.716

111.035

.844

Creditcarddebtinthousands

.573

44.384

.775

Debttoincomeratio（x100）

.766

35.137

.753

Yearswithcurrentemployer

.691

89.788

.809

Creditcarddebtinthousands

.564

48.856

.767

Yearsatcurrentaddress

.898

10.895

.728

VariablesintheAnalysis（进入判别分析中的变量表）显示在逐步判别法的第一步（Step1），判别分析模型中引入了Debttoincomeratio（x100）变量，然后逐步的引入Yearswithcurrentemployer，Creditcarddebtinthousands，Yearsatcurrentaddress等变量。

故可以知道Debttoincomeratio（x100）（debtinc），Yearswithcurrentemployer（employ），Creditcarddebtinthousands（creddebt），Yearsatcurrentaddress（address）会对客户违约产生影响。

（3）.分类树方法：

使用Clementine12.0对该案例进行分类树建模处理，得到了每个变量相对重要性的图。

由于这些值都是相对值，因此，所有变量值总和为1.0。

此外，变量重要性与模型的准确性无关。

由图2.1可知，8个变量中，最重要的是debtinc，接下来依次是employ、address、age、ed，而income、creddebt以及othdebt对模型基本没有影响，即对客户是否违约，影响力很小。

2.尽管logistic回归以及判别分析的处理软件都是使用的SPSS18.0进行的，而分类树回归树使用Clementine12.0，但为了便于比较3种方法的分类准确性，我们采用Clementine12.0对3种方法同样处理一遍，以得到对3种方法增益的评估图（图2.2）。

图2.23种方法增益的评估图

图2.2中，$C-default代表的是分类树方法，$L-default代表logistic回归，$D-default代表的则是判别分析。

累积增益图的线从左至右的走势通常是从0% 到100%。

优秀模型的增益图将陡升至100%，然后保持平直。

无法提供有用信息的模型将呈对角线状，即从左下角到右上角。

根据以上规则，模型拟合效果最好的是分类树方法，所以其准确度最高；logistic回归与判别分析的增益图则基本相似，所以这两种方法的分类准确度大致相同。

作业3

打开“产品销售额.sav”，数据是某产品销售额的信息。

1.绘制销售额的时间序列图，判断它的变动趋势。

2.使用时间序列分析方法，通过对比分析建立一个比较好的模型。

arima模型

3.利用建立的模型对2013年销售额进行预测。

1.销售额的时间序列图

图3.1销售额的时间序列图

上图为销售额的时间序图，由上图可以知道产品的销售额随着时间变化而逐渐增加，并且有明显的上升趋势，同时序列中还有很多波峰和波谷，预示着时间序列可能还存在季节变动成分。

2.模型比较：

（1）简单指数平滑模型（不考虑季节因素）：

表3.21

ModelDescription

ModelType

ModelID

销售额

Model_1

Simple

表3.22

ModelStatistics

Model

NumberofPredictors

ModelFitstatistics

Ljung-BoxQ（18）

NumberofOutliers

StationaryR-squared

NormalizedBIC

Statistics

Sig.

销售额-Model_1

-.004

7.070

216.807

.000

上表为spss输出的模型适应性检验的Ljung-Box的结果。

BIC即贝叶斯信息准则（Bayesianinformationcriterion）它是一种可使全部判决的平均风险为最小的准则，值越小越精确，该模型标准化的BIC值为7.070，标准化的BIC较大，不能精确的拟合该模型，故不适合使用该模型，同时调整后的R-squared为-0.004，比较小，同样也可以认为该模型是不合适的。

（2）Winters’乘法模型：

表3.23

ModelDescription

ModelType

ModelID

销售额

Model_1

Winters'Multiplicative

表3.24

ModelStatistics

Model

NumberofPredictors

ModelFitstatistics

Ljung-BoxQ（18）

NumberofOutliers

StationaryR-squared

NormalizedBIC

Statistics

Sig.

销售额-Model_1

.209

4.842

26.371

.034

上表为spss输出的模型适应性检验的Ljung-Box的结果。

BIC即贝叶斯信息准则（Bayesianinformationcriterion）它是一种可使全部判决的平均风险为最小的准则，值越小越精确，该模型标准化的BIC值为4.842，标准化的BIC与简单的指数模型（不考虑季节因素）的标准化BIC相比比较小，并且调整后的R-squared也比较简单指数模型（不考虑季节因素）较好，但是Sig.列给出了Ljung-Box统计量的显著性值，该检验是对模型中残差错误的随机检验；表示指定的模型是否正确。

显著性值小于0.05表示残差误差不是随机的，则意味着所观测的序列中存在模型无法解释的结构。

由于该模型的Sig.为0.034小于显著性水平，故残差误差不是随机的，则意味着所观测的序列中存在模型无法解释的结构，选择该模型不是很合理。

（3）ARIMA模型：

在spss的模型预测中选择专家模型并且是考虑了季节因素的模型，可以得到:

表3.25

ModelDescription

ModelType

ModelID

销售额

Model_1

ARIMA（0,1,1）（0,1,1）

表3.26

ModelStatistics

Model

NumberofPredictors

ModelFitstatistics

Ljung-BoxQ（18）

NumberofOutliers

StationaryR-squared

NormalizedBIC

Statistics

Sig.

销售额-Model_1

.324

4.834

12.571

.704

图3.2

上表为spss输出的模型适应性检验的Ljung-Box的结果。

BIC即贝叶斯信息准则（Bayesianinformationcriterion）它是一种可使全部判决的平均风险为最小的准则，值越小越精确，该模型标准化的BIC值为4.834，标准化的BIC与其他两个模型的标准化BIC相比比较小，并且调整后的R-squared也比较其他两个模型较好。

Sig.列给出了Ljung-Box统计量的显著性值，该检验是对模型中残差错误的随机检验；表示指定的模型是否正确。

显著性值小于0.05表示残差误差不是随机的，则意味着所观测的序列中存在模型无法解释的结构。

由于该模型的Sig.为0.704大于于显著性水平，故残差误差随机的，则意味着所观测的序列中不存在模型无法解释的结构，选择该模型是比较合理的。

上图所显示的是实际观测值与预测值之间的拟合程度，可以看出预测值与实际观测值之间的拟合曲线比较接近，预测的效果比较好，也同样可以证明选择该模型是合理的。

综上所述：

从简单指数模型（不考虑季节因素），Winters’乘法模型和ARIMA模型对比来看，选择ARIMA模型是可以比较好的对该时间序列进行拟合，即ARIMA模型是最优的模型。

3.预测分析

表3.27

ModelDescription

ModelType

ModelID

销售额

Model_1

ARIMA（0,1,1）（0,1,1）

表3.28

Model

Jan2013

Feb2013

Mar2013

Apr2013

May2013

Jun2013

Jul2013

Aug2013

Sep2013

Oct2013

Nov2013

Dec2013

销售额-Model_1

Forecast

509.90

584.46

671.44

668.67

559.68

498.64

431.23

478.87

497.98

470.92

530.17

545.23

UCL

570.59

659.20

762.89

765.04

644.56

577.88

502.76

561.53

593.49

567.03

644.59

669.03

LCL

454.14

516.22

588.41

581.65

483.41

427.79

367.56

405.62

414.42

387.50

431.60

439.35

上表给出了2013年12个月的每个月的销售额预测值和它们的95%置信区间，由此可以计算出2013年的销售额为6447.19。

图3.3

上图显示的是实际观测值与预测值之间的拟合程度，并给出了后几期的预测值。

可以看出预测值与实际观测值之间的拟合效果比较接近，预测的效果比较好。

展开阅读全文