统计建模课程复习与练习剖析.docx

资源描述

统计建模课程复习与练习剖析.docx

《统计建模课程复习与练习剖析.docx》由会员分享，可在线阅读，更多相关《统计建模课程复习与练习剖析.docx（22页珍藏版）》请在冰豆网上搜索。

统计建模课程复习与练习剖析.docx

统计建模课程复习与练习剖析

《统计建模》复习题

1.统计建模的主要步骤有哪些？

1明确问题 2数据收集 3数据预处理 4模型构建 5模型估计 6模型检验

7结果分析8撰写论文

2.试列举至少5个常用的统计数据库？

例如，中经网统计数据库。

1国家统计数据库2中国经济网数据中心3

OECD数据库4国研网数据库5国家发改委6世界银行7中国统计年鉴、WIND数据库

、BvD数据库

3.试列举至少4项国内广泛使用的微观数据库？

并简要说明。

1．CHIP数据（中国农村和城市居民家庭收入分配）

2．CHNS（中国健康与营养调查）

3．CHARLS（中国健康与养老追踪调查）

4．CFPS（中国家庭动态调查）

5．CHFS（China Health and Fertility Survey ）中国健康与生育调查

4.常见的模型估计方法有哪些？

试列举之。

最小二乘（OLS）法、极大似然估计、广义矩（GMM）法、分位数回归方法、贝

叶斯估计

5.在完成统计模型的参数估计后，通常需要进行哪几类检验？

试列举之。

定性检验，T检验，f检验，拟合优度检验，预测精度检验

6.著名统计学家博克斯（George

Box）说过：

所有的模型都是错的，但其中有一些模型是有用的！

你对这句话如何理解？

模型只能是客观世界的一种近似，是现实的简单化或理想化。

有用的模型能抓住

并凸显现象中与分析目的最相关的特征，能抓住问题的本质。

7.简述结构方程模型和普通回归模型的区别？

结构方程模型，是一种建立、估计和检验多个变量之间的因果关系模型的方法。

模型中既包含有可观测的显变量，也可能包含无法直接观测的潜变量。

普通回归模型属于单方程模型方法，结构方程模型属于联立方程模型方法，回归

分析只能处理显性变量，而结构方程模型可以发现潜在变量。

普通回归一般只有

一个因变量，而且是单向的，SEM则是可单，可双，普通回归是基础，SEM是后

来的发展和完善

8.和普通回归模型相比，结构方程模型有哪些优点？

1允许回归方程的自变量含有测量误差

2可以同时处理多个因变量

3.可以在一个模型中同时处理因素的测量和因素之间的结构。

4.允许更具弹性的模型设定。

9.结构方程模型的构建包括哪几步？

1.模型假设:

SEM是一种验证性的方法，必须有理论支撑。

在进行模型估计之前，要先根据理

论分析或以往研究成果来设定初始理论模型。

2.模型识别:

确定所设定的模型是否能够对其估计求解。

3.模型估计:

极大似然法（Maximum likelihood）和广义最小二乘法（Generalized

least square）

4.模型评价:

对模型的整体和参数的估计值进行评价。

如果模型拟合效果不佳，对模型进行修

正后重新估计和评价。

10. 观察变量、潜在变量

测量变量：

也叫观察变量或显变量（显示变量），是可以直接测量的指标。

潜变量：

无法直接观测，其测量是通过一个或几个可观察指标来间接完成的。

11. 测量模型、结构模型、

测量模型

典型的SEM模型图示

12. 外生变量、内生变量

外生变量：

在模型或系统中，只影响其他变量，而不受其它变量的影响。

在路径图中，只有指向其他变量的箭头，没有箭头（不考虑残差项）指向它的变

量

内生变量：

在模型或系统中，受其他变量（外生变量或内生变量）的影响，而不

受其它变量的影响。

在路径图中，有其它变量的箭头指向它。

13. 因果关系、相关关系

因果关系：

一个变量对另外一个变量的直接影响。

用单向箭头表示。

相关关系：

双向曲线箭头表示。

但这种相关关系不代表有因果关系。

因果关系需要更严密的证明。

例如，常吃鱼的学生学习成绩更好。

二者是相关关

系，但不一定具有因果关系。

14. 直接效应、间接效应和总效应

直接效应：

反映原因变量（外生变量或内生变量）对结果变量（内生变量）的直

接影响。

其大小等于原因变量到结果变量的路径系数。

间接效应：

反映原因变量通过一个或者多个中间变量对结果变量所产生的影响。

间接效应是所有从原始变量出发，通过中间变量，结束于结果变量的路径系数乘

积之和。

总效应：

原因变量对结果变量效应的总和，包括直接效应和间接效应。

15. 饱和模型与非饱和模型

预设模型（Default model）：

所建立的模型。

饱和模型（Saturated

model）：

对参数间关系最无限制的模型，各个变量间都假设相关或有因果关系。

独立模型（Independence

model）：

指模型中所有变量完全独立。

只估计观测变量的方差。

也叫零模型。

如果“预设模型”拟合的比“独立模型”还差，就应该拒绝预设模型。

通常预设

模型的拟合优度在独立模型和饱和模型之间。

16. 简述内生变量和外生变量的区别。

内生变量是由模型系统决定的,同时也对模型系统产生影响，外生变量影响系统但

不受系统影响.外生变量一般是经济变量,条件变量,政策变量,虚变量

17. 简述路径系数和载荷系数的区别。

：

潜变量与潜变量间的回归系数称为路径系数，潜变量与可观测变量间的回归系数

称为载荷系数。

18. 在结构方程模型中，Default model（预设模型）、Saturated

model（饱和模型）、 Independence

model（独立模型）三类模型有什么区别，并举例说明。

预设模型（Default model）：

所建立的模型。

饱和模型（Saturated

model）：

对参数间关系最无限制的模型，各个变量间都假设相关或有因果关系。

独立模型（Independence

model）：

指模型中所有变量完全独立。

只估计观测变量的方差。

也叫零模型。

如果“预设模型”拟合的比“独立模型”还差，就应该拒绝预设模型。

通常预设

模型的拟合优度在独立模型和饱和模型之间。

19. 比较验证性因子分析（CFA）与探索性因子分析（EFA）的区别。

探索性因子分析（CFA）：

针对已有数据，探索模型中变量之间的关系。

目的在

于探索。

样本量应超过100，应该为观测变量的5-10倍以上（Hair, 1998）

验证性因子分析（Confirmatory Factor Analysis,

EFA）：

验证根据理论预设的模型中，若干变量之间的关系是否成立。

目的在于

验证。

样本量至少150个（Rigdon, E. , 2005），至少为观测变量数目的10-

15倍以上（Thompson, 2000）

20. 简述PLS-PM模型与SEM模型的区别，比较二者的优缺点。

PLS-PM不对数据做任何分布假定,

而SEM必须假定数据为多元正态分布。

但学界往往忽视此点，误用SEM模型。

在

实际应用中, 往往统计不显著也都判定显著, 这是因为数据很难满足正态性假定。

在正态假定下, PLS估计是有偏的；但在非正态条件下，PLS-PM优于SEM。

PLS-PM适用于小样本；SEM样本量必须较大。

PLS-

PM假定所有隐变量都是相关的（即使在图中它们之间无箭头），而SEM假定，只

要隐变量之间无箭头, 就认为它们之间的相关为零；

PLS-PM用全部数据建模，而SEM由于假定了分布,

只要有各变量的协方差矩阵就可以计算。

例如，4个观测变量，只需协方差及样本

量n，共11个数就可以得到大量输出结果，这意味着先验假定对结果影响较大。

由于软件支持，而且只要有协方差阵即可计算,

社会学、心理学、教育学等学者偏好SEM方法。

PLS-PM和SEM的检验评价指标不同；

PLS-

PM适用于关注隐变量得分的情况（例如满意度指数），各国计算满意度指数都用

PLS-PM方法。

SEM无法直接得到隐变量得分。

PLS-PM收敛速度快, 适用于较大、较复杂的模型, 计算效率比SEM更高。

PLS-

PM无商业软件支持，知名度低；SEM有LISREL、AMOS等软件支持，知名度高

。

21. 季节调整的分解方式包括哪几种模型？

22. 在季节调整过程中，什么时候选择取对数？

什么时候不取对数？

乘法模型取对数，加法模型不取对数

针对某个序列而言，数据波动明显取对数，数据波动平稳不取

存在异方差的时候必须取对数

23. 指数平滑包括哪几种常用的方法，并指出每一种指数平滑方法的适用条件。

（1）单指数平滑（一个参数）

这种单指数平滑方法适用于序列值在一个常数均值上下随机波动的情况，

无趋势及季节要素。

（2）双指数平滑（一个参数）

这种方法是将单指数平滑进行两次（使用相同的参数）。

适用于有线性趋势的序

列。

（3）Holt-Winters — 无季节趋势（两个参数）

这种方法适用于具有线性时间趋势、无季节变差的情形。

这种方法与双指数平滑法一样以线性趋势无季节成分进行预测。

双指数平滑法只

用了一个参数，这种方法用两个参数。

（4）Holt-Winters加法模型（三个参数）

该方法适用于具有线性时间趋势和加法模型的季节变差。

（5） Holt-Winters 乘法模型

该方法适用于具有线性时间趋势和乘法模型的季节变差

24. 在机器学习中，常用的分类方法有哪些？

监督学习 :

1. K近邻 2. 回归 3.支持向量机回归（SVM） 4 .决策树 5. 朴素贝叶斯

6.人工神经网络

非监督学习：

1.聚类 2.Apriori 3.FP-growth

25. 举例说明决策树的基本思想及其优势。

基本思想：

决策树学习采用的是自顶向下的递归方法，其基本思想是以信息熵为

度量构造一棵熵值下降最快的树，到叶节点处的熵值为零，此时每个叶节点中的

实例都属于同一类。

优点：

1决策树模型可以读性好，具有描述性，有助于人工分析；

效率高，决策树只需要一次构建，反复使用，每一次预测的最大计算次数不超过

决策树的深度。

26. 交叉验证的基本思想是什么？

常见的交叉验证方法有哪些？

基本思想：

将原始数据进行分组，一部分做为训练集（train

set），另一部分做为验证集（validation

set）。

首先，用训练集进行训练，然后，利用验证集来测试训练得到的模型，以此

来做为评价分类器的性能指标。

主要分类 :

Hold-Out方法、K折交叉验证、留一交叉验证

27. 结合图形，解释Adaboost和Bagging方法的原理，并比较二者的区别。

AdaBoost 算法原理：

boosting提升法的一种特例，试试调节抽样权重的过程

bagging回归的做法：

不断放回地对训练样本进行再抽样，样本量和原来样本量相同；

对每个自助样本都建立一棵回归树；

对于每一个观测，每棵树给一个预测；

将这些值进行投票（分类问题）或者求平均值（回归问题）作为最终的预测值

。

AdaBoost和bagging都是在若干分类器基础上的一种集成算法，区别在于，如果一

个训练样本在前一个分类器中分类犯错，那么在下一次抽样过程中，它的权重会

被加重；相应地，被正确分类的样本的权重会下降。

28. 比较随机森林分类算法和决策树算法的区别，解释随机森林的原理。

变量又进行了随机抽样

原理：

从样本集中用自助法选出n个样本；

选择最佳分割属性作为节点建立决策树。

这些决策树的每一个树节点的分割变量

不是由所有的自变量竞争产生的，而是从随机选取的少数变量中产生的。

重复以上两步m次，即建立了m棵决策树。

这m个决策树形成随机森林，通过投票表决结果，决定数据属于哪一类。

随机森林的特点：

决策树的样本是随机的，每棵树的每个节点的产生也是随机的

。

29. 结合图形，解释支持向量机（SVM）方法的原理。

把图弄明白找出两块边界，最宽的平行线上的点叫支持向量

在线性可分情况下，在原空间寻找两类样本的最优分类超平面。

在线性不可分的情

况下，加入了松弛变量进行分析，通过使用非线性映射将低维输入空间的样本映射

到高维属性空间使其变为线性情况，从而使得在高维属性空间采用线性算法对样本

的非线性进行分析成为可能，并在该特征空间中寻找最优分类超平面。

其次，它通

过使用结构风险最小化原理在属性空间构建最优分类超平面，使得分类器得到全局

最优，并在整个样本空间的期望风险以某个概率满足一定上界。

30. Bootstrap的定义。

bootstap（自助、自举、鞋襻）：

一种从给定训练集中等概率、有放回的进

行重复抽样，也就是说，每当选中一个样本，它等可能地被再次选中，并

被再次添加到训练集中。

31. 结构方程模型。

关于结构方程模型的内容，请认真学习两个案例“超市满意度模型”和“收入满

意度模型”。

画出两个图，标准化和非标准化的结果图，并给出部分文本输出结果：

.77

e1.46

e2.23

e3.40

e14

亲友满意

家庭满意

个性满意

健康满意

1.88

1.87

1.00

1.20

25915.40

个体状况

.11

-.31

3.03

e10

e11

.00

e12

53.52

e92360.16

e81876.55

收入

资产

期望收入

.63

1.00

.11

收入状况

.14

.39

.00

目前快乐

2.30

收入满意

地位满意 .90

e15 工作满意

.12

1.00

1.21

图 1

.00 -1.85

社会状况

亲友满意

.35

.01

e2.51

.79

.70

个体状况

e14

健康满意

-.05

e10

e11

-.10

e12

.85

.34

收入

资产

.81

.90

.93 .97

.92

.00

收入状况

.67

.01

目前快乐

期望收入

.18

e6 收入满意

.42

-.14 -.54

.02

公正满意

地位满意

.78

.70

.45

社会状况

e15

工作满意

图 2

Estimate S.E. C.R. P Label

个体状况 <--- 收入状况

社会状况 <--- 收入状况

亲友状况_1 <--- 个体状况

家庭环境_1 <--- 个体状况

个性状况_1 <--- 个体状况

地位满意_1 <--- 社会状况

公正安逸_1 <--- 社会状况

收入满意_1 <--- 社会状况

期望收入_1 <--- 收入状况

资产1_1 <--- 收入状况

收入1_1 <--- 收入状况

目前快乐_1 <--- 社会状况

目前快乐_1 <--- 个体状况

目前快乐_1 <--- 收入状况

健康环境_1 <--- 个体状况

工作满意_1 <--- 社会状况

.000 .000 -2.651 .008

-.001 .000 -3.600 ***

1.000

回归系数 .141 8.536 ***

1.203

1.882 .198 9.519 ***

1.000

1.211 .099 12.215 ***

1.124 .097 11.556 ***

1.000

.630 .012 51.412 ***

.108 .002 55.311 ***

-1.851 .192 -9.622 ***

-.308 .342 -.900 .368

.000 .000 .442 .658

1.865 .199 9.374 ***

.898 .048 18.622 ***

Estimate

个体状况 <--- 收入状况

社会状况 <--- 收入状况

亲友状况_1 <--- 个体状况

家庭环境_1 <--- 个体状况

个性状况_1 <--- 个体状况

地位满意_1 <--- 社会状况

公正安逸_1 <--- 社会状况

收入满意_1 <--- 社会状况

期望收入_1 <--- 收入状况

资产1_1 <--- 收入状况

收入1_1 <--- 收入状况

目前快乐_1 <--- 社会状况

目前快乐_1 <--- 个体状况

目前快乐_1 <--- 收入状况

健康环境_1 <--- 个体状况

-.105

-.142

.353

.508

.795

.784

.446

.421

.966

.902

.921

-.544

-.048

.013

.696

Estimates （Group number 1 - Default model）

Scalar Estimates （Group number 1 - Default model）

Maximum Likelihood Estimates

Regression Weights:

（Group number 1 - Default model）

Standardized Regression Weights:

（Group number 1 - Default model）

Estimate S.E. C.R. P Label

e11

e12

e13

e10

e14

e15

25915.401 1299.844 19.937 ***

.108 .022 4.957 ***

.386 .031 12.492 ***

.767 .037 20.820 ***

.455 .023 19.571 ***

.226 .020 11.072 ***

.247 .019 12.749 ***

2.321 .114 20.315 ***

2.304 .112 20.506 ***

1876.554 240.245 7.811 ***

2360.156 139.379 16.933 ***

53.522 3.543 15.106 ***

3.031 .161 18.837 ***

.404 .026 15.533 ***

.326 .020 16.188 ***

Estimate S.E. C.R. P Label

e12 <--> e13

e5 <--> e9

e7 <--> e13

.136 .017 8.129 ***

-.144 .424 -.339 .734

8.330 1.376 6.052 ***

Estimate

收入状况

社会状况

个体状况

工作满意_1

健康环境_1

.000

.020

.011

.493

.485

Estimate

e12 <--> e13

e5 <--> e9

e7 <--> e13

.667

-.013

.310

Estimate

工作满意_1 <--- 社会状况

.702

Covariances:

（Group number 1 - Default model）

Correlations:

（Group number 1 - Default model）

Variances:

（Group number 1 - Default model）

Squared Multiple Correlations:

（Group number 1 - Default model）

Estimate

目前快乐_1

收入1_1

资产1_1

期望收入_1

收入满意_1

公正安逸_1

地位满意_1

个性状况_1

家庭环境_1

亲友状况_1

.335

.849

.813

.932

.177

.199

.615

.632

.258

.125

Model

NFI RFI IFI TLI CFI

Delta1 rho1 Delta2 rho2

Default model

Saturated model

Independence model

.981 .974 .991 .987 .991

1.000 1.000 1.000

.000 .000 .000 .000 .000

Model

NPAR CMIN DF P CMIN/DF

Default model

Saturated model

Independence model

31 91.413 47 .000 1.945

78 .000 0

12 4858.120 66 .000 73.608

Model

RMR GFI AGFI PGFI

Default model

Saturated model

Independence model

2.015 .984 .974 .593

.000 1.000

1887.425 .507 .418 .429

Model

PRATIO PNFI PCFI

Default model

Saturated model

Independence model

.712 .699 .706

.000 .000 .000

1.000 .000 .000

Model Fit Summary

CMIN

RMR, GFI

Baseline Comparisons

Parsimony-Adjusted Measures

NCP

Model

AIC BCC BIC CAIC

Default model

展开阅读全文