多元统计整理版docDOC.docx

资源描述

多元统计整理版docDOC.docx

《多元统计整理版docDOC.docx》由会员分享，可在线阅读，更多相关《多元统计整理版docDOC.docx（19页珍藏版）》请在冰豆网上搜索。

多元统计整理版docDOC.docx

多元统计整理版docDOC

1、主成分分析的目的是什么？

主成分分析是考虑各指标间的相互关系，利用降维的思想把多个指标转换成较少的几个相互独立的、能够解释原始变量绝大部分信息的综合指标，从而使进一步研究变得简单的一种统计方法。

它的目的是希望用较少的变量去解释原始资料的大部分变异，即数据压缩，数据的解释。

常被用来寻找判断事物或现象的综合指标，并对综合指标所包含的信息进行适当的解释。

2、主成分分析基本思想？

主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标。

同时根据实际需要从中选取几个较少的综合指标尽可能多地反映原来的指标的信息。

●设p个原始变量为，新的变量（即主成分）为，主成分和原始变量之间的关系表示为?

3、在进行主成分分析时是否要对原来的p个指标进行标准化？

SPSS软件是否能对数据自动进行标准化？

标准化的目的是什么？

需要进行标准化，因为因素之间的数值或者数量级存在较大差距，导致较小的数被淹没，导致主成分偏差较大，所以要进行数据标准化；

进行主成分分析时SPSS可以自动进行标准化；

标准化的目的是消除变量在水平和量纲上的差异造成的影响。

求解步骤

⏹对原来的p个指标进行标准化，以消除变量在水平和量纲上的影响

⏹根据标准化后的数据矩阵求出相关系数矩阵

⏹求出协方差矩阵的特征根和特征向量

⏹确定主成分，并对各主成分所包含的信息给予适当的解释

版本二：

根据我国31个省市自治区2006年的6项主要经济指标数据，表二至表五，是SPSS的输出表，试解释从每张表可以得出哪些结论，进行主成分分析，找出主成分并进行适当的解释：

（下面是SPSS的输出结果，请根据结果写出结论）

表一：

数据输入界面

表二：

数据输出界面a）

此表为相关系数矩阵，表示的是各个变量之间的相关关系，说明变量之间存在较强的相关系数，适合做主成分分析。

观察各相关系数，若相关矩阵中的大部分相关系数小于0.3，则不适合作因子分析。

表三为各成分的总解释方差表。

component为各成分的序号；initialEigenvalues是初始特征值，total是各成分的特征值，%ofvariance是各成分的方差占总方差的百分比（贡献率）。

Cumulative%是累计贡献率，表明前几个成分可以解释总方差的百分数。

Extractionsums是因子提取结果。

一般来说，当特征根需大于1，主成分的累计方差贡献率达到80%以上的前几个主成分，都可以选作最后的主成分。

由表可知，第一个主成分的特征根为3.963，方差贡献率为66.052%，这表示第一个主成分解释了原始6个变量66.052%的信息，可以看出前两个成分所解释的方差占总方差的95.57%，仅丢失了4.43%的信息。

因此最后结果是提取两个主成分。

在extractionsumsofsquaredloadings一栏，自动提取了前两个公因子，因为前两个公因子就可以解释总方差的绝大部分95.6%。

表四是表示各成分特征值的碎石图。

可以看出因子1与因子2，以及因子2与因子3之间的特征值之差值比较大。

而因子3、4、5之间的特征值差值都比较小，可以初步得出保留两个因子将能概括绝大部分信息。

明显的拐点为3，因此提取2个因子比较合适。

证实了表三中的结果。

碎石图（ScreePlot），从碎石图可以看到6个主轴长度变化的趋势。

实践中，通常选择碎石图中变化趋势出现拐点的前几个主成分作为原先变量的代表，该例中选择前两个主成分即可。

表五是初始提取的成分矩阵，它显示了原始变量与各主成分之间的相关系数，表中的每一列表示一个主成分作为原来变量线性组合的系数，也就是主成分分析模型中的系数aij。

比如，第一主成分所在列的系数0.670表示第1个主成分和原来的第一个变量（人均GDP）之间的线性相关系数。

这个系数越大，说明主成分对该变量的代表性就越大。

第一主成分（component1）对财政收入，固定资产投资，社会消费品零售总额有绝对值较大的相关系数；第二主成分（component2）对人均gdp，年末总人口，居民消费水平有绝对值较大的相关系数。

可以分别对其进行命名。

版本一：

根据我国31个省市自治区2006年的6项主要经济指标数据，进行因子分析，对因子进行命名和解释，并计算因子得分和排序。

表一数据输入界面：

表二因子分析SPSS输出界面a）

KMO统计量为0.695，接近0.7，表明6个变量之间有较强的相关关系。

适合作因子分析。

Bartlett球度检验统计量为277.025。

检验的P值接近0，拒绝原假设，认为相关系数与单位阵有显著差异。

可以因子分析。

表三因子分析SPSS输出界面b）

表三为公因子提取前和提取后的共同度表，initial列提取因子前的各变量的共同度；extraction列是按特定条件（如特征值>1）提取公因子时的共同度，表中的共同度都很高，说明提取的成分能很好的描述这些变量。

所有变量的共同度量都在80%以上，因此，提取出的公因子对原始变量的解释能力应该是很强的。

变量xi的信息能够被k个公因子解释的程度

表四因子分析SPSS输出界面c）

表四为各成分的总解释方差。

Component表示按特征值大小排序的因子编号。

Initial下分别给出了相关系数矩阵的特征值、方差贡献率和累计方差贡献率。

Extraction是所提取的公因子未经旋转情况下的特征值，方差贡献了和累计方差贡献率。

Rotation项下是旋转后的。

“RotationSumsofSquaredLoadings”部分是因子旋转后对原始变量方差的解释情况。

旋转后的累计方差没有改变，只是两个因子所解释的原始变量的方差发生了一些变化。

95.57%表明提取的两个公共因子的方差可以解释总方差的95.57%。

第j个公因子对变量xi的提供的方差总和，反映第j个公因子的相对重要程度

旋转后成分矩阵。

第一个因子与年末总人口、固定资产投资、社会消费品零售总额、财政收入这几个载荷系数较大，主要解释了这几个变量。

从实际意义上看，可以把因子1姑且命名为“经济水平”因子。

而第二个因子与人均GDP、居民消水平这两个变量的载荷系数较大，主要解释了这两个变量，从实际意义看，可以将因子2姑且命名为“消费水平”因子

表五是因子得分系数矩阵。

根据因子得分和原始变量的标准化值可计算每个观测量的各因子的分数。

4、因子分析基本思想？

因子分析是利用降维的思想，由研究原始变量相关矩阵内部的依赖关系出发，把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。

因子分析的基本思想是根据相关性的大小将原始变量分组，使得组内的变量之间相关性较高，而不同组的变量之间相关性较低。

每组变量代表一个基本结构，并用一个不可观测的综合变量表示，这个基本结构就称为公共因子。

对于所研究的某一具体问题，原始变量可以分解为两部分之和的形式，一部分是少数几个不可测的所谓公共因子的线性函数，另一部分是与公共因子无关的特殊因子。

●

设p个原始变量为，要寻找的m个因子（m

系数aij为第个i变量与第k个因子之间的线性相关系数，反映变量与因子之间的相关程度，也称为载荷（loading）。

由于因子出现在每个原始变量与因子的线性组合中，因此也称为公因子。

为特殊因子，代表公因子以外的因素影响

5、因子分析的目的是什么？

因子分析是从多个变量指标中选择出少数几个综合变量指标，以较少的几个因子反映原始资料的大部分信息的一种降维的多元统计方法。

求解步骤

1）对原始数据标准化

2）建立相关系数矩阵R（因子提取）

3）求R的单位特征根λ与特征向量U；

4）因子旋转求因子载荷矩阵A；

5）写出因子模型X=AF+E

6）建立因子得分矩阵P

7）写出因子得分模型F=P’X

（因子提取的方法：

主成分法、不加权最小平方法、加权最小平方法、最大似然法、主轴因子法;旋转方法为：

方差最大正交旋转、四次方最大正交旋转、平方最大正交旋转、斜交旋转、Promax：

该方法在方差最大正交旋转的基础上进行斜交旋转）

6、什么是变量共同度？

写出变量共同度的表达式。

变量xi的信息能够被k个公因子解释的程度，用k个公因子对第i个变量xi的方差贡献率表示

7、什么是公共因子方差贡献率？

写出公共因子方差贡献率表达式。

第j个公因子对变量xi的提供的方差总和，反映第j个公因子的相对重要程度

8、因子分析中KMO检验主要检验什么？

KMO越接近1，变量间的相关性越强

KMO在0.8以上，说明该问题适合做因子分析。

KMO统计量在0.7以上时，因子分析效果较好；

KMO统计量在0.5以下时，因子分析效果很差

KMO（Kaiser-Meyer-Olkin）检验统计量是用于比较原始变量间简单相关系数和偏相关系数的指标。

当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时，KMO值接近1，KMO越接近1，变量间的相关性越强。

当所有变量间的简单相关系数平方和接近0时，KMO值接近0.KMO值越接近于0,意味着变量间的相关性越弱，原有变量越不适合作因子分析。

Kaiser给出了常用的kmo度量标准：

0.9以上表示非常适合；0.8表示适合；0.7表示一般；0.6表示不太适合；0.5以下表示极不适合。

Bartlett球度检验：

以变量的相关系数矩阵为基础，假设相关系数矩阵是单位阵（对角线元素不为0，非对角线元素均为0）。

如果相关矩阵是单位阵，则各变量是独立的，无法进行因子分析。

9、因子分析中公因子个数确定的依据是什么？

用公因子方差贡献率提取：

一般累计方差贡献率达到80%以上的前几个因子可以作为最后的公因子

用特征根提取：

一般要求因子对应的特征根要大于1，因为特征根小于1说明该公因子的解释力度太弱，还不如使用原始变量的解释力度大

碎石图中变化趋势出现拐点的前几个主成分

10、因子分析中因子旋转（factorrotation）的目的是什么？

什么是因子得分（factorscore）？

因子旋转的目的使得因子载荷系数尽可能两极分化，使因子载荷系数向1或0靠近，使得某一个变量值在某一个因子上的载荷系数大，从而更清楚地看出各因子与原始变量的相关性大小，使因子的含义更加清楚，以便于对因子的命名和解释。

因子得分就是每个观测量的共同因子的值。

根据因子得分系数和原始变量的标准化值可以计算每个观测量的各因子的分数，因子得分=x1*对应权重+x2*对应权重+…+xn*对应权重，根据因子得分我们可以写出因子表达式。

因子得分是各变量的线性组合

11、简述因子分析与主成分分析的区别。

主成分分析和因子分析是两种把变量维度降低以便于描述、理解和分析的方法。

1在SPSS分析中，因子分析必须进行因子旋转，主成分分析不一定要旋转。

故公共因子往往可以找到实际意义，而主成分一般不能解释实际意义；

2因子分析法是对你所分析的变量的抽取（因子），主成分分析法是对你所分析的变量的概括（指标）；

3因子模型中除了公共因子还有特殊因子，公共因子只解释了原变量的部分方差，而主成分解释了原变量全部方差；

4因子分析是把变量表示成各因子的线性组合，而主成分则是把主成分表示成各变量的线性组合；

5主成分分析中不需要有一些专门假设，因子分析则需要一些假设。

因子分析的假设包括：

各个共同因子之间不相关，特殊因子之间也不相关，共同因子和特殊因子之间也不相关；

6提取主因子的方法不仅有主成分法，还有极大似然法，基于这些不同算法得到的结果一般也不同。

而主成分只能用主成分法提取；

7主成分分析中，当给定的协方差矩阵或者相关矩阵的特征值唯一时，主成分一般是固定的；而因子分析中，因子不是固定的，可以旋转得到不同的因子；

8在因子分析中，因子个数需要分析者指定（spss根据一定的条件自动设定，只要是特征值大于1的因子进入分析），而指定的因子数量不同而结果不同。

在主成分分析中，成分的数量是一定的，一般有几个变量就有几个主成分。

12、聚类分析基本思想及分类

聚类分析就是按照对象之间的“相似”程度把对象进行分类。

聚类分析的“对象”可以是所观察的多个样本，也可以是针对每个样本测得的多个变量。

对样品的分类称为Q型聚类；对变量的分类，则称为R型聚类

Q聚类是根据被观测对象的各种特征，即反映被观测对象的特征的各变量值进行分类。

R聚类是根据所研究的问题选择部分变量对事物的某一方面进行研究。

按对象的“相似”程度分类

⏹对变量进行聚类可以用夹角余弦、Pearson相关系数等工具，也称为相似系数

⏹对样本聚类则使用“距离”

求解步骤

1）先对数据进行变换处理，消除量纲对数据的影响；

2）认为各样本点自成一类（即n个样本点一共有n类），然后计算各样本点之间的距离，并将距离最近的两个样本点并成一类；

3）选择并计算类与类之间的距离，并将距离最近的两类合并；

4）重复上面作法直至所有样本点归为所需类数为止；

5）最后绘制聚类图。

13、相似性的度量

1）在对样本进行分类时，度量样本之间的相似性使用点间距离。

欧式距离

绝对值距离

切比雪夫距离

明氏距离

兰氏距离

2）在对变量进行分类时，度量变量之间的相似性常用相似系数，测度方法有

夹角余弦

Pearson相关系数

夹角余弦，如果

与

比较相似，则他们的夹角接近0，从而

接近1。

Pearson相关系数，相关系数越接近于1或-1，越相似；彼此无关的变量，他们的相关

系数接近0。

15、系统聚类和快速聚类的特点分别是什么？

（版本一）

系统聚类事先不确定要分多少类，而是先把每一个对象作为一类，然后一层一层进行分类。

根据运算的方向不同，层次聚类法又分为合并法和分解法，两种方法的运算原理一样，只是方向相反。

快速聚类法是根据事先确定的K个类别反复迭代直到把每个样本分到指定的类别中。

类别数目的确定具有一定的主观性，究竟分多少类合适，取决于研究者对研究问题的了解程度、相关知识和经验。

快速聚类特点：

处理速度快，占用内存少，适用于大样本的聚类分析。

16、七个样品之间的相似系数矩阵如下，试对这七个样品进行聚类，并画出谱系图。

答案：

17、层次聚类法（合并法和分解法）计算类间距离有多种方法，试写出两种方法。

最短距离法（最近邻法）：

首先合并最近的或最相似的两类，用两类间最近点的距离代表两类之间的距离。

最长距离法：

用两类间最远点的距离代表两类之间的距离。

重心法：

用两类重心之间的距离表示两类之间的距离。

组间平均距离法：

SPSS默认，是用两类中间各个数据点之间的距离的平均来表示两类之间的距离，既不是最大距离也不是最小距离。

离差平方和距离法：

常用，使各类别中的离差平方和较小，而不同类别之间的离差平方和较大。

18、K-均值聚类是针对样品（CASE）的聚类还是针对变量的聚类？

K-均值聚类是针对样品（case）的聚类，需要单独做标准化处理，而后再进行聚类。

19、判别分析

●简述Fisher’s判别的原理。

建立Fisher判别函数的准则是什么？

（Fisher判别，亦称典则判别，是将自变量投影到较低维度的空间，再进行分类。

相当于将自变量先提取几个主成分，只需根据主成分分类。

Fisher准则：

使得综合指标Z在A类的均数

与在B类的均数

的差异

尽可能大，而两类内综合指标Z的变异

尽可能小）

●解读spss输出结果。

判别分析是在已知研究对象分成若干类型并已取得各种类型的一批已知样品的观测数据，在此基础上根据某些准则建立判别式，然后对未知类型的样品进行判别分类。

求解步骤

20、常用判别方法

1）距离判别法：

基本思想是，先根据已知分类的数据，分别计算各类的重心，然后计算待判样本与各类的距离，与哪一类距离最近，就判待判样本x属于哪一类。

判别函数为：

W（x）=D（x,G2）-D（x,G1）

判别准则为：

注意：

距离一般采用马氏距离；适合对自变量均为连续变量的情况进行分类；对各类的分布无特定的要求。

2）Fisher判别法：

基本思想是通过将多维数据投影至某个方向上，投影的原则是将总体与总体之间尽可能分开，然后再选择合适的判别规则，将待判的样本进行分类判别。

所谓的投影实际上是利用方差分析的思想构造也一个或几个超平面，使得两组间的差别最大，每组内的差别最小。

费歇尔判别函数为：

其判别准则是：

Fisher判别对各类分布、方差都没有限制。

但当总体个数较多时，计算比较麻烦。

建立Fisher判别函数的准则是：

使得综合指标Z在A类的均数

与在B类的均数

的差异

尽可能大，而两类内综合指标Z的变异

尽可能小

3）Bayes判别法：

基本思想是：

设有两个总体，它们的先验概率分别为q1、q2，各总体的密度函数为f1（x）、f2（x），在观测到一个样本x的情况下，可用贝叶斯公式计算它来自第k个总体的后验概率为：

一种常用判别准则是：

对于待判样本x，如果在所有的P（Gk/x）中P（Gh/x）是最大的，则判定x属于第h总体。

通常会以样本的频率作为各总体的先验概率。

Bayes判别主要用于多类判别，它要求总体呈多元正态分布

4）逐步判别法：

逐步判别法与逐步回归法的基本思想类似，都是逐步引入变量，每引入一个“最重要”的变量进入判别式，同时也考虑较早引入判别式的某些变量，若其判别能力不显著了，应及时从判别式中剔除去，直到判别式中没有不重要的变量需要剔除，且也没有重要的变量要引入为止。

21、对Bayes判别法与Fisher判别法作比较

（1）当k个总体的均值向量

共线性程度较高时，Fisher判别法可用较少的判别函数进行判别，因而比Bayes判别法简单。

另外，Fisher判别法未对总体的分布提出什么特定的要求。

（2）Fisher判别法的不足是它不考虑各总体出现概率的大小，也给不出预报的后验概率及错判率的估计以及错判之后造成的损失。

而这不足恰是Bayes判别法的优点，但值得指出的是，如果给定的先验概率不符合客观实际时，Bayes判别法也可能会导致错误的结论。

22、简述判别分析与聚类分析的区别。

判别分析已知研究对象分为若干个类别，并且已经取得每一类别的若干观测数据，在此基础上寻求出分类的规律性，建立判别准则，然后对未知类别的样品进行判别分类。

聚类分析一批样品划分为几类事先并不知道，需要通过聚类分析来给以确定分几种类型。

判别分析与聚类分析不同点在于，判别分析要求已知一系列反映事物特征的数值变量的值，并且已知各个体的分类。

28、K-均值聚类是否需要在聚类之前先做标准化处理？

K-均值聚类是针对样品（case）的聚类，需要单独做标准化处理，而后再进行聚类。

各变量的取值不应有数量级上的过大差异，否则会对分类结果产生较大影响。

这时需要对变量进行标准化处理（SPSS提供的层次聚类法中在聚类时可以选择对变量做标准化处理，而K-均值聚类法则需要单独做标准化处理，尔后再进行聚类）

各变量间不应有较强的相关关系。

若两个强相关的变量同时参与聚类分析，在测度距离时，就加大了它们的贡献，而其他变量则相对被削弱

33、简述多元线性回归中，写出两种多重共线性的诊断方法和解决方案。

诊断方法：

检测多重共线性的最简单的一种办法是计算模型中各对自变量之间的相关系数，并对各相关系数进行显著性检验。

若有一个或多个相关系数显著，就表示模型中所用的自变量之间相关，存在着多重共线性。

如果出现下列情况，暗示存在多重共线性模型中各对自变量之间显著相关当模型的线性关系检验（F检验）显著时，几乎所有回归系数的t检验却不显著回归系数的正负号与预期的相反。

解决方案：

将一个或多个相关的自变量从模型中剔除，使保留的自变量尽可能不相关；

如果要在模型中保留所有的自变量，则应避免根据t统计量对单个参数进行检验；

对因变量值的推断（估计或预测）的限定在自变量样本值的范围内。

34、一家大型商业银行在多个地区设有分行，为弄清楚不良贷款形成的原因，抽取了该银行所属的25家分行2002年的有关业务数据。

试建立不良贷款y与贷款余额x1、累计应收贷款x2、贷款项目个数x3和固定资产投资额x4的线性回归方程，并解释各回归系数的含义

上表是计算机输出的结果。

试写出多元线性回归模型，并进行统计学检验。

概述表中，看到RSquare=0.7976，AdjustedRSquare=0.7571表示模型的拟合优度很好。

方差分析表中，对方程的显著性检验F对应的sig=1.035E-06，小于0.05，说明回归方程有统计意义。

Coefficients是各个变量的系数，由P-value值可以判定，只有变量1的p-value小于0.05，说明变量1与因变量y有显著相关关系。

回归模型：

Y=0.04*XVariable1-1.0216.

38、简述logistic回归的原理和适用条件。

Logistic回归，是指因变量为二级计分或二类评定的回归分析。

因变量Y是一个二值变量

自变量X1，X2，……，Xm

P表示在m个自变量作用下事件发生的概率。

适用条件：

因变量只有两个值，发生（是）或者不发生（不是）。

自变量数据最好为多元正态分布，自变量间的共线性会导致估计偏差。

实际上属于判别分析，因拥有很差的判别效率而不常用。

适用于流行病学资料的因素分析（验室中药物的剂量-反应关系、临床试验评价、病的预后因素分析。

41、（汇总归纳）

◆聚类分析

基本原理：

将个体（样品）或者对象（变量）按相似程度（距离远近）划分类别，使得同一类中的元素之间的相似性比其他类的元素的相似性更强。

目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。

常用聚类方法：

系统聚类法，K-均值法，模糊聚类法，有序样品的聚类，分解法，加入法。

注意事项：

1.系统聚类法可对变量或者记录进行分类，K-均值法只能对记录进行分类；

2.K-均值法要求分析人员事先知道样品分为多少类；

3.对变量的多元正态性，方差齐性等要求较高。

应用领域：

细分市场，消费行为划分，设计抽样方案等

◆判别分析

基本原理：

从已知的各种分类情况中总结规律（训练出判别函数），当新样品进入时，判断其与判别函数之间的相似程度（概率最大，距离最近，离差最小等判别准则）。

常用判别方法：

最大似然法，距离判别法，Fisher判别法，Bayes判别法，逐步判别法等。

注意事项：

1.判别分析的基本条件：

分组类型在两组以上，解释变量必须是可测的；

2.每个解释变量不能是其它解释变量的线性组合（比如出现多重共线性情况时，判别权重会出现问题）

3.各解释变量之间服从多元正态分布（不符合时，可使用Logistic回归替代），且各组解释变量的协方差矩阵相等（各组协方方差矩阵有显著差异时，判别函数不相同）。

相对而言，即使判别函数违反上述适用条件，也很稳健，对结果影响不大。

应用领域：

对客户进行信用预测，寻找潜在客户（是否为消费者，公司是否成功，学生是否被录用等等），临床上用于鉴别诊断。

◆主成分分析/因子分析

主成分分析基本原理：

利用降维（线性变换）的思想，在损失很少信息的前提下把多个指标转化为几个综合指标（主成分）,即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能（主成分必须保留原始变量90%以上的信息），从而达到简化系统结构，抓住问题实质的目的。

因子分析基本原理：

利用降维的思想，由研究原始变量相关矩阵内部的依赖关系出发，把一些

展开阅读全文