系数aij为第个i变量与第k个因子之间的线性相关系数,反映变量与因子之间的相关程度,也称为载荷(loading)。
由于因子出现在每个原始变量与因子的线性组合中,因此也称为公因子。
为特殊因子,代表公因子以外的因素影响
5、因子分析的目的是什么?
因子分析是从多个变量指标中选择出少数几个综合变量指标,以较少的几个因子反映原始资料的大部分信息的一种降维的多元统计方法。
求解步骤
1)对原始数据标准化
2)建立相关系数矩阵R(因子提取)
3)求R的单位特征根λ与特征向量U;
4)因子旋转求因子载荷矩阵A;
5)写出因子模型X=AF+E
6)建立因子得分矩阵P
7)写出因子得分模型F=P’X
(因子提取的方法:
主成分法、不加权最小平方法、加权最小平方法、最大似然法、主轴因子法;旋转方法为:
方差最大正交旋转、四次方最大正交旋转、平方最大正交旋转、斜交旋转、Promax:
该方法在方差最大正交旋转的基础上进行斜交旋转)
6、什么是变量共同度?
写出变量共同度的表达式。
变量xi的信息能够被k个公因子解释的程度,用k个公因子对第i个变量xi的方差贡献率表示
7、什么是公共因子方差贡献率?
写出公共因子方差贡献率表达式。
第j个公因子对变量xi的提供的方差总和,反映第j个公因子的相对重要程度
8、因子分析中KMO检验主要检验什么?
KMO越接近1,变量间的相关性越强
KMO在0.8以上,说明该问题适合做因子分析。
KMO统计量在0.7以上时,因子分析效果较好;
KMO统计量在0.5以下时,因子分析效果很差
KMO(Kaiser-Meyer-Olkin)检验统计量是用于比较原始变量间简单相关系数和偏相关系数的指标。
当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时,KMO值接近1,KMO越接近1,变量间的相关性越强。
当所有变量间的简单相关系数平方和接近0时,KMO值接近0.KMO值越接近于0,意味着变量间的相关性越弱,原有变量越不适合作因子分析。
Kaiser给出了常用的kmo度量标准:
0.9以上表示非常适合;0.8表示适合;0.7表示一般;0.6表示不太适合;0.5以下表示极不适合。
Bartlett球度检验:
以变量的相关系数矩阵为基础,假设相关系数矩阵是单位阵(对角线元素不为0,非对角线元素均为0)。
如果相关矩阵是单位阵,则各变量是独立的,无法进行因子分析。
9、因子分析中公因子个数确定的依据是什么?
用公因子方差贡献率提取:
一般累计方差贡献率达到80%以上的前几个因子可以作为最后的公因子
用特征根提取:
一般要求因子对应的特征根要大于1,因为特征根小于1说明该公因子的解释力度太弱,还不如使用原始变量的解释力度大
碎石图中变化趋势出现拐点的前几个主成分
10、因子分析中因子旋转(factorrotation)的目的是什么?
什么是因子得分(factorscore)?
因子旋转的目的使得因子载荷系数尽可能两极分化,使因子载荷系数向1或0靠近,使得某一个变量值在某一个因子上的载荷系数大,从而更清楚地看出各因子与原始变量的相关性大小,使因子的含义更加清楚,以便于对因子的命名和解释。
因子得分就是每个观测量的共同因子的值。
根据因子得分系数和原始变量的标准化值可以计算每个观测量的各因子的分数,因子得分=x1*对应权重+x2*对应权重+…+xn*对应权重,根据因子得分我们可以写出因子表达式。
因子得分是各变量的线性组合
11、简述因子分析与主成分分析的区别。
主成分分析和因子分析是两种把变量维度降低以便于描述、理解和分析的方法。
1在SPSS分析中,因子分析必须进行因子旋转,主成分分析不一定要旋转。
故公共因子往往可以找到实际意义,而主成分一般不能解释实际意义;
2因子分析法是对你所分析的变量的抽取(因子),主成分分析法是对你所分析的变量的概括(指标);
3因子模型中除了公共因子还有特殊因子,公共因子只解释了原变量的部分方差,而主成分解释了原变量全部方差;
4因子分析是把变量表示成各因子的线性组合,而主成分则是把主成分表示成各变量的线性组合;
5主成分分析中不需要有一些专门假设,因子分析则需要一些假设。
因子分析的假设包括:
各个共同因子之间不相关,特殊因子之间也不相关,共同因子和特殊因子之间也不相关;
6提取主因子的方法不仅有主成分法,还有极大似然法,基于这些不同算法得到的结果一般也不同。
而主成分只能用主成分法提取;
7主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值唯一时,主成分一般是固定的;而因子分析中,因子不是固定的,可以旋转得到不同的因子;
8在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。
在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。
12、聚类分析基本思想及分类
聚类分析就是按照对象之间的“相似”程度把对象进行分类。
聚类分析的“对象”可以是所观察的多个样本,也可以是针对每个样本测得的多个变量。
对样品的分类称为Q型聚类;对变量的分类,则称为R型聚类
Q聚类是根据被观测对象的各种特征,即反映被观测对象的特征的各变量值进行分类。
R聚类是根据所研究的问题选择部分变量对事物的某一方面进行研究。
按对象的“相似”程度分类
⏹对变量进行聚类可以用夹角余弦、Pearson相关系数等工具,也称为相似系数
⏹对样本聚类则使用“距离”
求解步骤
1)先对数据进行变换处理,消除量纲对数据的影响;
2)认为各样本点自成一类(即n个样本点一共有n类),然后计算各样本点之间的距离,并将距离最近的两个样本点并成一类;
3)选择并计算类与类之间的距离,并将距离最近的两类合并;
4)重复上面作法直至所有样本点归为所需类数为止;
5)最后绘制聚类图。
13、相似性的度量
1)在对样本进行分类时,度量样本之间的相似性使用点间距离。
欧式距离
绝对值距离
切比雪夫距离
明氏距离
兰氏距离
2)在对变量进行分类时,度量变量之间的相似性常用相似系数,测度方法有
夹角余弦
Pearson相关系数
夹角余弦,如果
与
比较相似,则他们的夹角接近0,从而
接近1。
Pearson相关系数,相关系数越接近于1或-1,越相似;彼此无关的变量,他们的相关
系数接近0。
15、系统聚类和快速聚类的特点分别是什么?
(版本一)
系统聚类事先不确定要分多少类,而是先把每一个对象作为一类,然后一层一层进行分类。
根据运算的方向不同,层次聚类法又分为合并法和分解法,两种方法的运算原理一样,只是方向相反。
快速聚类法是根据事先确定的K个类别反复迭代直到把每个样本分到指定的类别中。
类别数目的确定具有一定的主观性,究竟分多少类合适,取决于研究者对研究问题的了解程度、相关知识和经验。
快速聚类特点:
处理速度快,占用内存少,适用于大样本的聚类分析。
16、七个样品之间的相似系数矩阵如下,试对这七个样品进行聚类,并画出谱系图。
答案:
17、层次聚类法(合并法和分解法)计算类间距离有多种方法,试写出两种方法。
最短距离法(最近邻法):
首先合并最近的或最相似的两类,用两类间最近点的距离代表两类之间的距离。
最长距离法:
用两类间最远点的距离代表两类之间的距离。
重心法:
用两类重心之间的距离表示两类之间的距离。
组间平均距离法:
SPSS默认,是用两类中间各个数据点之间的距离的平均来表示两类之间的距离,既不是最大距离也不是最小距离。
离差平方和距离法:
常用,使各类别中的离差平方和较小,而不同类别之间的离差平方和较大。
18、K-均值聚类是针对样品(CASE)的聚类还是针对变量的聚类?
K-均值聚类是针对样品(case)的聚类,需要单独做标准化处理,而后再进行聚类。
19、判别分析
●简述Fisher’s判别的原理。
建立Fisher判别函数的准则是什么?
(Fisher判别,亦称典则判别,是将自变量投影到较低维度的空间,再进行分类。
相当于将自变量先提取几个主成分,只需根据主成分分类。
Fisher准则:
使得综合指标Z在A类的均数
与在B类的均数
的差异
尽可能大,而两类内综合指标Z的变异
尽可能小)
●解读spss输出结果。
判别分析是在已知研究对象分成若干类型并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。
求解步骤
20、常用判别方法
1)距离判别法:
基本思想是,先根据已知分类的数据,分别计算各类的重心,然后计算待判样本与各类的距离,与哪一类距离最近,就判待判样本x属于哪一类。
判别函数为:
W(x)=D(x,G2)-D(x,G1)
判别准则为:
注意:
距离一般采用马氏距离;适合对自变量均为连续变量的情况进行分类;对各类的分布无特定的要求。
2)Fisher判别法:
基本思想是通过将多维数据投影至某个方向上,投影的原则是将总体与总体之间尽可能分开,然后再选择合适的判别规则,将待判的样本进行分类判别。
所谓的投影实际上是利用方差分析的思想构造也一个或几个超平面,使得两组间的差别最大,每组内的差别最小。
费歇尔判别函数为:
其判别准则是:
Fisher判别对各类分布、方差都没有限制。
但当总体个数较多时,计算比较麻烦。
建立Fisher判别函数的准则是:
使得综合指标Z在A类的均数
与在B类的均数
的差异
尽可能大,而两类内综合指标Z的变异
尽可能小
3)Bayes判别法:
基本思想是:
设有两个总体,它们的先验概率分别为q1、q2,各总体的密度函数为f1(x)、f2(x),在观测到一个样本x的情况下,可用贝叶斯公式计算它来自第k个总体的后验概率为:
一种常用判别准则是:
对于待判样本x,如果在所有的P(Gk/x)中P(Gh/x)是最大的,则判定x属于第h总体。
通常会以样本的频率作为各总体的先验概率。
Bayes判别主要用于多类判别,它要求总体呈多元正态分布
4)逐步判别法:
逐步判别法与逐步回归法的基本思想类似,都是逐步引入变量,每引入一个“最重要”的变量进入判别式,同时也考虑较早引入判别式的某些变量,若其判别能力不显著了,应及时从判别式中剔除去,直到判别式中没有不重要的变量需要剔除,且也没有重要的变量要引入为止。
21、对Bayes判别法与Fisher判别法作比较
(1)当k个总体的均值向量
共线性程度较高时,Fisher判别法可用较少的判别函数进行判别,因而比Bayes判别法简单。
另外,Fisher判别法未对总体的分布提出什么特定的要求。
(2)Fisher判别法的不足是它不考虑各总体出现概率的大小,也给不出预报的后验概率及错判率的估计以及错判之后造成的损失。
而这不足恰是Bayes判别法的优点,但值得指出的是,如果给定的先验概率不符合客观实际时,Bayes判别法也可能会导致错误的结论。
22、简述判别分析与聚类分析的区别。
判别分析已知研究对象分为若干个类别,并且已经取得每一类别的若干观测数据,在此基础上寻求出分类的规律性,建立判别准则,然后对未知类别的样品进行判别分类。
聚类分析一批样品划分为几类事先并不知道,需要通过聚类分析来给以确定分几种类型。
判别分析与聚类分析不同点在于,判别分析要求已知一系列反映事物特征的数值变量的值,并且已知各个体的分类。
28、K-均值聚类是否需要在聚类之前先做标准化处理?
K-均值聚类是针对样品(case)的聚类,需要单独做标准化处理,而后再进行聚类。
各变量的取值不应有数量级上的过大差异,否则会对分类结果产生较大影响。
这时需要对变量进行标准化处理(SPSS提供的层次聚类法中在聚类时可以选择对变量做标准化处理,而K-均值聚类法则需要单独做标准化处理,尔后再进行聚类)
各变量间不应有较强的相关关系。
若两个强相关的变量同时参与聚类分析,在测度距离时,就加大了它们的贡献,而其他变量则相对被削弱
33、简述多元线性回归中,写出两种多重共线性的诊断方法和解决方案。
诊断方法:
检测多重共线性的最简单的一种办法是计算模型中各对自变量之间的相关系数,并对各相关系数进行显著性检验。
若有一个或多个相关系数显著,就表示模型中所用的自变量之间相关,存在着多重共线性。
如果出现下列情况,暗示存在多重共线性模型中各对自变量之间显著相关当模型的线性关系检验(F检验)显著时,几乎所有回归系数的t检验却不显著回归系数的正负号与预期的相反。
解决方案:
将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关;
如果要在模型中保留所有的自变量,则应避免根据t统计量对单个参数进行检验;
对因变量值的推断(估计或预测)的限定在自变量样本值的范围内。
34、一家大型商业银行在多个地区设有分行,为弄清楚不良贷款形成的原因,抽取了该银行所属的25家分行2002年的有关业务数据。
试建立不良贷款y与贷款余额x1、累计应收贷款x2、贷款项目个数x3和固定资产投资额x4的线性回归方程,并解释各回归系数的含义
上表是计算机输出的结果。
试写出多元线性回归模型,并进行统计学检验。
概述表中,看到RSquare=0.7976,AdjustedRSquare=0.7571表示模型的拟合优度很好。
方差分析表中,对方程的显著性检验F对应的sig=1.035E-06,小于0.05,说明回归方程有统计意义。
Coefficients是各个变量的系数,由P-value值可以判定,只有变量1的p-value小于0.05,说明变量1与因变量y有显著相关关系。
回归模型:
Y=0.04*XVariable1-1.0216.
38、简述logistic回归的原理和适用条件。
Logistic回归,是指因变量为二级计分或二类评定的回归分析。
因变量Y是一个二值变量
自变量X1,X2,……,Xm
P表示在m个自变量作用下事件发生的概率。
适用条件:
因变量只有两个值,发生(是)或者不发生(不是)。
自变量数据最好为多元正态分布,自变量间的共线性会导致估计偏差。
实际上属于判别分析,因拥有很差的判别效率而不常用。
适用于流行病学资料的因素分析(验室中药物的剂量-反应关系、临床试验评价、病的预后因素分析。
41、(汇总归纳)
◆聚类分析
基本原理:
将个体(样品)或者对象(变量)按相似程度(距离远近)划分类别,使得同一类中的元素之间的相似性比其他类的元素的相似性更强。
目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。
常用聚类方法:
系统聚类法,K-均值法,模糊聚类法,有序样品的聚类,分解法,加入法。
注意事项:
1.系统聚类法可对变量或者记录进行分类,K-均值法只能对记录进行分类;
2.K-均值法要求分析人员事先知道样品分为多少类;
3.对变量的多元正态性,方差齐性等要求较高。
应用领域:
细分市场,消费行为划分,设计抽样方案等
◆判别分析
基本原理:
从已知的各种分类情况中总结规律(训练出判别函数),当新样品进入时,判断其与判别函数之间的相似程度(概率最大,距离最近,离差最小等判别准则)。
常用判别方法:
最大似然法,距离判别法,Fisher判别法,Bayes判别法,逐步判别法等。
注意事项:
1.判别分析的基本条件:
分组类型在两组以上,解释变量必须是可测的;
2.每个解释变量不能是其它解释变量的线性组合(比如出现多重共线性情况时,判别权重会出现问题)
3.各解释变量之间服从多元正态分布(不符合时,可使用Logistic回归替代),且各组解释变量的协方差矩阵相等(各组协方方差矩阵有显著差异时,判别函数不相同)。
相对而言,即使判别函数违反上述适用条件,也很稳健,对结果影响不大。
应用领域:
对客户进行信用预测,寻找潜在客户(是否为消费者,公司是否成功,学生是否被录用等等),临床上用于鉴别诊断。
◆主成分分析/因子分析
主成分分析基本原理:
利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的。
因子分析基本原理:
利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些