距离判别的判别规则是
X∈G1,W(X)≥0
X∈G2,W(X)<0
二者的区别在于阈值点。
当,时,,。
二者完全相同。
4.7设有两个二元总体G1和G2,从中分别抽取样本计算得到X
(1)=51,X
(2)=3-2,Sp=5.82.12.17.6假设Σ1=Σ2,试用距离判别法建立判别函数和判别规则。
样品X=(6,0)’应属于哪个总体?
解:
μ1=X
(1)=51,μ2=X
(2)=3-2,μ=μ1+μ22=4-0.5
Wp=α’x-μ=x-μ'-1μ1-μ2,x-μ'=6,0-4,0.5=2,0.5
-1=139677.6-2.1-2.15.8,μ1-μ2=(2,3)'
Wp=2,0.5139677.6-2.1-2.15.823=24.439.67>0
∴X∈G1即样品X属于总体G1
第五章
5.1判别分析和聚类分析有何区别?
答:
即根据一定的判别准则,判定一个样本归属于哪一类。
具体而言,设有n个样本,对每个样本测得p项指标(变量)的数据,已知每个样本属于k个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。
聚类分析是分析如何对样品(或变量)进行量化分类的问题。
在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。
通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。
5.2试述系统聚类的基本思想。
答:
系统聚类的基本思想是:
距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。
5.3对样品和变量进行聚类分析时,所构造的统计量分别是什么?
简要说明为什么这样构造?
答:
对样品进行聚类分析时,用距离来测定样品之间的相似程度。
因为我们把n个样本看作p维空间的n个点。
点之间的距离即可代表样品间的相似度。
常用的距离为
(一)闵可夫斯基距离:
q取不同值,分为
(1)绝对距离(),
(2)欧氏距离(),
(3)切比雪夫距离(),
(二)马氏距离
(三)兰氏距离
对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。
将变量看作p维空间的向量,一般用
(一)夹角余弦
(二)相关系数
5.4在进行系统聚类时,不同类间距离计算方法有何区别?
选择距离公式应遵循哪些原则?
答:
设dij表示样品Xi与Xj之间距离,用Dij表示类Gi与Gj之间的距离。
(1).最短距离法
(2)最长距离法
(3)中间距离法
其中-1/4≤β≤0
(4)重心法
(5)类平均法
(6)可变类平均法
其中b是可变的且b<1
(7)可变法
其中b是可变的且b<1
(8)离差平方和法
Dpq2=npnqnr=xp-xq'xp-xq=Sr-Sp-Sq
通常选择距离公式应注意遵循以下的基本原则:
(1)要考虑所选择的距离公式在实际应用中有明确的意义。
如欧氏距离就有非常明确的空间距离概念。
马氏距离有消除量纲影响的作用。
(2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。
如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。
(3)要考虑研究对象的特点和计算量的大小。
样品间距离公式的选择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象的特点不同做出具体分折。
实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。
5.5试述K均值法与系统聚类法的异同。
答:
相同:
K—均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的。
不同:
系统聚类对不同的类数产生一系列的聚类结果,而K—均值法只能产生指定类数的聚类结果。
具体类数的确定,离不开实践经验的积累;有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K—均值法确定类数的参考。
5.6试述K均值法与系统聚类有何区别?
试述有序聚类法的基本思想。
答:
K均值法的基本思想是将每一个样品分配给最近中心(均值)的类中。
系统聚类对不同的类数产生一系列的聚类结果,而K—均值法只能产生指定类数的聚类结果。
具体类数的确定,有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K均值法确定类数的参考。
有序聚类就是解决样品的次序不能变动时的聚类分析问题。
如果用表示个有序的样品,则每一类必须是这样的形式,即,其中且,简记为。
在同一类中的样品是次序相邻的。
一般的步骤是
(1)计算直径{D(i,j)}。
(2)计算最小分类损失函数{L[p(l,k)]}。
(3)确定分类个数k。
(4)最优分类。
5.7检测某类产品的重量,抽了六个样品,每个样品只测了一个指标,分别为1,2,3,6,9,11.试用最短距离法,重心法进行聚类分析。
(1)用最短距离法进行聚类分析。
采用绝对值距离,计算样品间距离阵D(0)
G1G2G3G4G5G6
G10
G210
G3210
G45430
G587630
G61098520
由上表易知D(0)中最小元素是D12=D23=1于是将G1,G2,G3聚为一类,记为G7
计算距离阵D
(1)
G7G4G5G6
G70
G430
G5630
G68520
D
(1)中最小元素是D56=2于是将G5,G6聚为一类,记为G8
计算样本距离阵D
(2)
G7G4G8
G70
G430
G8630
D
(2)中最小元素是D47=D48=3于是将G4,G7,G8聚为一类,记为G9
因此,
(2)用重心法进行聚类分析
计算样品间平方距离阵D2(0)
G1G2G3G4G5G6
G10
G210
G3410
G4251690
G564493690
G610081642540
易知D2(0)中最小元素是D212=D223=1于是将G1,G2,G3聚为一类,记为G7
计算距离阵D2
(1)
G7G4G5G6
G70
G4160
G54990
G6812540
注:
计算方法D247=[6-131+2+1]2,其他以此类推。
D2
(1)中最小元素是D256=4于是将G5,G6聚为一类,记为G8
计算样本距离阵D2
(2)
G7G4G8
G70
G4160
G864160
D2
(2)中最小元素是D247=D248=16于是将G4,G7,G8聚为一类,记为G9
因此,
第六章
6.1试述主成分分析的基本思想。
答:
我们处理的问题多是多指标变量问题,由于多个变量之间往往存在着一定程度的相关性,人们希望能通过线性组合的方式从这些指标中尽可能快的提取信息。
当第一个组合不能提取更多信息时,再考虑第二个线性组合。
继续这个过程,直到提取的信息与原指标差不多时为止。
这就是主成分分析的基本思想。
6.2主成分分析的作用体现在何处?
答:
一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。
以各个主成分为分量,就得到一个更低维的随机向量;主成分分析的作用就是在降低数据“维数”的同时又保留了原数据的大部分信息。
6.3简述主成分分析中累积贡献率的具体含义。
答:
主成分分析把个原始变量的总方差分解成了个相互独立的变量的方差之和。
主成分分析的目的是减少变量的个数,所以一般不会使用所有个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。
这里我们称为第个主成分的贡献率。
第一主成分的贡献率最大,这表明综合原始变量的能力最强,而的综合能力依次递减。
若只取个主成分,则称为主成分的累计贡献率,累计贡献率表明综合的能力。
通常取,使得累计贡献率达到一个较高的百分数(如85%以上)。
6.4在主成分分析中“原变量方差之和等于新的变量的方差之和”是否正确?
说明理由。
答:
这个说法是正确的。
i=1pσii2=trΣ=trΣTT'=trT'ΣT=trΛ=k=1pλk,∴i=1pσii2=k=1pλk
即原变量方差之和等于新的变量的方差之和
6.5试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。
答:
从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。
从协方差矩阵Σ出发的,其结果受变量单位的影响。
主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能体现得不够,也存在“大数吃小数”的问题。
实际表明,这种差异有时很大。
我们认为,如果各指标之间的数量级相差悬殊,特别是各指标有不同的物理量纲的话,较为合理的做法是使用R代替∑。
对于研究经济问题所涉及的变量单位大都不统一,采用R代替∑后,可以看作是用标准化的数据做分析,这样使得主成分有现实经济意义,不仅便于剖析实际问题,又可以避免突出数值大的变量。
6.6已知X=(X1,X2,X3)’的协差阵为113/23/23/221/453/43/253/431/4试进行主成分分析。
解:
Σ-λE=11-λ3/23/23/2214-λ53/43/253/4314-λ=0
计算得-64λ-4λ-8λ-12=0,∴λ1=12,λ2=8,λ3=4
∴DY1=λ1=12,DY2=λ2=8,DY3=λ3=4
当λ1=12时,(Σ-λ1E)⟶-423623-2753653-17⟶-12631812-5433012103-34⟶-2330-31000⟶-20-203-1000⟶10-203-1000∴α1=23,1,3'
同理,计算得λ2=8时,α2=(-2,3,3)',λ3=4时,α2=(0,-3,1)'
易知α1,α2,α3相互正交
单位化向量得,T1=α1α1=(32,14,34)'
T2=α2α2=(-12,34,34)'T3=α3α3=(0,-32,12)'
∴Y1=T1'X,Y2=T2'X,Y3=T3'X
综上所述,
第一主成分为Y1=32X1+14X2+34X3DY1=12
第二主成分为Y2=-12X1+34X2+34X3DY2=8
第三主成分为Y3=-32X2+12X3DY3=4
6.7设X=(X1,⋯,Xp)’的协方差阵(p×p)为
Σ=σ21ρ⋯ρρ1⋯ρ⋮⋮⋱⋮ρρ⋯1,0
证明:
λ1=σ2[1-ρ1-ρ]为最大特征根,其对应的主成分为Y1=1ρi=1pxi。
证明:
Σ-λE=σ2-λρσ2⋯ρσ2ρσ2σ2-λ⋯ρσ2⋮⋮⋱⋮ρσ2ρσ2⋯σ2-λ
=(p-1)ρσ2+σ2-λρσ2⋯ρσ2(p-1)ρσ2+σ2-λσ2-λ⋯ρσ2⋮⋮⋱⋮(p-1)ρσ2+σ2-λρσ2⋯σ2-λ
=(p-1)ρσ2+σ2-λρσ2⋯ρσ20σ2(1-ρ)-λ⋯ρσ2⋮⋮⋱⋮0⋯0σ2(1-ρ)-λ
∵0<ρ<1,λ1=[p-1ρ+1]σ2,λ2=σ2(1-p),λ1-λ2=pρ>0
∴λ1=[p-1ρ+1]σ2为最大特征根
当λ1=[p-1ρ+1]σ2时,
Σ-λ1E=σ2ρ1-pρσ2⋯ρσ2ρσ2σ2ρ(1-p)⋯σ2ρ(1-p)⋮⋮⋱⋮ρσ2ρσ2⋯σ2ρ(1-p)
⟶ρ(1-ρ)ρ⋯ρ0ρ(1-ρ)⋯ρ⋮⋮⋱⋮ρρ⋯ρ(1-ρ)⟶0ρ⋯00-ρρ⋯0⋮⋮⋱⋮00⋯-ρρ⟶01⋯000⋯0⋮⋮⋱⋮00⋯0
α1=(1,1,1,⋯)',T1=1p,1p,⋯1p',所以,Y1=1ρi=1pxi
第七章
7.1试述因子分析与主成分分析的联系与区别。
答:
因子分析与主成分分析的联系是:
=1\*GB3①两种分析方法都是一种降维、简化数据的技术。
=2\*GB3②两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。
因子分析可以说是主成分分析的姐妹篇,将主成分分析向前推进一步便导致因子分析。
因子分析也可以说成是主成分分析的逆问题。
如果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。
因子分析与主成分分析的主要区别是:
主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方向上为止,突出数据变异的方向,归纳重要信息。
而因子分析是从显在变量去提炼潜在因子的过程。
此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。
7.2因子分析主要可应用于哪些方面?
答:
因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。
目前因子分析在心理学、社会学、经济学等学科中都有重要的应用。
具体来说,=1\*GB3①因子分析可以用于分类。
如用考试分数将学生的学习状况予以分类;用空气中各种成分的比例对空气的优劣予以分类等等=2\*GB3②因子分析可以用于探索潜在因素。
即是探索未能观察的或不能观测的的潜在因素是什么,起的作用如何等。
对我们进一步研究与探讨指示方向。
在社会调查分析中十分常用。
=3\*GB3③因子分析的另一个作用是用于时空分解。
如研究几个不同地点的不同日期的气象状况,就用因子分析将时间因素引起的变化和空间因素引起的变化分离开来从而判断各自的影响和变化规律。
7.3简述因子模型X=AY+ε中载荷矩阵A的统计意义。
答:
对于因子模型
因子载荷阵为
与的协方差为:
=
=
若对作标准化处理,rXi,Fj=,因此一方面表示对的依赖程度;另一方面也反映了变量对公共因子的相对重要性。
变量共同度
说明变量的方差由两部分组成:
第一部分为共同度,它描述了全部公共因子对变量的总方差所作的贡献,反映了公共因子对变量的影响程度。
第二部分为特殊因子对变量的方差的贡献,通常称为个性方差。
而公共因子对的贡献
表示同一公共因子对各变量所提供的方差贡献之总和,它是衡量每一个公共因子相对重要性的一个尺度。
7.4在进行因子分析时,为什么要进行因子旋转?
最大方差因子旋转的基本思路是什么?
答:
因子分析的目标之一就是要对所提取的抽象因子的实际含义进行合理解释。
但有时直接根据特征根、特征向量求得的因子载荷阵难以看出公共因子的含义。
这种因子模型反而是不利于突出主要矛盾和矛盾的主要方面的,也很难对因子的实际背景进行合理的解释。
这时需要通过因子旋转的方法,使每个变量仅在一个公共因子上有较大的载荷,而在其余的公共因子上的载荷比较小。
最大方差旋转法是一种正交旋转的方法,其基本思路为:
=1\*GB3①A→A*→d11d12⋮⋮dp1dp2⋯d1m⋮⋮⋯dpm
其中令
的第列元素平方的相对方差可定义为
=2\*GB3②
最大方差旋转法就是选择正交矩阵,使得矩阵所有m个列元素平方的相对方差之和达到最大。
7.5试分析因子分析模型与线性回归模型的区别与联系。
答:
因子分析模型是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法的模型。
而线性回归模型回归分析的目的是设法找出变量间的依存(数量)关系,用函数关系式表达出来。
因子分析模型中每一个变量都可以表示成公共因子的线性函数与特殊因子之和。
即
,()该模型可用矩阵表示为:
而回归分析模型中多元线性回归方程模型为:
y1=b0+b1x1+b2x2+…+bnxn+ei其中b0是常数项,b1,b2…bn是偏回归系数,ei是残差。
因子模型满足:
(1);
(2),