多元统计分析思考题.docx

资源描述

多元统计分析思考题.docx

《多元统计分析思考题.docx》由会员分享，可在线阅读，更多相关《多元统计分析思考题.docx（6页珍藏版）》请在冰豆网上搜索。

多元统计分析思考题.docx

多元统计分析思考题

　　　　　　　　《多元统计分析思考题》　　第一章回归分析　　1、回归分析是怎样的一种统计方法，用来解决什么问题？

回归分析是基于观测数据建立变量之间的某种依赖关系，分析数据的内在规律，并可用于预报、控制等方面。

　　2、线性回归模型中线性关系指的是什么变量之间的关系？

自变量与因变量之间一定是线性关系形式才能做线性回归吗？

为什么？

　　线性关系指的是自变量与因变量之间的关系。

不一定，　　3、实际应用中，如何设定回归方程的形式？

　　　　4、多元线性回归理论模型中，每个系数的含义是什么？

　　回归系数是在回归方程中表示自变量x对因变量y影响大小的参数。

回归系数越大表示x对y影响越大，正回归系数表示y随x增大而增大，负回归系数表示y随x增大而减小。

　　5、经验回归模型中，参数是如何确定的？

有哪些评判参数估计的统计标准？

最小二乘估计两有哪些统计性质？

要想获得理想的参数估计值，需要注意一些什么问题？

参数的确定：

　　评判参数估计的标准：

　　最小二乘估计的统计性质：

　　　　获得理想参数应注意：

　　6、理论回归模型中的随机误差项的实际意义是什么？

为什么要在回归模型中加入随机误差项？

建立回归模型时，对随机误差项作了哪些假定？

这些假定的实际意义是什么？

　　7、建立自变量与因变量的回归模型，是否意味着他们之间存在因果关系？

为什么？

不是。

8、回归分析中，为什么要作假设检验？

检验依据的统计原理是什么？

检验的过程是怎样的？

为了检验所确定的线性回归方程是否有意义。

　　原理：

　　显著性检验步骤：

　　提出统计假设H；　　选取适当的统计量U，并在假设H成立的条件下确定该统计量的分布；按问题的要求选取一个显著水平a，并根据统计量的分布查表，求出能使P{|U|>u0}　　样本观测值计算出统计量U的观测值u，并与临界值u0比较，如果|u|>u0，则拒绝假设H，如果|u|　　9、回归诊断可以大致确定哪些问题？

回归分析有哪些基本假定？

如果实际应用中不满足这些假定，将可能引起怎样的后果？

如何检验实际应用问题是否满足这些假定？

对于各种不满足假定的情形，分别采用哪些改进方法？

回归诊断可以回答的问题：

①回归函数线性嘉定的可行性；②误差项的等方差假设的合理性；③误差项独立性假设的合理性；④误差项是否符合正态分布；⑤观测值中是否存在异常值；　　⑥是否在模型中遗漏了某些重要的自变量。

原基本假定H0：

①假设回归方程不显著②假设回归系数不显著后果和改进方法：

　　方程：

与模型的误差相比，自变量对因变量的影响是不重要的这有两种情况：

a、各种误差太大，即使回归自变量x对因变量y有一定影响，但相比于误差也不算大，这种情况要想办法缩小误差，检查是否漏掉了重要的自变量，或检查某些自变量与y是否有非线性关系等；b、自变量对y的影响确实很小，这时建立y与各自变量的回归方程没有意义。

系数：

某个自变量对y的影响不显著，应该剔除如何检验是否满足：

　　方程：

用F统计量或者P值法检验回归方程的显著性，F?

MSRSSR/p?

。

MSESSE/（n?

1）p值是P，表示第一、第二自度分别为p、的F变量大于F0的概率系数：

SSE　　10、回归分析中的R2有何意义？

它能用来衡量模型优劣吗？

回归平方和与总离差平方和之比：

　　2SSRSSE?

作为评判一个模型拟合优度的标准，SSTSST成为样本决定系数。

模型拟合优度并不是评判模型质量的唯一标准，R方越大，代表y接受　　变化的能力越强，不确定性和模型复杂程度较小，并不足以表明模型的真是可靠性，不能说明模型接近真实情况的程度，还要考虑真实情况的不确定性和复杂程度，不确定性和复杂程度较大的时候，R方小范儿更有意义。

有时为了追求模型的实际意义，可以在一定程度上房款对拟合优度的要求。

　　11、如何确定回归分析中变量之间的交互作用？

存在交互作用时，偏回归系数的意义与不存在交互作用的情形下是否相同？

为什么？

　　　　12、有哪些确定最优回归模型的准则？

如何选择回归变量？

自变量选择准则：

　　2①修正的复相关系数Ra达到最大，等价于：

均方残差MSE达到最小；　　MSE2Ra?

SST　　n?

1②预测平方和PRESSp达到最小③Cp准则　　Cp?

SSEpMSE（x1,x2,?

xm）?

（n?

2p?

2）　　其中SSEp是包含p个自变量的回归方程的残差平方和，MSE（x1,x2,?

xm）表示含有所有m个自变量的回归方程的均方残差。

该准则要求选择Cp最小，且|Cp?

p|小的回归方程。

④ACI准则，赤池信息量达到最小　　13、在怎样的情况下需要建立标准化的回归模型？

标准化回归模型与非标准化模型有何关系？

形式有否不同？

　　在多元线性回归分析中，所涉及到的诸多自变量往往量纲不同，甚至差别很大，这时就需要对变量进行中心化或标准化，数据的中心化处理相当于将坐标原点移至样本中心，而坐标系的平移不改变斜率，只改变了截距；标准化处理后建立的回归方程相比非标准化的回归方程少了一个常数项，系数之间的关系为：

　　　　14、利用回归方法解决实际问题的大致步骤是怎样的？

　　15、你能够利用哪些软件实现进行回归分析？

能否解释全部的软件输出结果？

　　　　第二章判别分析　　1、判别分析的目的是什么？

　　在自然科学和社会科学的研究中，研究对象用某种方法已划分为若干类型，当得到的一个新的样品数据，要确定该样品属于已知类型中的哪一类，这就是判别分析的目的。

　　2、有哪些常用的判别分析方法？

这些方法的基本原理或步骤是怎样的？

它们各有什么特点或优劣之处？

判别方法距离判别法基本原理根据已知分类的数据，分别计算各类的重心，即分类的均值；判别准则是：

对任意一个样品，若它与第i类的重心距离最近，就认为它来自第i类。

基本思想是投影，将k组m元数据投影到某一个方向，使得投影后组与组之间尽可能分开，其中利用了一元方差分析的思想导出判别函数假设对所研究的对象在抽样前已有一定的认识，常用先验概率分布来描述这种认识，然后基于抽取的样本再对先验认识做修正，得到后验概率分布，再基于后验概率分布做各种统计推断。

逐步引入一个“最重要”的变量进入判别式，同时对先引入判别式的一些变量进行检验，如果他们的判别能力随着引入新变量而变得不显著了，则将它从判别式中剔除，直至没有新变量能够进入，依然没有旧变量需要剔除为止。

特点优：

对各类的分布并无特定的要求；Fisher判别法优：

该方法对总体的分布并未提出特定要求，是处理概率分布未知的一种方法；Bayes判别法该判别考虑了总体的先验概率分布和误判损失逐步判别法3、判别分析与回归分析有何异同之处？

同：

异：

　　4、判别分析对变量与样本规模有何要求？

　　5、如何度量判别效果？

有哪些影响判别效果的因素？

　　通过评价判别准则来度量判别效果，方法有误判率回代估计法；误判率的交叉确认估计；影响因素：

　　6、逐步判别是如何选择判别变量的？

基本思想或步骤是什么？

　　在判别分析中，并非观测变量越多越好，而应该选取主要变量进行判别分析，因为每一个变量在判别式中所起的作用一般来说不相同，有的起重要作用，有的起低微作用，，如果将判别能力低微的变量保留在判别式中，不仅会增加计算量，还会产生干扰，影响判别效果；同样的，如果主要变量被忽略了，产生的判别效果也不会好。

基本思想：

与“逐步回归”相似，采用“有进有出”的算法，即逐步引入一个“最重要”的变量进入判别式，同时对先引入判别式的一些变量进行检验，如果他们的判别能力随着引入新变量而变得不显著了，则将它从判别式中剔除，直至没有新变量能够进入，依然没有旧变量需要剔除为止。

步骤：

　　　　7、判别分析有哪些现实应用？

举例说明。

　　　　第三章聚类分析　　1、聚类分析的目的是什么？

与判别分析有何异同？

这种方法有哪些局限或欠缺？

　　目的：

把某些方面相似的东西归成类，以便从中发现规律性，进而达到认识和改变世界的目的；　　异：

是否事先已知研究对象分类；同：

都是分类的问题；局限：

　　2、有哪些常用的聚类统计量？

　　Q型聚类统计量，用“距离”度量样品之间的接近程度；距离小表示共同点多；R型聚类统计量，用“相似系数”描述变量之间的近似程度；“相似系数”绝对值接近1表示关系密切；　　3、系统聚类法的基本思想是怎样的？

它包含哪些具体方法？

　　基本思想：

先将待聚类的n个样品各自看成一类，共有n类；然后按照事先选定的方法计算每两类之间的聚类统计量，即某种距离，将关系最密切的两类并为一类，其余不变，即得n-1类；在按照前面的计算方法计算新类与其他类之间的距离，再将关系最密切的两类并为一类，其余不变，即得n-2类；如此继续下去，每次重复都少一类，直到最后所有样品都归为一类为止。

　　方法：

最短距离法、最长距离法、中间距离法、重心法、类平均法、离差平方和法；4、聚类分析对变量与样本规模有何要求?

有哪些因素影响分类效果？

要想减少不利因

　　　　　　素的影响，可以采取哪些改进方法？

　　要求：

要求样本规模较大，变量之间不要有太强的相关性，变量个数应该　　根据经验和相关学科专业知识确定分类数目；根据聚类统计量参考确定；使用误判定理具体分析；　　6、快速聚类法的基本思想或步骤是怎样的？

　　基本思想：

在待聚类的样品比较多时，先给出一个大致的初始分类，然后用某种原则进行修改，知道分类结果比较合理为止。

步骤：

　　　　7、有序样品的最优分割法的基本思想或步骤是怎样的？

　　　　8、应用聚类分析解决实际问题的基本步骤是怎样的？

应该注意哪些方面的问题？

步骤：

1-6　　应注意问题：

无论选择哪种方法计算类与类之间距离，都是将距离中最小的两类合并成一个新类　　第四章主成分分析与典型相关分析　　1、主成分分析的基本思想是什么？

在低维情况下，如何利用几何图形解释主成分的意　　义？

　　基本思想：

构造原始变量的适当的线性组合，以产生一系列互不相关的新变量，从中选出少量几个新变量并使它们含有足够多的原始变量带有的信息，从而使得用这几个新变量代替原始变量分析问题和解决问题成为可能。

几何解释：

　　2、什么是主成分的贡献率与累计贡献率？

实际应用时，如何确定主成分的个数？

　　描述第k个主成分提取的信息占原来变量总信息量的比重，称为第k个主成分Yk　　的贡献率；称　　为前m个主成分Y1、Y2、?

Ym的累计贡献率，表示前m个主成分提取X1，X2，?

，Xp的总信息量的比重。

在实际应用中，通常选取m　　每一主成分都是原始变量的线性组合；主成分的数目大大少于原始变量的数目；　　主成分保留了原始变量所包含的绝大部分信息；各主成分之间互不相关；　　4、对于任何情形的多个变量，都可以采取主成分方法降维吗？

为什么？

　　5、怎样的情况下需要计算标准化的主成分？

　　在实际问题中，不同的变量往往有不同的量纲，于不同的量纲会引起各变量取值的分散程度差异较大，这时，总体方差将主要受较大的变量控制，若用协方差矩阵求主成分，则优先照顾了方差较大的变量，将可能导致不合理的结果。

为了消除于量纲不同所带来的影响，常采用变量标准化的方法来求主成分。

6、主成分有哪些应用?

　　7、如何解释主成分的实际含义？

　　关于主成分的实际意义，要结合具体问题和有关专业知识才能给出合理的解释。

主成分分析往往不是最终目的，更重要的是利用主成分分析综合原始变量的信息，达到降低原始变量维数的目的，进而利用有钱几个主成分得到的低维数据做进一步分析。

8、典型相关分析的基本思想是什么？

有何实际用途？

基本思想：

　　用途：

用于研究两个变量组之间的关系　　9、典型相关分析与回归分析、判别分析、主成分分析、因子分析有何关联？

试比较这些　　方法的异同之处。

　　10、典型相关分析有哪些基本假定？

　　11、如何解释典型相关函数的实际意义？

　　12、典型相关方法中冗余度分析的意义是什么？

　　　　第五章因子分析与对应分析　　1、因子分析是怎样的一种统计方法？

它的基本目的和用途是什么？

　　因子分析是根据相关性大小将变量分组，使得同组内的变量之间相关性较高，不同组的相关性较低，每组变量代表一个基本结构，用一个不可观测的综合变量表示，这个基本结构成为公共因子，对所研究的问题就可用最少个数的不可观测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量；　　基本目的：

利用降维的思想，从研究原始变量相关矩阵内部结构出发，把一些具有错综复杂关系的变量归结为少数几个综合因子；　　用途：

另一作用是对变量进行分类处理，根据因子得分值，在因子轴所构成的空间中把变量点画出来，形象直观的达到分类目的；　　2、因子分子中的KMO统计量与巴特莱特球形性检验的目的是什么？

　　　　3、因子分析有哪些类型？

它们有何区别？

Q型因子分析与聚类分析有何异同？

　　4、因子分析中的变量类型是怎样的？

因子分析对变量数目有没有要求？

对样本规模有　　没有要求？

　　　　5、因子分析有怎样的基本假定？

对样本特点有何要求？

　　6、因子分析模型中，因子载荷、变量共同度、方差贡献等统计量的统计意义是什么？

　　　　7、因子分析与主成分分析有何区别与联系？

它们分别适用于怎样的情况？

　　　　8、如何确定公共因子数目？

如何解释公共因子的实际意义?

　　　　9、怎样的情况下，需要作因子旋转？

　　10、有哪些估计因子得分的方法？

因子得分的估计是普通意义下的参数估计吗？

为什　　么？

　　　　11、对应分析的基本思想或原理是什么？

试举例说明它的应用。

　　　　12、对应分析中总惯量的意义是什么？

展开阅读全文