同济大学多元统计学复习总概要.docx

资源描述

同济大学多元统计学复习总概要.docx

《同济大学多元统计学复习总概要.docx》由会员分享，可在线阅读，更多相关《同济大学多元统计学复习总概要.docx（12页珍藏版）》请在冰豆网上搜索。

同济大学多元统计学复习总概要.docx

同济大学多元统计学复习总概要

《多元统计》复习概要

1考试范围

本次考试共分作9个考点，其中有4个考点：

抽样分布、方差分析、卡方检验以及回归分析是老师课件上的内容，多元正态分布、均值向量、协方差矩阵、聚类分析、主成分分析以及因子分析5个考点均为书本上的内容。

看上去内容很多，实质上除了最后两个考点计算涉及到矩阵和行列式的运算外，其他的都基本只是将数值代入公式进行计算，掌握其原理就行了。

2题型：

A卷：

1道简答题，7道计算题

B卷：

3道简答题，5道计算题

根据本校生透露，同济考试一般来说都采用A卷

3预备知识

数理统计：

（1）假设检验：

z检验、t检验都可以针对均值的检验，卡方（χ2）检验是针对方差的检验，z检验是针对样本比例的检验。

（2）点估计以及区间估计：

与参数的假设检验是一个问题的两个方面。

线性代数：

（1）矩阵的基本运算法则

（2）矩阵的相关性质，如（正交矩阵、对称矩阵、逆矩阵、相似矩阵等性质）

（3）行列式的基本运算法则及基本变换

（4）齐次方程的求解方法

4考试内容：

1、抽样分布

a）比例的区间估计、精度、样本容量的确定

说明：

1）比例的区间估计。

这是本科学的数理统计的内容，有时间的同学可以对照任一本数理统计的书中“参数检验”章节进行学习，区间估计与单总体的参数检验其实是一个问题的两个方面，前者是以一定的把握（如95%）估计理想的总体参数（未知）存在于以我们所得的样本参数（如平均值、方差、比例）什么样的允许误差范围内；后者则是已知理想的总体参数，以一定的把握检验所得的样本参数是否在此把握对应的误差范围内。

2）精度。

即d，估计区间的误差大小

3）样本容量。

即n，即需要抽样的个数，越大越能达到精度的要求。

公式：

其中，Z为标准正态分布的分位点，p为样本比例，n为样本容量，d为误差大小

例题：

“抽样分布和参数估计”课件p60~61页、p70

2、多元正态分布

a）数字特征、性质

b）马氏距离、欧氏距离

c）均值向量和协方差阵的估计

说明：

a）因为随机抽样的样本是随机的，只能由不同的统计数字表示，所以我们可用统计的参数来代表所有的统计样本，称作数字特征。

一般来说，有三个参数最重要，平均值、方差以及样本比例。

从概率论的理想角度来说，对应分别就是均值、方差、总体比例。

样本向量指的是有许多个变量的样本，于是就成为了向量。

对应这个向量X，于是它的数字特征也成为了向量，分别对应为均值向量、协方差矩阵（无论及样本比例向量了）。

性质是不必死记的，考试也不会直接考，但可通过概率论的基础知识类比得出（参看书本P45）。

b）欧氏距离就是n维空间里的距离，没有考虑到统计样本的概率分布情况，马氏距离相当于是空间距离与概率单位距离的比值。

不理解不要紧，直接代入公式计算就行了。

但在这里还要记清楚二元正态方差的逆矩阵表达式以及矩阵的相关运算。

c）对应一元统计的参数估计，对于均值向量用平均值的矩阵估计，对于协方差均值则用离差阵估计，不过貌似都不考

公式：

马氏距离p9；二正态分布的协方差逆矩阵p11

例题：

课本p63

3、均值向量和协方差阵的检验

说明：

其实原理与一元参数检验的方法是一致的，只是所用到的检验函数不一样（如t检验变成了T检验）。

但考试应该只考p26的均值检验步骤。

4、方差分析1

a）方差分析的目的、原理

b）单因素方差分析表

c）双因素方差分析表

说明：

a）本章节十分重要，是对那些具有多种影响水平的因素对实际试验的影响，简而言之，前面的章节着眼与对单个正态总体的数字特征的研究；而本章节则涉及到因变量以及统计变量（即具有不同水平的因素）之间的关系，确定因素变量对因变量的影响显著性。

但是，方差分析并不能得出因变量与自变量的具体线性关系，只能基于对统计数据总偏差平方和的分解而进行方差分析，进而确定其对试验影响的显著性。

而回归分析则补充了单纯的方差分析所带来的缺陷，能够得出具体的回归方程。

因此，有些教材（概率论与数理统计，刘次华，高等教育出版社）将方差分析与回归分析合在一起作为一个章节。

b）单因素分析是指仅对一种影响因素的影响显著性进行分析，目标是为了清楚到底试验的总体偏差是由于不同水平效应差异（组间平均和）引起的还是由随机误差（组内平均和）引起的，于是我们将两者相除得出F值，看F值是否能通过F检验，如果能则说明该因素对试验影响十分显著。

c）双因素分析与单因素分析的原理是一样的，只是多了一个因素，公式上有所调整。

而考虑到因素与因素之间的交互作用的双因素分析是我们的考试内容。

的确，在这个分析里，因素与因素之间的交互作用是最值得我们注意的地方，但是课件上已经没有将这种交互作用的量化公式给出，证明这题的计算过程在考试中是不必考的。

对统计学有兴趣的同学可以随便借一本统计学的教材看交互作用效应差异是如何用统计数据表示的（统计学，贾俊平，清华大学出版社，p270）但是，我们起码应该将方差分析表中各个字母代表的含义记住，分别是a、b、n；以及记住自由度和F值的计算公式。

公式或表格：

其中，a为A因素的样本的影响水平，b为B因素的样本的影响水平，n为每个交互作用的试验结果的样本容量

例题：

“方差分析”课件：

p35~38

5、回归分析1

a）回归分析的主要内容和分析步骤

b）一元部分：

β0，β1

c）回归方程的显著性检验、方差分析表

d）预测区间的近似计算、精度控制、回归方程的标准误差

e）控制：

以案例1为例。

f）曲线回归的分析步骤、线性化

说明：

回归分析是统计学里三大分析之首（主成分分析、判别分析），因为既简单又实用。

过程和原理我就不必多说了，因为大家都学了这么久了。

β0，β1是不必我们手算的。

只是增加了方程的检验、预测和控制，也是考试的重点所在。

c）方程的显著性检验其实就是上一章单因素分析的一个特例，其中参数的个数就是因素的水平个数。

此时，我们可以注意到，对于一元回归分析：

方差分析表中对应2（对应两个参数β0，β1）；对于多元回归分析，1，p为解释变量的个数。

同样地，我们需要知道方差分析表的各项指标需要我们知道是怎么得来的。

d）方程的预测区间估计比样本的区间估计要来的复杂，有比较多繁琐的证明，所以同学们只要记住公式就行了。

在运用公式的时候，记得所查t函数的自由度为2，又因为我们所要做的双边区间估计（即±d），所以用到对应的分位点为α/2.这在我们查表时是需要注意到的。

至于，即我们所说的残差平方和，是很容易通过统计数据计算出来的（见“一元回归”课件p21）

e）预测与控制是回归分析里的同一个问题的两个方面。

前者是已知解释变量求因变量的区间；后者是预设了因变量的区间反求解释变量的控制区间。

控制的计算方法是建立在区间预测的基础上的（此时假定每一点的区间估计值都是常量d），然后将预设因变量y代入控制的不等式来求x。

我们需要注意的是分位点选取问题以及不等式的建立问题，当双侧控制需要用Z检验的1/2分位点，当单侧控制是用单侧分位点；建立控制不等式时，y的可能最小值（）应大于控制值下界；最大值（）应小于控制值上界。

f）考试基本不考，大家注重曲线回归的分析步骤和线性化的方法即可。

公式或表格：

1、方程检验的方差分析表（一元回归分析）

注：

多元回归的将自由度1改作p，2改作1

2、一元回归的区间预测以及控制：

注：

为残差平方和，N为样本容量（取的点个数），Z为标准正态分布的分位点值，双侧控制时用1/2分位点α/2，单侧控制时则改用单侧分位点α。

3、多元回归的区间预测以及控制（p为解释变量的个数）：

例题：

“回归分析”课件p24~25，p36，p43~44

“多元回归分析”课件：

p18~19

6、聚类分析1

a）数据标准化、无量纲化

b）马氏距离，计算

a）系统聚类法、基本思想

b）几种实施方法

c）法、思想

说明：

a）主要分标准差标准化以及极差标准化，其实就是将指标无量纲化的过程，这个很容易，套公式。

b）在第2个考点讲过了，不再赘述。

c）通俗来讲，系统聚类的基本思想就是将样本按各自指标的相似度进行分类，刚开始每个样本自成一小类，然后，小类与小类在分类过程中按照着某种距离长短进行不断地汇合，最终汇聚成一个大类。

这些不同的距离正是我们研究的重点所在。

d）即计算多指标样本之间的距离的各种计算方法。

包括长距离法（重点）、短距离法（重点）、重心法、类平均法以及离差平方和法（不考）等。

要注意的是在计算这些距离时可以采取不同的方法，但在做样本分类的时候我们还是将计算出的距离最短的归作一类。

不同的距离计算方法会有不同的分类效果和特点，此处不作细表。

e）K快速聚类法：

先按分类要求分作K类，用每一类的重心作为每一类的凝聚点，之后比较每个样本与这K个凝聚点的距离，重新确定每个样本的所归的新类；重新分类一遍后，再按照步骤一走一遍，依次类推，直到分类不变为止。

但不能像系统距离那样可以形成谱系聚类图，即不能了解类与类之间、类内部之间的距离关系，因为分类数是预设的。

公式：

分类时，都用的是欧氏距离的公式，只是距离的主体以及选取距离的方法不一样。

例题：

书本：

p71~73，老师所给的K聚类例题

7、卡方检验

a）总体分布的卡方检验、思想原理

b）两个比例差异的检验

c）独立性检验

d）两个相关样本比例差异检验

说明：

a）在以往我们学过的但总体正态分布的比例检验当中，对比例的检验用到的还是Z检验，如今从另一个角度出发，针对多个正态总体的比例进行卡方检验，不仅仅大大降低了计算强度，还能够对具有多指标的正态主体进行检验，其参数检验的范围可以说是大大扩展了。

b）在复习总体间的比例差异检验的时候，不妨可以对比一下这个与方差分析的差别（形式相似但实质差异很大），在两个总体的比例检验中，其实只有一个因子（酒店），每个存在两个水平（酒店1和2），但是这两个水平是独立的，其和是一个常数（即样本i的容量），我们的研究对象是在每个水平下的结果（成功或失败）。

而且，它并非如方差分析那样是分析样本的具体指标值，而是分析样本的频数。

有了这样的类比之后，可能对两种统计分析方法都会有比较清楚的理解。

c）相较于比例差异检验，独立性检验就是多引入了一个因子（例题中是不入住的理由），而且每个因子都有2个或2个以上的水平（酒店n），我们研究的对象是在不同因子的不同水平下的频数大小，从而分析这两种因子是否独立。

还得注意卡方检验函数的自由度为

（1）

（1），a、b为两个因子的水平多少。

d）因为引入一个条件，这个条件使得原来的一个的因子（酒店）变作了两个（改革前的酒店和改革后的酒店），并且这两个因子（即样本）存在相关关系，如今的研究目的就集中在了二者之间的差异性上。

还有另一个区别就是最后的检验用到的方法是Z检验，在通过显著性检验后，我们还可以通过比较样本比例得出样本比例的变化趋势。

公式：

1、两个比例差异检验：

注：

其中f0为列联表中特定单元的观测频数，为列联表中特定单元的期望频数。

，为第i个因子的样本容量，

即为比例估计值

2、独立性检验

其他同比例差异检验，只是对于每一个单元格来说，都有各自不一样的期望频数。

3、相关样本的比例差异检验

检验此统计量Z能否通过z检验，能通过则说明两个样本存在显著差异。

例题：

“卡方检验与非参数检验”课件p14~17；p25~29；p33~34

8、主成分分析1

e）思想、累计贡献率、信息提取率

f）计算过程、例题

9、因子分析1

a）因子分析模型

b）各个符号（、2、2）的统计学意义

c）利用主成分法寻找因子分析模型、计算

说明：

这两章联系的太紧密了，必须合起来讲。

1）这是本次考试当中技术含量比较高的章节，详细原理什么的我就直接略去了，因为说起来又一大通了，大家容易烦。

简单来说，主成分分析就是用几个X的线性组合来表示几个Y，因子分析则用几个X的线性组合来表示几个Y。

前者是为了能将指标减少到几个（即方差的重新分配）；后者则是为了能够找到指标之间的共性（同样是方差的重新分配）。

共同点是同样用方差来表示指标的信息量，原始方差损失越少代表信息损失越少。

课件上说，因子分析比主成分分析更加有实际的意义，这个问题可以留待大家去挖掘。

2）概念说明：

累计贡献率：

每个特征值通过排序所加起来占总方差的百分比（可以证明的总方差等于的总方差），表示从前几个主成分中提取总信息的百分比。

信息提取率：

每个主成分对贡献的方差与总方差的比值，表示前几个主成分提取了某个变量的信息的百分比

：

与之间的协方差。

若为各分量已标准化了的随机变量，则为与之间的相关系数

2：

反映了公共因子对的影响，可以看成是公共因子对的方差贡献，称为共性方差（）

2：

反映了公共因子对所有指标变量X1、X2…的影响，可视为公共因子对X1、X2…的总方差贡献。

其实这两个很容易分辨，惯例上i为行，j为列，因此含有i的字母自然是表示对行的影响（每一行代表一个）；含有j的字母表示对列的影响（每一列代表一个公共因子）

3）计算过程：

求解两个分析模型的荷载矩阵的方法是一致的，但实际上主成分法求解因子分析模型是有问题的（课本上有介绍，p198），有兴趣的同学可以自行研究一下。

现在总结一下求解步骤：

（1）利用协方差矩阵∑，列行列式方程求解特征值λ。

别看这个很简单，但如果这协方差阵变得一般化以后就必须解三次方程了。

对于较为特殊的协方差阵，如“主成分分析”课件p10的例题，可以通过行列式的行列变换先将行列式化简，再用行或列展开行列式，避免λ三次方的出现。

本例题的特殊性在于矩阵对角线上存在两个相同的数值，因此可以通过用第3行加上第2行（性质：

行列式值不变），使得2行1列的值为0,2行2列与3列的数值相同，然后又可以用第3列减去第2列，使得2行3列的值为0，此时我们就可以用第2行进行行列式展开，避免了三次项的出现。

不过这个只是个特例，对于一般的特征值求解没有通法，所以最终还是得依靠同学对行列式的熟悉程度，这个得补补以前线代的功课了，不然就只能拼了。

（2）对求得的每个特征值λi求对应的特征向量γi。

这个解齐次线性方程组是有通法的，大家请参考任一本线性代数的解方程组章节（线性代数，刘先忠，高等教育出版社，第四章）；

（3）解出特征值后还需标准化，就是除去每个向量的模，就得出每个对应的变换向量了。

但是，对于因子分析，方差需要进行标准化为1，故必须将每个相应的特征向量都乘以相应的

，使得每个特征向量成为荷载因子矩阵的每一列。

这就是主成分分析和因子分析的最大不同之处。

不过都有一个缺陷：

就是没有将向量正交化，因为这是考试不要求的。

真理向考试妥协了。

公式：

1、累计贡献率

2、信息提取率

3、共性方差：

4、总方差贡献：

例题：

“主成分分析”课件p10~11

“方差分析”课件p16~19

小结：

柏拉图在2000年前就为人类描绘了一个理型世界，那里包含着想象中的完美；概率的世界同样如是，完美却不存在，因此统计学为人类提供了描摹这个概率世界的有效工具，通过它人类可以触及未知世界的真相之一二，亦是人类的伟大与万幸，当然掌握好统计学的方法也有利于我们通过科学的决策，洞悉或穿透这个现实的虚妄。

总而言之，这门课还是对我们的人生有莫大的帮助的。

希望这份东西对大家认识统计学有所帮助，最后祝大家考试愉快。

展开阅读全文