多元统计复习题题干资料Word文档格式.docx

上传人:b****2 文档编号:14522200 上传时间:2022-10-23 格式:DOCX 页数:16 大小:1.35MB
下载 相关 举报
多元统计复习题题干资料Word文档格式.docx_第1页
第1页 / 共16页
多元统计复习题题干资料Word文档格式.docx_第2页
第2页 / 共16页
多元统计复习题题干资料Word文档格式.docx_第3页
第3页 / 共16页
多元统计复习题题干资料Word文档格式.docx_第4页
第4页 / 共16页
多元统计复习题题干资料Word文档格式.docx_第5页
第5页 / 共16页
点击查看更多>>
下载资源
资源描述

多元统计复习题题干资料Word文档格式.docx

《多元统计复习题题干资料Word文档格式.docx》由会员分享,可在线阅读,更多相关《多元统计复习题题干资料Word文档格式.docx(16页珍藏版)》请在冰豆网上搜索。

多元统计复习题题干资料Word文档格式.docx

因子旋转

•使得每一个变量在某一个因子上负荷尽量大

而在其他因子上负荷尽量小——varimax!

•所有因子保持不相关——互相垂直

•旋转后共性方差不变

5.设某客观现象可用X=()’来描述,在因子分析时,从约相关阵出发计算出特征值为由于,所以找前两个特征值所对应的公共因子即可,又知对应的正则化特征向量分别为(0.707,-0.316,0.632)’及(0,0.899,0.4470)’,要求:

(1)计算因子载荷矩阵A,并建立因子模型。

 

(2)计算共同度。

(3)计算第一公因子对X的“贡献”。

6.评价我国35个中心城市的综合发展水平,选取反映城市综合发展水平的12个指标如下:

非农业人口数(万人)、工业总产值(万元)、货运总量(万吨)、批发零售住宿餐饮业从业人数(万人)、地方政府预算内收入(万元)、城乡居民年底储蓄余额(万元)、在岗职工人数(万人)、在岗职工工资总额(万元)、人均居住面积(平方米)、每万人拥有公共汽车数(辆)、人均拥有铺装道路面积(平方米)、人均公共绿地面积(平方米)。

下面基于相关矩阵对所得数据进行因子分析,结果如下。

表1DescriptiveStatistics

Mean

Std.Deviation

非农业人口数(万人)

308.3489

219.83902

工业总产值(万元)

16696857.1429

19893326.55344

货运总量(万吨)

14748.7680

12724.72601

批发零售住宿餐饮业从业人数(万人)

11.7157

21.31643

地方政府预算内收入(万元)

1217117.2857

1739133.06001

城乡居民年底储蓄余额(万元)

12872780.4000

14217851.30101

在岗职工人数(万人)

100.1537

80.80586

在岗职工工资总额(万元)

1872194.1143

2146354.32611

人均居住面积(平方米)

17.0857

1.91544

每万人拥有公共汽车数(辆)

13.3926

18.09189

人均拥有铺装道路面积(平方米)

9.1134

7.20129

人均公共绿地面积(平方米)

37.7783

42.98659

表2KMOandBartlett'

sTest

Kaiser-Meyer-OlkinMeasureofSamplingAdequacy.

.723

Bartlett'

sTestofSphericity

Approx.Chi-Square

678.796

df

66

Sig.

.000

表3RotatedComponentMatrix

Component

1

2

3

.929

-.183

.039

.806

.309

.344

.870

-.147

.253

.791

.091

-.437

.934

.194

.155

.970

.174

-.053

.947

.030

-.191

.952

.199

-.155

.010

.205

.840

.034

.914

.175

.068

.921

.259

.092

.809

-.106

求:

1、写出正交因子模型;

2、根据上述运算结果,试填写下表(3分)

3、解释共同度及累积贡献率的含义,并计算前三个公因子的累积贡献率;

4、请说明表2的作用,并对结果做出评价;

5、请解释三个旋转公因子的含义。

判别分析

1、试述判别分析的实质。

判别分析是用于判别样品所属类型的一种统计分析方法,是在已知历史上的某些方法已把研究对象分成若干类的情况下,根据判别函数对未知所属类别的事物进行分类的一种分析方法。

2、简述贝叶斯判别法的基本思想和方法。

基本思想(错分率*损失)

假定:

g个总体服从多元正态分布。

错分概率:

j类个体被分到i类记为P(i,j),

损失:

错分造成的损失C(i|j)。

方法:

(g个类别,p个指标)

Bayes判别准则:

平均而言,总的错分损失最小。

3、简述费希尔判别法的基本思想和方法。

基本思想:

(使组间方差比组内方差最大化)即重叠部分最小

两类组间判别:

多类组间判别

找一个方向(变量的线性组合),使得多组个体在此方向上投影之间的重叠部分尽可能少。

变量数目g个,可以有g-1个判别函数

阈值:

根据专业知识确定

与两组判别相比,多组之间的判别常常效率不高。

4、试析贝叶斯判别法和费希尔判别法的异同。

Fisher判别的分数是尽可能拉开各组个体间的相对距离,贝叶斯判别是比较属于各类的概率,按照最大的概率来做判断。

对于两类间判别,费雪判别和贝叶斯判别是等价的,两个贝叶斯分类函数之差与得费雪判别函数相当。

5、收集了22例某病患者的三个指标(X1,X2,X3)的资料列于下表,其中前期患者(A)类12例,晚期患者(B)类10例。

试作判别分析。

(1)计算变量的类均数及类间均值差Dj,计算结果列于表2。

表2变量的均数及类间均值差

(2)计算合并协方差矩阵:

6、观察131例糖尿病患者,要求其患眼无其他明显眼前段疾患,眼底无明显其他视网膜疾病和视神经、葡萄膜等疾患,测定了他们的以上各指标值,并根据统一标准诊断其疾患类型,记分类指标名为group。

(表中仅列出前5例)。

试以此为训练样本,仅取age,vision,at,bv和qpv5项指标,求分类函数,并根据王×

×

的信息:

38岁,视力1.0,视网膜电图at=14.25,bv=383.39,qpv=43.18判断其视网膜病变属于哪一型。

131例糖尿病患者各指标实测记录(前5例)

解假定样本系从总体中随机抽取,则样本中三种疾患类型的样本量可近似地反映先验概率,利用SAS的Discrim过程可得分类函数

以王×

的观察值代入分类函数,得

Y1=-181.447+0.473×

38+60.369×

1.0+17.708×

14.25

+0.048×

383.39+0.364×

43.18=183.36

同样可算得:

Y2=180.58,Y3=179.66

其中最大者为Y1,故判断为轻度病变。

由上例见,Y1,Y2,Y3的数值相差不多,单纯凭分类函数值的大小作决策有时易出偏差。

这时,分别估计该个体属于各总体的概率却能客观地反映该个体的各种可能归属,而避免武断。

令Y*=180,从而有

类似地,可得

P(Y2|X1,X2,…,X5)=0.0571

P(Y3|X1,X2,…,X5)=0.0227

由此可见王×

为轻度病变的概率为0.9202,因此把他判断为轻度病变可靠性较大。

7、上机

聚类分析

1、判别分析和聚类分析有何区别?

区别:

判别分析:

必须事先知道需要判别的类型和数目,并且要有一批来自已知类型的样品(训练样本),才能建立判别式(判别函数),然后对新样品进行判别归类(带有“预测”的意义)。

聚类分析:

一批给定样品划分的类型和数目事先都不知道,完全根据一批样品的数据特征用某种方法对样品进行合理的分类,使得同一类的事物比较接近,把不相似的事物分在不同类中(只是描述性的统计)。

联系:

聚类分析和判别分析有相似之处,即两者都是研究分类问题;

在实际中两者往往结合起来使用,样品聚类是进行判别分析之前的必要工作,根据样品聚类的结果进行判别分析。

2、试述系统聚类的基本思想。

首先,将n个样品看成n类(一类包含一个样品),然后将性质接近的两类合并成一个新类,得到n-1类,再从中找出最接近的两类加以合并变成n-2类,如此下去,最后所有的样品均在一类,将上述并类过程化成一张图(聚类图)便可决定分多少类,每类各有哪些样品。

3、在进行系统聚类时,不同类间距离计算方法有何区别?

最近距离:

类别Gq的每一个体与类别Gp的每一个体都有欧式距离,将其中最短的距离定义为两个类别间的距离。

Gq和Gp间距离=点2和点4间距离

最远距离:

将其中最长的距离定义为两个类别间的距离

Gq和Gp间距离=点2和点3间距离

类平均距离:

它等于类Gp与类Gq中任意两个样品距离的平均,式中的L和K分别为Gp和Gq中的样品数。

该准则下类的合并过程在下图中概要说明。

重心法(centroidmethod)

将两个类别的中心或均数间距离定义为两类别的距离。

先求出各类的重心点,以重心点的距离作为类间相似性的测度。

要求样品间距离为欧氏距离平方。

4、试述K均值法与系统聚类有何区别?

K均值聚类:

事先确定分为K类,然后随机分为K类,计算每一类的均值,再计算某个变量到K个类别的欧式距离,比较欧式距离大小,若前小于后,则不用重新分类,若后小于前,则将这个变量归为后一类,重新计算均值,和另一个变量到k个类的欧式距离,反复循环。

系统聚类:

根据标准化欧式距离,先找出距离最小的两个变量,然后再根据不同的距离计算方法得出不同的分类。

5、两个例题

各样品到类均值的距离

主成分分析

1、试述主成分分析的基本思想。

2、主成分分析的作用体现在何处?

主成分有助于重新组织原变量,高度相关的变量往往会构成同一个主成分,不同主成分之间不相关。

将主成分作为自变量,就没有自变量之间相关的问题了。

综合评价,得到主成分的表达式并计算得分,画图。

市场研究

定内类分析问题

得分排名

3、简述主成分分析中累积贡献率的具体含义。

P个原变量,则有p个特征值得到p个向量,每个均为(ai1,ai2,…,aip)

把1改为i

ai12+ai22+…+aip2=1

Var(C1)+Var(C2)+…+Var(Cp)=Var(x1)+Var(x2)+…+Var(xp)=p

即原变量方差之和等于

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 初中教育 > 数学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1