管理统计期末考试题型聚类分析复习资料文档格式.docx
《管理统计期末考试题型聚类分析复习资料文档格式.docx》由会员分享,可在线阅读,更多相关《管理统计期末考试题型聚类分析复习资料文档格式.docx(19页珍藏版)》请在冰豆网上搜索。
Sig.
BetweenGroups
391308.716
2
195654.358
3.359
.036
WithinGroups
15669490.917
269
58250.896
16060799.632
271
所在年级的单因素方差分析
75378.112
3
25126.037
.421
.738
15985421.521
268
59647.095
性别
153115.679
1
2.599
.108
15907683.953
270
58917.348
因子分析
因子分析就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子反映原资料的大部分信息的统计学方法。
即是一种通过显在变量来测评潜在变量,通过具体指标测评抽象因子的统计分析方法。
因子分析的特点:
因子变量的数量远少于原有的指标变量的数量,对因子变量的分析能够减少分析中的计算工作量。
因子变量不是对原有变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。
因子变量之间不存在线性相关关系,对变量的分析比较方便。
因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。
原有变量是均值为零、标准差为1的标准化变量ei
特殊因子,表示了原有变量不能被因子变量所解释的部分,相当于多元回归分析中的残差部分。
因子分析的个基本步骤
确定待分析的原有若干变量是否适合于因子分析
构造因子变量
利用旋转使得因子变量更具有可解释性
计算因子变量的得分
确定待分析的原有若干变量是否适合于因子分析
因子分析的潜在要求是原有变量之间要具有比较强的相关性。
对原有变量作相关分析的方法是计算变量之间的相关系数矩阵。
Kaiser给出了一个KMO的标准:
0.9<
KMO:
非常适合;
0.8<
KMO<
0.9:
适合;
0.7<
0.8:
一般;
0.6<
0.7:
不太适合;
KMO<
0.5:
极不适合。
确定因子有两种方法:
一是,根据特征值的大小确定,一般取大于l的特征值;
二是,根据因子的累计方差贡献率(一般要求大于80%)来确定。
通过因子矩阵的旋转来进行。
正交旋转、斜交旋转、方差极大法,其中最常用的是方差极大法。
旋转的目的是因子命名
SPSS操作步骤:
Analyze——dimensionreduction——factor,在描述统计(statistics)相关矩阵中选择系数、KMO和bartlett的球形检验,在抽取(extract)方法使用主成分分析法并且输出碎石土(陡坡图),旋转(rotation)中使用极大方差旋转(),在因子得分(score)中选择输出因子得分系数矩阵,在选项(option)中选择缺失值处理方式。
相关系数矩阵的逆矩阵
KMO检验和Bartlett球度检验结果
相关系数矩阵
如果相关系数矩阵在进行统计检验中,大部分(50%)相关系数都小于0.3且未通过统计检验,那么50%¥这些变量就不适合进行因子分析。
因子分析初始结果
因子提取和因子旋转结果表:
特征值要大于1,累计方差贡献率要大于80%,特征值与累计方差贡献率不一致的情况下可通过陡坡图确认。
陡坡图(公共因子碎石图)
因子载荷矩阵
因子载荷旋转矩阵:
大于0.5的值,判断因子包含的原始变量
因子得分矩阵:
因子变量的协方差矩阵
100个学生数学、物理、化学、语文、历史、英语成绩如下表(部分),请你用科学的方法解释为什么我们会将数学、物理、化学归并为理科,其他的归并为文科。
数学
物理
化学
语文
历史
英语
100
59
73
67
99
53
63
60
87
84
74
81
76
91
85
70
65
98
78
64
95
66
79
83
89
这是一个有趣的案例,你可以客观的观测到每一科目的成绩,但你如何可以直接看到理科、文科的情况呢?
6个科目的成绩是我们观测到的外在表现,隐藏在其中的公共因子是什么?
SPSS分析过程
1、定义六个变量分别为数学、物理、化学、语文、历史、英语
3、SPSS步骤:
Analyze—dimensionreduction—factor,在描述统计(statistics)相关矩阵中选择系数、KMO和bartlett的球形检验,在抽取(extract)方法使用主成分分析法并且输出碎石土(陡坡图),旋转(rotation)中使用极大方差旋转(),在因子得分(score)中选择输出因子得分系数矩阵,在选项(option)中选择缺失值处理方式。
4、对输出图表的解释:
6科目成绩作为6个原始变量,利用SPSS进行因子分析。
经过SPSS降维,由公因子方差表看出,默认提取两个公因子,能够解释差异的81%,似乎暗合文科和理科。
通过旋转后进行因子的命名与解释,由旋转矩阵可以看出,因子1与语文、历史、英语三科最相关,均在0.8相关度以上,因子2与数学、物理、化学相关,也基本达到0.8以上,这正好与我们经常说的文科和理科不谋而合,因此,将语文、历史、英语三科命名为文科因子;
将数学、物理、化学三科命名为理科因子。
因子得分排序:
综合评价
为公共因子合理命名之后,因子分析并没有结束,一般可以将因子得分作为变量,用于后续分析步骤。
本例:
100名学生按照文科和理科因子得分进行排序,可以用(语文+历时+英语)及(数学+物理+化学)平均值验证因子得分排序是否合理,同时,也可以观测因子得分为负值时是否影响排序。
聚类分析
研究分类问题的常用统计方法:
①聚类分析:
层次聚类(Q型,R型),快速聚类
Q型聚类:
是对样本(个案)进行分类;
R型聚类:
是对研究对象的观察变量进行分类。
②判别分析
分层聚类(HierarchicalCluster),反映事物特点的变量很多,根据所研究的问题选择部分变量对事物的某一方面进行研究。
快速样本聚类(QuickCluster),就是对观测值进行聚类,是反映被观测对象特征的各变量进行分类;
当要聚成的类数已知时,使用快速聚类过程可很快将观测量分到各类中去。
以下四个因素会大大影响聚类方法的使用效果:
类的结构(主要指类的形状、规模和个数)、奇异值(Outliers)的存在、类与类之间重叠的程度和相似测度的选择。
聚类分析的基本步骤:
1、数据标准化、2、计算对象之间的相异度;
3、选择类与类之间的距离定义;
4、聚类;
5、分类
请问聚类分析的SPSS操作步骤是什么:
分别定义城市、人均地区生产总值、人均公共图书馆藏书、职工平均工资、人均绿地面积、每万人拥有公有公共汽车电车(辆)这六个变量。
对城市变量进行变量值标签:
2、录入数据:
北京600453.4147132.47000000000040.5416.98
天津512311.2735355.91000000000019.919.52等数据
3、执行SPPS命令:
中文:
依次点击分析——分类——系统聚类,进入系统聚类分析对话框,将城市做为标注个案,其他五个变量放入变量中,聚类类型为个案,输出统计量和图;
再依次点击统计量选择合并进程表和相似性矩阵,绘制树状图,方法使用默认方法,点击确认。
英文:
依次点击Analyze——Classify——HierachicalCluster,在labelcaseby中放入变量城市,在variables中放入剩下的5个变量,在cluster中选择cases,display中选择statistics和plots;
然后在依次点击statistics选中proximitymatrix;
在plots中选择dendrogram;
method中系统默认方法,点击确认。
4、运行结果分析:
CaseProcessingSummarya
Cases
Missing
N
21
.0
a.AverageLinkage(BetweenGroups)
有缺失值要对缺失值进行处理之后才能继续做聚类分析
凝聚过程状态表
AgglomerationSchedule
Stage
ClusterCombined
Coefficients
StageClusterFirstAppears
NextStage
Cluster1
Cluster2
13
14
617029.651
5
16
1149161.301
2639855.662
4
19
12521873.168
18
9
12
13875102.284
10
经历了20次迭代聚类,0个案之间的聚类,不是0的话就是小类和小类之间进行了聚类
冰状图
树状图
下表给出对该产品8种需求情况,根据该表,请运用聚类分析法,找出哪些地区在该产品需求上有共同特征。
x1x2x3x4x5x6x7x8
辽宁7.939.778.4912.9419.2711.052.0413.29
浙江7.6850.3711.3513.319.2514.592.7514.87
河南9.4227.938.28.1416.179.421.559.76
甘肃9.1627.989.019.3215.999.11.8211.35
青海10.0628.6410.5210.0516.188.391.9610.82
答案:
辽宁x1x6浙江x8河南x5x2甘肃x3x4青海x7
对某地的12个乡镇的饮水氟含量及中老年人群的骨关节炎患病情况作了调查,数据如下表10-12,初步发现不同乡镇的骨关节炎的患病率高低与本地区饮水的氟含量有关。
于是把氟含量视为变量X,把骨关节炎患病率视为Y,计算出Pearson积矩相关系数,得r=0.827,经检验P<
0.01,据此认为骨关节炎的患病率与饮水的氟含量之间有正相关关系。
表10-12
某地12个乡镇饮水氟含量与骨关节炎患病率
序号
氟含量(mg/L)
患病率(%)
1.2
7.5
0.35
8.9
2.5
9.0
3.18
12.6
0.75
8.2
6
5.92
15.4
7
7.97
20.3
8
2.06
10.1
7.05
30.3
5.3
24.2
11
3.52
1.5
10.3
讨论:
(1)作者以上结论是否正确?
原因是什么?
(2)线性相关分析的适用条件是什么?
如何验证其适用条件?
(3)应如何进行分析?
本分析方法的适用条件是什么?
Pearson相关分析用来度量两个定距型变量间的线性相关性
要满足正态分布
相关分析
用来度量具有线性关系的两个变量之间相关关系的密切程度及其相关方向,适用于双变量正态分布资料。
相关系数为0的两个随机变量,不相关,但不一定独立;
相互独立的随机变量间的相关系数,必然为0;
相关系数为0的两个服从正态分布的随机变量,一定相互独立。
当数据都是刻度级时采用积矩相关;
不都是刻度级可做积矩相关也可做等级相关;
都不是刻度级是采用等级相关。
Analyze(分析)-correlations(相关分析)-bivariate(双变量)
在options中选择meansandstandarddeiations(均值和标准差)和cross-productdeviationsandcovariances(叉积偏差和协方差)
在correlationcoefficients(相关系数)中选择pearson(积矩相关),点击确定
Kendall’stau-b以及spearman表示等级相关;
一般默认使用双侧检验,标注显著性相关。
SPSS执行结果分析:
以入市年份与受教育程度为例:
Sig.(2-tailed)=0.026即两者之间相关系数0.117的P值=0.026<
α=0.05,因此拒绝原假设H0,即认为入市年份与受教育程度有关系,关系系数=0.117,关系密切程度为弱相关。
普通相关系数的取值范围:
样本相关系数也是区间[-1,1]之间的一个量
相关系数<
0.3弱相关;
0.3<
γ<
0.5低度相关;
0.5<
0.8显著相关,达到显著相关才可做因子分析;
0.8<
0.95高度相关;
0.95<
1极度相关。
偏相关
三个及三个以上变量做相关分析时,控制其他变量,只分析其中两个变量的相关分析。
控制变量:
controlling
Variablses变量;
分析P值和相关性
距离相关
距离相关分析是对样本之间或变量之间的相似或不相似程度的一种测量。
距离相关分析可用于同一变量内部各个取值间考察其相互接近程度;
也可用于变量间考察预测值对实际值的拟合优度。
其相关分析的结果可用于“因子分析”、“聚类分析”等其他分析过程,有助于分析复杂的数据集合。
analyze(分析)-correlate(相关)-distances(距离)
距离相关对话框:
computedistances(计算距离)中选择betweencases(个案之间)或者betweenvariables(变量间);
measure(度量标准)中选择dissimilarities(不相似性)或者similarities(相似性),measures(度量)中选择相应方法
不相似分析,距离越短更相似
品质相关(在交叉列联表中)
多个变量在不同取值情况下的数据分布,分析变量之间的相互影响和关系。
除了列出交叉分组下的频数分布外,还需分析两变量之间是否具有独立性或一定的相关性。
Analyze菜单DescriptiveStatistics项中选择Crosstabs命令。
对人数进行加权
一、如何用SPSS求相关系数
Ø
spearman(斯伯曼/斯皮尔曼)相关系数
斯皮尔曼等级相关是根据等级资料研究两个变量间相关关系的方法。
它是依据两列成对等级的各对等级数之差来进行计算的,所以又称为“等级差数法”斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关来进行研究
Kendall'
s相关系数
肯德尔(Kendall)W系数又称和谐系数,是表示多列等级变量相关程度的一种方法。
适用这种方法的数据资料一般是采用等级评定的方法收集的,即让K个评委(被试)评定N件事物,或1个评委(被试)先后K次评定N件事物。
等级评定法每个评价者对N件事物排出一个等级顺序,最小的等级序数为1,最大的为N,若并列等级时,则平分共同应该占据的等级,如平时所说的两个并列第一名,他们应该占据1,2名,所以它们的等级应是1.5,又如一个第一名,两个并列第二名,三个并列第三名,则它们对应的等级应该是1,2.5,2.5,5,5,5,这里2.5是2,3的平均,5是4,5,6的平均。
肯德尔(Kendall)U系数
又称一致性系数,是表示多列等级变量相关程度的一种方法。
该方法同样适用于让K个评委(被试)评定N件事物,或1个评委(被试)先后K次评定N件事物所得的数据资料,只不过评定时采用对偶评定的方法,即每一次评定都要将N个事物两两比较,评定结果如下表所示,表格中空白位(阴影部分可以不管)填入的数据为:
若i比j好记1,若i比j差记0,两者相同则记0.5。
一共将得到K张这样的表格,将这K张表格重叠起来,对应位置的数据累加起来作为最后进行计算的数据,这些数据记为。
☞
在SPSS软件相关分析中,pearson(皮尔逊),kendall(肯德尔)和spearman(斯伯曼/斯皮尔曼)三种相关分析方法有什么异同
首先看两个变量是否是正态分布
是,则analyze-correlate-bivariate中选择pearson相关系数,
否,则要选spearman相关系数或Kendall相关系数。
如果显著相关,输出结果会有*号显示,只要sig的P值大于0.05就是显著相关。
如果是负值则是负相关。
1.两个连续变量间呈线性相关时,使用Pearson积差相关系数,不满足积差相关分析的适用条件时,使用Spearman秩相关系数来描述.
2.Spearman相关系数又称秩相关系数,是利用两变量的秩次大小作线性相关分析,对原始变量的分布不作要求,属于非参数统计方法,适用范围要广些。
对于服从Pearson相关系数的数据亦可计算Spearman相关系数,但统计效能要低一些。
Pearson相关系数的计算公式可以完全套用Spearman相关系数计算公式,但公式中的x和y用相应的秩次代替即可。
3.Kendall'
s
tau-b等级相关系数:
用于反映分类变量相关性的指标,适用于两个分类变量均为有序分类的情况。
对相关的有序变量进行非参数相关检验;
取值范围在-1-1之间,此检验适合于正方形表格;
4.计算积距pearson相关系数,连续性变量才可采用;
计算Spearman秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据;
计算Kendall秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据。
5.计算相关系数:
当资料不服从双变量正态分布或总体分布未知,或原始数据用等级表示时,宜用spearman或kendall相关
Pearson相关复选项积差相关计算连续变量或是等间距测度的变量间的相关分析Kendall复选项等级相关计算分类变量间的秩相关适用于合并等级资料Spearman复选项等级相关计算斯皮尔曼相关适用于连续等级资料注:
1.若非等间距测度的连续变量
因为分布不明-可用等级相关/也可用Pearson
相关,对于完全等级离散变量必用等级相关
2.当资料不服从双变量正态分布或总体分布型未知或原始数据是用等级表示时,宜用
Spearman
或
Kendall相关。
若不恰当用了Kendall等级相关分析则可能得出相关系数偏小的结论。
则若不恰当使用,可能得相关系数偏小或偏大结论而考察不到不同变量间存在的密切关系。
对一般情况默认数据服从正态分布的,故用Pearson分析方法。
在SPSS里进入Correlate-Bivariate,在变量下面Correlation
Coefficients复选框组里有3个选项:
正态分布的相关检验
☞对来自正态总体的两个样本进行均值比较常使用T检验的方法。
T检验要求两个被比较的样本来自正态总体。
两个样本方差相等与不等时用的计算T值的公式不同。
☞进行方差齐次性检验使用F检验。
对应的零假设是:
两组样本方差相等。
P值小于0.05说明在该水平上否定原假设,方差不齐;
否则两组方差无显著性差异。
☞U检验
时用服从正态分布的检验量去检验总体均值差异情况的方法。
在这种情况下总体方差通常是已知的。
虽然T检验法与U检验法所解决的问题大体相同,但在小样本(样本数n)=30作为大样本)且均方差未知的情况下就不能用U检验法了。
均值检验时不同的数据使用不同的统计量,使用MEANS过程求若干组的描述统计量,目的在于比较。
因此必须分组求均值。
这是与Descriptives过程不同之处。
检验单个变量的均值是否与给定的常数之间存在差异,用One-Sample
T
Test
单样本T检验过程。
检验两个不相关的样本是否来自来具有相同均值的总体,用Independent-Samples
test
独立样本t检验过程。
如果分组样本不独立,用Paired
Sample
配对t检验。
☞如果分组不止两个,应使用One-Way
ANOVO一元方差分析(用于检验几个独立的组,是否来自均值相等的总体)过程进行单变量方差分析。
如果试图比较的变量明显不服从正态分布,则应该考虑使用一种非参数检验过程Nonparametric
test.
如果用户相比较的变量是分类变量,应该使用Crosstabs功能。
当样本值不能