1、判别分析实验二 判别分析 姓 名: 张杨 学 号: 2014962001 年 级: 2014级 专 业: 统计学 课程名称: 多元统计分析 指导教师: 范英兵 完成日期: 2016-09-30 1.实验目的:掌握判别分析方法的思想、判别分析步骤及判别结果分析。2.实验内容(1)自选数据或者使用例题4-1、4-2数据完成判别分析。(2)对判别分析结果进行分析。(3)选定两个样本,对样本进行分类。3.实验步骤(一)定义新的变量y为被解释变量,用“1”代表Setosa鸢尾花,用“2”代表Versicolour鸢尾花,用“3”代表Virginica鸢尾花,将萼片长(sepal length)、萼片宽(
2、sepal width)、花瓣长(petal length)和花瓣宽(petal width)四个变量作为解释变量。使用SPSS软件中的分析分类判别,就进入了判别分析的对话框。分组变量选择y,然后定义的区域,最小值是1,最大值是3。解释变量选择sepal.length、sepal.width、petal.length和petal.width。统计量(Statistics)选项中选择描述统计量均值,单变量ANOVA和BoxM ,函数选择Fisher和非标准化函数,矩阵选择组内相关。分类选项中选择先验概率(所有组相等或根据组的大小计算概率),因为三个品种的都是50种,因此两种选择的效果一样,子选项
3、显示(display)中选择每个个体的结果,综合表和“留一个在外”的验证原则,协方差矩阵选择组内,作图选择合并组。保存(Save)选项中可以选择预测的分类、判别得分以及所属类别的概率。如果采用逐步判别法,我们还可以选择判别的方法。得到分析结果如下:4.实验结果(或心得体会)表1-1群組統計資料被解释变量平均數標準偏差有效的 N (listwise)未加權加權Setosa 鸢尾花萼片长5.0060.352495050.000萼片宽3.4280.379065050.000花瓣长1.4620.173665050.000花瓣宽.2460.105395050.000Versico-lor 鸢尾花萼片长5
4、.9360.516175050.000萼片宽2.7700.313805050.000花瓣长4.2600.469915050.000花瓣宽1.3260.197755050.000Virginica 鸢尾花萼片长6.5880.635885050.000萼片宽2.9740.322505050.000花瓣长5.5520.551895050.000花瓣宽2.0260.274655050.000總計萼片长5.8433.82807150150.000萼片宽3.0573.43587150150.000花瓣长3.75801.76530150150.000花瓣宽1.1993.76224150150.000表1-2
5、群組平均值的等式檢定Wilks Lambda ()Fdf1df2顯著性萼片长.381119.2652147.000萼片宽.59949.1602147.000花瓣长.0591180.1612147.000花瓣宽.071960.0072147.000输出结果表1-1,表1-2分析的是各组的描述统计量和对各组均值是否相等的检验。表1-1是各组变量的描述统计分析。表1-2是对各组均值是否相等的检验。可以看出,在0.01的显著性水平上我们拒绝变量萼片长(sepal length)、萼片宽(sepal width)、花瓣长(petal length)和花瓣宽(petal width)在三组的均值相等的假设
6、,即认为变量萼片长(sepal length)、萼片宽(sepal width)、花瓣长(petal length)和花瓣宽(petal width)在三组的均值是有显著性差异的。表1-3對數行列式被解释变量等級對數行列式Setosa 鸢尾花4-13.067Versico-lor 鸢尾花4-10.874Virginica 鸢尾花4-8.927聯合組內4-9.959列印的行列式等級及自然對數是群組共變異數矩陣的等級及自然對數。表1-4測試結果Boxs M 共變異等式檢定146.663F近似值7.045df120df277566.751顯著性.000檢定相等母體共變異數矩陣的虛無假設。 输出结果表
7、1-3,表1-4是对各组协方差矩阵是否相等的BoxM检验。表1-3反映协方差矩阵的秩和行列式的对数值。由行列式值可以看出协方差矩阵不是病态矩阵。表1-4是对各总体协方差阵是否相等的统计检验。由值及其显著水平,我们在0.05的显著性水平下拒绝原假设(原假设假定各总体协方差阵相等)。因此,在分类(Classify)选项中的协方差矩阵选择可以考虑采用Separate-groups,以检验采用组内(Within-groups)和Separate-groups两种协方差所得出的结果是否存在显著差异。如果存在显著差异就应该采用Separate-groups协方差矩阵,反之,就用Within-groups协
8、方差矩阵。表1-5特徵值函數特徵值變異的 %累加 %典型相關性132.192a99.199.1.9852.285a.9100.0.471a. 前 2 個典型區別函數用於分析。表1-6Wilks Lambda ()函數的檢定Wilks Lambda ()卡方df顯著性1 至 2.023546.1158.0002.77836.5303.000输出结果表1-5,表1-6分析的是典型判别函数。表1-5反映判别函数的特征值、解释方差的比例和典型相关系数。第一判别函数解释了99.1的方差,第二判别函数解释了0.9%的方差,两个判别函数解释了全部方差。第2张表是对两个判别函数的显著性检验。由Wilks La
9、mbda检验,认为两个判别函数在0.05的显著性水平上是显著的。 表1-7標準化典型區別函數係數函數12萼片长-.427.012萼片宽-.521.735花瓣长.947-.401花瓣宽.575.581表-8結構矩陣函數12花瓣长.706*.168萼片宽-.119.864*花瓣宽.633.737*萼片长.223.311*區別變數與標準化典型區別函數之間的聯合組內相關性 依函數內相關性絕對大小排序的變數。*. 每一個變數與任何區別函數之間最大的絕對相關性表1-9典型區別函數係數函數12萼片长-.829.024萼片宽-1.5342.165花瓣长2.201-.932花瓣宽2.8102.839(常數)-2
10、.105-6.661非標準化係數表1-10群組重心的函數被解释变量函數12Setosa 鸢尾花-7.608.215Versico-lor 鸢尾花1.825-.728Virginica 鸢尾花5.783.513以群組平均值求值的非標準化典型區別函數输出结果表1-7,1-8,1-9,1-10显示的是判别函数、判别载荷和各组的重心。表1-7是标准化的判别函数,表示为:这里表示标准化变量,标准化变量的系数也就是前面讲的判别权重。表1-8是结构矩阵,即判别载荷。由判别权重和判别载荷可以看出两个解释变量对判别函数的贡献较大。表1-9是非标准化的判别函数,表示为我们可以根据这个判别函数计算每个观测的判别Z得
11、分。表1-10是反映判别函数在各组的重心。根据结果,判别函数在这一组的重心为(-7.608,0.215),在这一组的重心为(1.825,-0.728),在这一组的重心为(5.783,0.513)。这样,我们就可以根据每个观测的判别Z得分将观测进行分类。表1-11分類處理摘要已處理150已排除遺漏或超出範圍群組代碼0至少一個遺漏識別變數0已在輸出中使用150表1-12群組的事前機率被解释变量在前分析中使用的觀察值未加權加權Setosa 鸢尾花.3335050.000Versico-lor 鸢尾花.3335050.000Virginica 鸢尾花.3335050.000總計1.000150150.
12、000表1-13分類函數係數被解释变量Setosa 鸢尾花Versico-lor 鸢尾花Virginica 鸢尾花萼片长23.54415.69812.446萼片宽23.5887.0733.685花瓣长-16.4315.21112.767花瓣宽-17.3986.43421.079(常數)-86.308-72.853-104.368費雪 (Fisher) 線性區別函數表1-14分類結果a,c被解释变量預測的群組成員資格總計Setosa 鸢尾花Versico-lor 鸢尾花Virginica 鸢尾花原始計數Setosa 鸢尾花500050Versico-lor 鸢尾花048250Virginica
13、鸢尾花014950%Setosa 鸢尾花100.0.0.0100.0Versico-lor 鸢尾花.096.04.0100.0Virginica 鸢尾花.02.098.0100.0交叉驗證b計數Setosa 鸢尾花500050Versico-lor 鸢尾花048250Virginica 鸢尾花014950%Setosa 鸢尾花100.0.0.0100.0Versico-lor 鸢尾花.096.04.0100.0Virginica 鸢尾花.02.098.0100.0a. 98.0% 個原始分組觀察值已正確地分類。b. 僅會針對分析中的那些觀察值進行交叉驗證。在交叉驗證中,每一個觀察值都會依據從該
14、觀察值之外的所有觀察值衍生的函數進行分類。c. 98.0% 個交叉驗證已分組觀察值已正確地分類。图1-1输出结果表1-11,至表1-14是分类的统计结果。表1-11概括了分类过程,说明150个观测都参与分类。表1-12说明各组的先验概率,我们在分类(Classify)选项中选择的是所有组的先验概率相等。表1-13是每组的分类函数(区别于判别函数),也称费歇线性判别函数,由表中的结果可以说明,这一组的分类函数是这组的分类函数是这组的分类函数是。我们可以计算出每个观测在各组的分类函数值,然后将观测分类到较大的分类函数值中。表1-14是分类矩阵表。预测的群组成员资格(Predicted Group
15、Membership)表示预测的所属组关系,原始(Original)表示原始数据的所属组关系,交叉验证(Cross-validated)表示交叉验证的所属组关系,这里交叉验证是采用“留一个在外”的原则,即每个观测是通过除了这个观测以外的其他观测推导出来的判别函数来分类的。由第4张表可以看出,通过判别函数预测,有147个观测是分类正确的,其中,组50个观测全部被判对,组50个观测中有48个观测被判对,组50个观测中有49个观测被判对,从而有147/150=98%的原始观测被判对。在交叉验证中,组50个观测全部被判对,组50个观测中有48个观测被判对,组50个观测中有49个观测被判对,从而交叉验证
16、有147/150=98%的原始观测被判对。还可以通过分类结果分析判对和判错的百分比。图1-1中可以看到,Setosa鸢尾花与Versicolour鸢尾花和Virginica鸢尾花可以很清晰的区分开,而Versicolour鸢尾花和Virginica鸢尾花这两种之间存在重合区域,即存在误判。我们还可以通过保存(Save)选项选择预测的类别关系和判别得分等,对观测进行诊断。由前面分析我们发现,协方差矩阵不等,可以考虑采用Separate-groups协方差矩阵,选择Separate-groups协方差矩阵,其他选择同上,得分类结果表如下:表1-15分類結果a,c被解释变量預測的群組成員資格總計Se
17、tosa 鸢尾花Versico-lor 鸢尾花Virginica 鸢尾花原始計數Setosa 鸢尾花500050Versico-lor 鸢尾花048250Virginica 鸢尾花014950%Setosa 鸢尾花100.0.0.0100.0Versico-lor 鸢尾花.096.04.0100.0Virginica 鸢尾花.02.098.0100.0交叉驗證b計數Setosa 鸢尾花500050Versico-lor 鸢尾花048250Virginica 鸢尾花014950%Setosa 鸢尾花100.0.0.0100.0Versico-lor 鸢尾花.096.04.0100.0Virgin
18、ica 鸢尾花.02.098.0100.0a. 98.0% 個原始分組觀察值已正確地分類。b. 僅會針對分析中的那些觀察值進行交叉驗證。在交叉驗證中,每一個觀察值都會依據從該觀察值之外的所有觀察值衍生的函數進行分類。c. 98.0% 個交叉驗證已分組觀察值已正確地分類。图1-2由第表1-15可以看出,通过判别函数预测,有146个观测是分类正确的,其中,组50个观测全部被判对,组50个观测中有47个观测被判对,组50个观测中有49个观测被判对,从而有146/150=97.3%的原始观测被判对。图1-2为分类结果图,从图中可以看到,Setosa鸢尾花与Versicolour鸢尾花和Virginic
19、a鸢尾花可以很清晰的区分开,而Versicolour鸢尾花和Virginica鸢尾花这两种之间存在重合区域,即存在误判。综上可以看出,采用Separate-groups协方差矩阵与采用Within-groups协方差矩阵的预测效果没有明显的差别,因此,可以采用Within-groups协方差矩阵来进行判别。(二)实验数据如下:图2-1如图2-1,为了研究2008年全国各地区城镇居民家庭人均消费支出情况,按人均收入、人均GDP以及消费支出将29个省、市、自治区(除天津和陕西以外)分为三种类型,设置group变量取值分别为1、2、3。 X1人均食品支出 (元/人),x2人均衣着支出(元/人),x3
20、人均住房支出 (元/人) ,x4人均家庭设备及服务支出(元/人),x5人均交通和通信支出(元/人),x6人均文教娱乐用品及服务支出(元/人),x7人均医疗保健支出(元/人),x8其他商品及服务支出(元/人)。表2-1群組平均值的等式檢定Wilks Lambda ()Fdf1df2顯著性人均食品支出.26938.024228.000人均衣着支出.7325.128228.013人均住房支出.53512.164228.000人均家庭设备及服务支出.44717.306228.000人均交通和通信支出.5879.846228.001人均文教娱乐用品及服务支出.35125.845228.000人均医疗保健
21、支出.26838.253228.000输出结果表2-1,是各组变量的描述统计分析。表2-2是对各组均值是否相等的检验。可以看出,在0.05的显著性水平上我们拒绝变量X1人均食品支出,x2人均衣着支出,x3人均住房支出,x4人均家庭设备及服务支出,x5人均交通和通信支出,x6人均文教娱乐用品及服务支出,x7人均医疗保健支出,x8其他商品及服务支出在三组的均值相等的假设,即认为变量X1人均食品支出,x2人均衣着支出,x3人均住房支出,x4人均家庭设备及服务支出,x5人均交通和通信支出,x6人均文教娱乐用品及服务支出,x7人均医疗保健支出,x8其他商品及服务支出在三组的均值是有显著性差异的表2-2聯
22、合組內矩陣x1x2x3x4x5x6x7x8相關x11.000.187.503.305-.024.841.549.740x2.1871.000.128.387.517.213.540.452x3.503.1281.000.504.253.662.627.423x4.305.387.5041.000.439.425.780.546x5-.024.517.253.4391.000-.003.396.106x6.841.213.662.425-.0031.000.651.676x7.549.540.627.780.396.6511.000.653x8.740.452.423.546.106.676.6
23、531.000表2-3對數行列式Group等級對數行列式1.a.b2877.6523869.501聯合組內880.469列印的行列式等級及自然對數是群組共變異數矩陣的等級及自然對數。a. 等級 5b. 作為非單數的觀察值太少表2-4測試結果aBoxs M 共變異等式檢定172.887F近似值2.837df136df21524.161顯著性.000檢定相等母體共變異數矩陣的虛無假設。a. 部分共變異數矩陣是單數,且普通程序不會運作。非單數群組將根據它們自己的聯合組內共變異數矩陣進行檢定。它的行列式對數為 81.805。输出结果表2-2,表2-3,表2-4是对各组协方差矩阵是否相等的BoxM检验。
24、第1张表反映协方差矩阵的秩和行列式的对数值。由行列式值可以看出协方差矩阵不是病态矩阵。第2张表是对各总体协方差阵是否相等的统计检验。由值及其显著水平,我们在0.05的显著性水平下拒绝原假设(原假设假定各总体协方差阵相等)。因此,在分类(Classify)选项中的协方差矩阵选择可以考虑采用Separate-groups,以检验采用Within-groups和Separate-groups两种协方差所得出的结果是否存在显著差异。如果存在显著差异就应该采用Separate-groups协方差矩阵,反之,就用Within-groups协方差矩阵。表2-5特徵值函數特徵值變異的 %累加 %典型相關性16
25、.260a68.868.8.92922.840a31.2100.0.860a. 前 2 個典型區別函數用於分析。表2-6Wilks Lambda ()函數的檢定Wilks Lambda ()卡方df顯著性1 至 2.03674.87616.0002.26030.2737.000输出结果表2-5,表2-6分析的是典型判别函数。第1张表反映判别函数的特征值、解释方差的比例和典型相关系数。第一判别函数解释了68.6的方差,第二判别函数解释了31.2%的方差,两个判别函数解释了全部方差。第2张表是对两个判别函数的显著性检验。由Wilks Lambda检验,认为两个判别函数在0.05的显著性水平上是显著
26、的。 表2-7標準化典型區別函數係數函數12人均食品支出.909-1.213人均衣着支出-.601.221人均住房支出-.336.246人均家庭设备及服务支出-.139-.668人均交通和通信支出.462.501人均文教娱乐用品及服务支出-.3521.123人均医疗保健支出.961.421表2-8結構矩陣函數12人均食品支出.750*-.162人均医疗保健支出.726*.420人均文教娱乐用品及服务支出.611*.223人均家庭设备及服务支出.502*.162人均交通和通信支出.257.564*人均衣着支出.145.467*人均住房支出.374.404*. 每一個變數與任何區別函數之間最大的絕對相關性表2-9典型區別函數係數函數12人均食品支出.002-.002人均衣着支出-.003.001人均住房支出-.002.001人均家庭设备及服务支出-.001-.005人均交通和通信支出.002.003人均文教娱乐用品及服务支出-.001
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1