判别分析实例汇总Word格式文档下载.docx
《判别分析实例汇总Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《判别分析实例汇总Word格式文档下载.docx(15页珍藏版)》请在冰豆网上搜索。
99.2
88
希腊
23381
78.9
96
99
新加坡
29663
79.4
92.5
87.3
意大利
28529
80.3
98.4
90.6
韩国
22029
第二类:
中等发展水平国家
古巴
6000
77.7
99.8
87.6
罗马尼亚
9060
71.9
97.3
76.8
巴西
8402
71.7
88.6
87.5
泰国
8677
69.6
92.6
71.2
菲律宾
5137
71
81.1
土耳其
8407
71.4
87.4
68.7
第三类:
低发展水平国家
尼泊尔
1550
62.6
48.6
58.1
尼日利亚
1128
46.5
69.1
56.2
喀麦隆
2299
49.8
67.9
62.3
巴基斯坦
2370
64.6
49.9
40
越南
3071
73.7
90.3
63.9
印度尼西亚
3843
69.7
90.4
68.2
待判组
日本
31267
82.3
85.9
印度
3452
63.7
61
63.8
中国
6757
72.5
90.9
南非
11110
50.8
82.4
77
datadevelop;
inputtypegdpliferatezhrate@@;
cards;
14189077.999.593.3
12946179.199.288
12338178.99699
12966379.492.587.3
12852980.398.490.6
12202977.99996
2600077.799.887.6
2906071.997.376.8
2840271.788.687.5
2867769.692.671.2
251377192.681.1
2840771.487.468.7
3155062.648.658.1
3112846.569.156.2
3229949.867.962.3
3237064.649.940
3307173.790.363.9
3384369.790.468.2
.3126782.39985.9
.345263.76163.8
.675772.590.969.1
.1111050.882.477
;
procdiscrimsimplewcovdistancelist;
/*simple:
要求技术各类样品的简单描述统计量;
选项WCOV要求计算类内协方差阵;
选项DISTANCE要求计算马氏距离;
选项LIST要求输出重复替换归类结果。
由于没有给出方法选项,所以系统按缺省时的正态分布进行有关参数的估计和归类。
*/
classtype;
vargdpliferatezhrate;
run;
procdiscrimpool=testslpool=0.05list;
/*simple:
*/
priors'
1'
=0.3'
2'
=0.4'
3'
=0.3;
procdiscrimmethod=npark=2list;
proccandiscout=resultncan=2;
procgplotdata=reult;
plotcan1*can2=type;
procdiscrimdata=resultdistancelist;
varcan1can2;
表1已知样本分类水平信息
表2样本统计量信息
表3类间距离及三类总体均值差异的显著性检验
表3给出了类1与类2之间的马氏距离为37.58288,类1与类3之间的马氏距离为75.97603,类2与类3之间的马氏距离为10.91428.类与类之间总体均值的F检验统计量值分布为22.54978,45.58562,22.54973,对应的检验概率分别为<
0.0001,<
0.0001,<
0.0001,说明三类总体均值两辆之间的差异是显著的,因此判别分析有意义。
表4线形判别函数
由表4可写出线形判别函数如下:
高发展水平:
y1=-157.18932+0.00204gdp+1.66582life-0.37085rate+1.72851zhrate
中等发展水平Y2=-99.12840+0.0006250gdp+1.49389life-0.09262rate+1.19559zhrate
低发展水平:
Y3=-62.22473+0.0002576gdp+1.31631life-0.08940rate+0.85253zhrate
表5:
用距离判别法判别分析结果
由表5得,最后四个观测的归类结果为19号(日本)观测为高发展水平国家,第20号(印度)为第3类,即低发展水平国家,21号(中国)和22号(南非)归为中等发展水平国家。
表6距离判别法判别分析结果小结
表6给出了分类错误信息,由输出结果可知分类错误的比率为0,即正确的比率为100%。
本程序中第二个判别分析过程的选项“pool=test”,要求进行类内协方差阵一致性检验,检验的显著性水平由选项”slpool=0.05”给出为0.05.priors语句给出了各发展水平国家的先验概率。
表7分类信息及类内协方差阵一致性检验结果
表7表明3个类的先验概率分别为0.3,0.4,0.3,类内协方差阵行列式的自然对数不相等,表明类内协方差阵不相等,而卡方统计量值为46.068898,对应的概率是0.0008,在0.05的显著性水平下是显著的,即类内协方差阵存在显著差异。
由于类内协方差阵不等,所以判别函数应是二次函数。
表8类间配对广义马氏距离
由表8可知,类内广义马氏距离不再为0,而且类间的广义马氏距离也不再相等,因而类内协方差和先验概率对后验概率的计算是起作用的。
表9用Bayes判别法得到的判别分析部分结果
由表9可知,用BAYES判别法对待判样品的判别结果与距离判别法结果一致。
本程序中的第三个过程要求进行非参数分析,即对类密度函数进行非参数估计。
选项K=2要求用最近邻的两个样品进行密度函数估计,选项list要求输出重复替换归类结果。
该过程运行结果如下:
表10用NPAR方法得到的判别分析部分结果
由表10可知,4个待判的样品中19号和21号归类结果与BAYES判别归类结果是一致的,但20号和22号所属类别则不能确定,这是与前面2中判别方法结果不一致的地方。
第四种FISHER判别:
第一个过程执行典型判别分析。
第二个过程要求绘制第一个典型变量CAN1和第二个典型变量CAN2的散点图,以便更加直观了解分类情况。
第一、二个过程输出结果如下:
表11典型相关的多变量检验结果
由上表对相关阵的显著性检验结果可知,至少有
表12典型相关与特征值
上表可知,第一典型相关为0.969875,而第二典型相关为0.653396。
第一个特征值为15.8514,所占比例为95.51%,第二个特征值为0.7450,所占比例仅有4.49%,说明只需用第一个典型变量即可。
表13原始变量的典型相关系数
由表12可得两个典型变量分别为:
CAN1=0.0002096544gdp+0.0382960552life-0.0346472260rate+0.0988009134zhrate
Can2=-0.0001135485gdp+0.0394378902life+0.0500655661rate+0.0390500134zhrate
表14类间马氏距离及各类总体均值的显著性检验
由上表的显著性概率可知,在0.05的显著性水平下,三个类的总体均值两两显著不等。
表15线性判别函数
由表15得3个类的线形判别函数分别为:
Y1=-12.01131+4.88922can1-0.34378can2
Y2=-1.16768-1.07130can1+1.08981can2
y3=-7.56654-3.81792can1-0.74604can2
表16由DISCRIM利用两个典型变量进行判别部分样品归类结果
上表分类结果与前几种分类方法结果一样,总错判率为0.