02特征选择与特征提取.docx

上传人:b****2 文档编号:23004932 上传时间:2023-04-30 格式:DOCX 页数:18 大小:435.03KB
下载 相关 举报
02特征选择与特征提取.docx_第1页
第1页 / 共18页
02特征选择与特征提取.docx_第2页
第2页 / 共18页
02特征选择与特征提取.docx_第3页
第3页 / 共18页
02特征选择与特征提取.docx_第4页
第4页 / 共18页
02特征选择与特征提取.docx_第5页
第5页 / 共18页
点击查看更多>>
下载资源
资源描述

02特征选择与特征提取.docx

《02特征选择与特征提取.docx》由会员分享,可在线阅读,更多相关《02特征选择与特征提取.docx(18页珍藏版)》请在冰豆网上搜索。

02特征选择与特征提取.docx

02特征选择与特征提取

一.实验目的

1、熟悉MATLAB中神经网络工具箱的使用方法;

2、了解主成分分析算法的原理;

3、掌握主成分分析算法的特点;

4、掌握使用主成分分析算法算法解决实际问题的方法。

二.实验原理

主成分分析法

主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。

在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。

这些涉及的因素一般称为指标,在多元统计分析中也称为变量。

因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。

在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。

主成分分析正是适应这一要求产生的,是解决这类题的理想工具。

主成分分析法是一种数学变换的方法,它把给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。

在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。

依次类推,I个变量就有I个主成分。

这种方法避免了在综合评分等方法中权重确定的主观性和随意性,评价结果比较符合实际情况;同时,主成份分量表现为原变量的线性组合,如果最后综合指标包括所有分量,则可以得到精确的结果,百分之百地保留原变量提供的变差信息,即使舍弃若干分量,也可以保证将85%以上的变差信息体现在综合评分中,使评价结果真实可靠。

是在实际中应用得比较广的一种方法。

由于其第一主成份(因子)在所有的主成分中包含信息量最大,很多学者在研究综合评价问题时常采用第一主成分来比较不同实体间的差别。

综上所述,该方法的优点主要体现在两个方面:

1.权重确定的客观性;2.评价结果真实可靠。

1.主成分分析的基本原理

主成分分析:

把原来多个变量划为少数几个综合指标的一种统计分析方法,是一种降维处理技术。

记原来的变量指标为x1,x2,…,xP,它们的综合指标——新变量指标为z1,z2,…,zm(m≤p),则

z1,z2,…,zm分别称为原变量指标x1,x2,…,xP的第一,第二,…,第m主成分,在实际问题的分析中,常挑选前几个最大的主成分。

①zi与zj(i≠j;i,j=1,2,…,m)相互无关;

②z1是x1,x2,…,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,…,xP的所有线性组合中方差最大者;……;zm是与z1,z2,……,zm-1都不相关的x1,x2,…,xP的所有线性组合中方差最大者。

2.主成分分析的计算步骤

①计算相关系数矩阵

②计算特征值与特征向量

③计算主成分贡献率及累计贡献率

④计算主成分载荷

三实验步骤

3.1主成分分析计算步骤

计算相关系数矩阵

(1)

在(3.5.3)式中,rij(i,j=1,2,…,p)为原变量的xi与xj之间的相关系数,其计算公式为

(2)

因为R是实对称矩阵(即rij=rji),所以只需计算上三角元素或下三角元素即可。

计算特征值与特征向量

首先解特征方程

,通常用雅可比法(Jacobi)求出特征值

,并使其按大小顺序排列,即

;然后分别求出对应于特征值

的特征向量

这里要求

=1,即

,其中

表示向量

的第j个分量。

计算主成分贡献率及累计贡献率

主成分

的贡献率为

累计贡献率为

一般取累计贡献率达85—95%的特征值

所对应的第一、第二,…,第m(m≤p)个主成分。

计算主成分载荷

其计算公式为

(3)

得到各主成分的载荷以后,还可以按照(3.5.2)式进一步计算,得到各主成分的得分

3.2程序运行结果

主成分表达式的系数矩阵COEFF如下:

COEFF=

Columns1through7

0.34310.50350.3199-0.0540-0.0233-0.49610.2838

0.3384-0.4866-0.46980.4032-0.3003-0.22400.2427

0.35520.1968-0.5365-0.57590.09540.39150.0612

0.36920.1088-0.0094-0.1808-0.5714-0.2354-0.5508

0.3752-0.05470.1748-0.06440.02460.09810.6231

0.3587-0.22080.54630.1209-0.19230.5930-0.1221

0.3427-0.47830.1450-0.23900.6201-0.3271-0.2901

0.34410.4225-0.19770.62790.38930.1638-0.257

Column8

-0.4431

-0.2573

-0.2225

0.3657

0.6504

-0.3255

0.0034

0.1590

主成分得分数据SCORE如下:

SCORE=

Columns1through7

5.9541-2.22030.6308-0.0527-0.2786-0.4948-0.0248

0.3308-0.8350-0.3055-0.12950.2685-0.20110.4443

-0.8923-0.2047-0.3571-0.3368-0.12100.2988-0.0114

-0.8222-0.7077-0.10500.5950-0.42690.35000.0184

0.0111-0.67500.40510.26690.32060.24720.1237

0.4487-0.3683-0.21490.83150.27080.0292-0.0439

-0.1213-0.63480.20320.46770.6190-0.1036-0.1593

-0.2357-0.7793-0.4848-0.03490.40700.30550.1748

9.24521.3354-0.7018-0.19340.25780.0228-0.3668

2.47970.53790.77650.5676-0.22020.52120.0028

5.7951-0.0460-0.0430-0.5484-0.33180.19850.2888

-1.0918-0.04930.1110-0.2043-0.27710.1090-0.1961

0.93180.82560.09180.3878-0.3151-0.07780.4663

-1.03740.44330.2810-0.1418-0.0208-0.10320.1334

0.5439-0.20520.1717-0.2251-0.43860.3177-0.0285

-1.0741-0.0907-0.5337-0.1937-0.11480.2357-0.1254

-0.43190.64150.16610.4258-0.0538-0.1051-0.3750

-0.26980.61920.33320.07170.1751-0.2811-0.2288

0.84841.64590.05540.16090.4701-0.25580.3650

-1.64560.69750.1665-0.66830.1120-0.00280.0628

-1.78880.98740.53130.25430.09040.12840.1263

-1.69860.15890.4479-0.2121-0.3020-0.5301-0.1798

-1.31300.29890.1663-0.1472-0.1935-0.5380-0.0793

-2.79810.27840.0289-0.1842-0.13930.22180.0652

-1.72170.2685-0.0307-0.74780.08200.0613-0.0149

-1.83860.3280-1.14740.6183-0.7418-0.2957-0.0234

-1.2350-0.47210.0308-0.20180.24900.4568-0.2382

-2.4005-0.22290.2867-0.2980-0.07230.1464-0.1408

-1.3999-0.4905-0.1902-0.13860.1306-0.47140.0446

-1.1873-0.3604-0.27170.05060.4491-0.0665-0.1732

-1.5850-0.7043-0.4983-0.03960.1457-0.12330.0934

Column8

-0.0017

-0.1510

0.2755

-0.2306

-0.0773

-0.0044

0.0630

-0.1405

-0.1275

0.0668

0.0399

-0.0102

0.1275

-0.1716

0.2331

0.1530

0.1054

-0.2121

0.1364

-0.0401

-0.0017

-0.0768

-0.0238

-0.1352

-0.1721

-0.0857

-0.0038

-0.0101

0.3488

0.1878

-0.0610

样本相关系数矩阵的特征值向量latent如下:

latent=

6.8645

0.5751

0.1689

0.1450

0.0989

0.0838

0.0429

0.0209

每个观测的霍特林T2统计量如下:

tsquare=

19.8320

8.8021

6.5783

9.3362

4.6669

6.1060

7.2411

6.9117

23.3204

11.1360

10.5853

2.3586

9.3238

3.0621

6.4126

4.4109

6.1294

5.9990

12.0246

4.7812

4.9300

7.2740

4.7256

3.2727

5.9570

18.0844

5.3358

2.8002

9.7476

5.3676

3.4868

'特征值''差值''贡献率''累积贡献率'结果如下:

result1=

'特征值''差值''贡献率''累积贡献率'

[6.8645][6.2894][85.8068][85.8068]

[0.5751][0.4062][7.1889][92.9957]

[0.1689][0.0240][2.1115][95.1072]

[0.1450][0.0461][1.8121][96.9192]

[0.0989][0.0151][1.2359][98.1552]

[0.0838][0.0409][1.0477][99.2029]

[0.0429][0.0220][0.5362][99.7391]

[0.0209][][0.2609][100]

前2个主成分表达式的系数数据如下:

result2=

'标准化变量''特征向量t1''特征向量t2'

'食品'[0.3431][0.5035]

'衣着'[0.3384][-0.4866]

'居住'[0.3552][0.1968]

'家庭设备及服务'[0.3692][0.1088]

'交通和通讯'[0.3752][-0.0547]

'文教娱乐用品及服务'[0.3587][-0.2208]

'医疗保健'[0.3427][-0.4783]

'其他商品及服务'[0.3441][0.4225]

前两个主成分得分散点图如下:

result3=

'地区''总支出''第一主成分得分y1''第二主成分得分y2'

'贵州'[-7.9244][-2.7981][0.2784]

'甘肃'[-6.8088][-2.4005][-0.2229]

'西藏'[-5.1593][-1.8386][0.3280]

'海南'[-5.0717][-1.7888][0.9874]

'云南'[-4.8831][-1.7217][0.2685]

'重庆'[-4.8094][-1.6986][0.1589]

'广西'[-4.6805][-1.6456][0.6975]

'新疆'[-4.4480][-1.5850][-0.7043]

'青海'[-3.9552][-1.3999][-0.4905]

'四川'[-3.7103][-1.3130][0.2989]

'陕西'[-3.4989][-1.2350][-0.4721]

'宁夏'[-3.3338][-1.1873][-0.3604]

'安徽'[-3.1095][-1.0918][-0.0493]

'河南'[-3.0509][-1.0741][-0.0907]

'江西'[-2.9356][-1.0374][0.4433]

'河北'[-2.5584][-0.8923][-0.2047]

'山西'[-2.3071][-0.8222][-0.7077]

'湖北'[-1.2172][-0.4319][0.6415]

'湖南'[-0.7399][-0.2698][0.6192]

'黑龙江'[-0.6333][-0.2357][-0.7793]

'吉林'[-0.2984][-0.1213][-0.6348]

'内蒙古'[0.0452][0.0111][-0.6750]

'天津'[0.9708][0.3308][-0.8350]

'辽宁'[1.3199][0.4487][-0.3683]

'山东'[1.4800][0.5439][-0.2052]

'广东'[2.4044][0.8484][1.6459]

'福建'[2.6151][0.9318][0.8256]

'江苏'[6.9721][2.4797][0.5379]

'浙江'[16.3346][5.7951][-0.0460]

'北京'[16.8363][5.9541][-2.2203]

'上海'[26.1552][9.2452][1.3354]

 

result4=

Columns1through3

'地区''第一主成分得分y1''第二主成分得分y2'

'北京'[5.9541][-2.2203]

'天津'[0.3308][-0.8350]

'黑龙江'[-0.2357][-0.7793]

'山西'[-0.8222][-0.7077]

'新疆'[-1.5850][-0.7043]

'内蒙古'[0.0111][-0.6750]

'吉林'[-0.1213][-0.6348]

'青海'[-1.3999][-0.4905]

'陕西'[-1.2350][-0.4721]

'辽宁'[0.4487][-0.3683]

'宁夏'[-1.1873][-0.3604]

'甘肃'[-2.4005][-0.2229]

'山东'[0.5439][-0.2052]

'河北'[-0.8923][-0.2047]

'河南'[-1.0741][-0.0907]

'安徽'[-1.0918][-0.0493]

'浙江'[5.7951][-0.0460]

'重庆'[-1.6986][0.1589]

'云南'[-1.7217][0.2685]

'贵州'[-2.7981][0.2784]

'四川'[-1.3130][0.2989]

'西藏'[-1.8386][0.3280]

'江西'[-1.0374][0.4433]

'江苏'[2.4797][0.5379]

'湖南'[-0.2698][0.6192]

'湖北'[-0.4319][0.6415]

'广西'[-1.6456][0.6975]

'福建'[0.9318][0.8256]

'海南'[-1.7888][0.9874]

'上海'[9.2452][1.3354]

'广东'[0.8484][1.6459]

Column4

'(衣+医)-(食+其他)'

[4.0240]

[1.7606]

[1.6033]

[1.0813]

[1.5922]

[0.9055]

[0.9266]

[1.1824]

[0.8755]

[0.4332]

[0.8020]

[0.4119]

[0.3599]

[0.6397]

[0.4638]

[0.1373]

[0.2464]

[-0.2621]

[-0.1981]

[-0.4976]

[-0.4392]

[-0.2510]

[-0.8908]

[-1.7144]

[-1.2835]

[-1.4025]

[-1.1198]

[-1.7662]

[-2.2394]

[-2.1836]

[-3.1971]

4结果分析

 

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 电脑基础知识

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1