主成份分析.docx

上传人:b****4 文档编号:3762440 上传时间:2022-11-25 格式:DOCX 页数:22 大小:41.36KB
下载 相关 举报
主成份分析.docx_第1页
第1页 / 共22页
主成份分析.docx_第2页
第2页 / 共22页
主成份分析.docx_第3页
第3页 / 共22页
主成份分析.docx_第4页
第4页 / 共22页
主成份分析.docx_第5页
第5页 / 共22页
点击查看更多>>
下载资源
资源描述

主成份分析.docx

《主成份分析.docx》由会员分享,可在线阅读,更多相关《主成份分析.docx(22页珍藏版)》请在冰豆网上搜索。

主成份分析.docx

主成份分析

例13.3.1北京1951~1976年冬季的气温资料如表13.3.1.此时变量个数p=3,对这些资料进行主成份分析.

第一列为年份,X1为12月份平均气温,X2为1月份平均气温,X3为2月份平均气温.

表13.3.1北京冬季气温

年份

X1

X2

X3

1951

1.0

-2.7

-4.3

1952

-5.3

-5.9

-3.5

1953

-2.0

-3.4

-0.8

1954

-5.7

-4.7

-1.1

1955

-0.9

-3.8

-3.1

1956

-5.7

-5.3

-5.9

1957

-2.1

-5.0

-1.6

1958

0.6

-4.3

-0.2

1959

-1.7

-5.7

2.0

1960

-3.6

-3.6

1.3

1961

3.0

-3.1

-0.8

1962

0.1

-3.9

-1.1

1963

-2.6

-3.0

-5.2

1964

-1.4

-4.9

-1.7

1965

-3.9

-5.7

-2.5

1966

-4.7

-4.8

-3.3

1967

-6.0

-5.6

-4.9

1968

-1.7

-6.4

-5.1

1969

-3.4

-5.6

-2.9

1970

-3.1

-4.2

-2.0

1971

-3.8

-4.9

-3.9

1972

-2.0

-4.1

-2.4

1973

-1.7

-4.2

-2.0

1974

-3.6

-3.3

-2.0

1975

-2.7

-3.7

0.1

1976

-2.4

-7.6

-2.2

注:

所示年份的冬季指当年12月份、翌年1月份和2月份.

我们采用如下程序作主成份分析:

datatemperat;

inputyearDecJanFeb;

cards;

1951

1.0

-2.7

-4.3

1952

-5.3

-5.9

-3.5

1953

-2.0

-3.4

-0.8

1954

-5.7

-4.7

-1.1

1955

-0.9

-3.8

-3.1

1956

-5.7

-5.3

-5.9

1957

-2.1

-5.0

-1.6

1958

0.6

-4.3

-0.2

1959

-1.7

-5.7

2.0

1960

-3.6

-3.6

1.3

1961

3.0

-3.1

-0.8

1962

0.1

-3.9

-1.1

1963

-2.6

-3.0

-5.2

1964

-1.4

-4.9

-1.7

1965

-3.9

-5.7

-2.5

1966

-4.7

-4.8

-3.3

1967

-6.0

-5.6

-4.9

1968

-1.7

-6.4

-5.1

1969

-3.4

-5.6

-2.9

1970

-3.1

-4.2

-2.0

1971

-3.8

-4.9

-3.9

1972

-2.0

-4.1

-2.4

1973

-1.7

-4.2

-2.0

1974

-3.6

-3.3

-2.0

1975

-2.7

-3.7

0.1

1976

-2.4

-7.6

-2.2

 ;

 procprincompdata=temperatcovoutstat=prin;

 varDecJanFeb;

 procprintdata=prin;

 run;

程序在DATA步中名为Temperat的数据集,该数据集包括四个变量year、Dec、Jan、Feb.

procprincomp语句用来调用princomp过程,处理的数据为Temperat(由data=表明),cov表明从协差阵出发,outstat=prin表明建立输出集名.Prin.var语句表明对Dec、Jan、Feb变量作主成份分析.

Procprint语句调用print过程用以打印outstat=prin的数据集.

当以上程序执行后,在OUTPUT窗口输出以下结果;

PrincipalComponentAnalysis

26Obsevations

3Variables

SimpleStatistics

DEC

JAN

FEB

Mean

-2.742307692

-4.592307632

-2.270376923

Std

1.859069246

1.72662979

1.960929921

CovarianceMatrix

DEC

JAN

FEB

DEC

3.456138942

0.715935462

0.966784615

JAN

0.715938462

1.375138462

0.364984315

FEB

0.966784615

0.364984615

3.84526154

上表给出样本协方差矩阵.

TotalVariance=8.6765230769

EigenvaluesoftheCovarianceMartrix

Eigenvalue

Dirfference

Proportion

Cumulative

PRIN1

4.79742

2.06927

0.552919

0.55292

PRIN2

2.72815

1.57720

0.314429

0.86735

PRIN3

1.15095

0.132652

1.00000

Eigenvectors

PRIN1

PRIN2

PRIN3

DEC

0.643587

0.709882

-0.286116

JAN

0.213039

0.192899

0.957812

FEB

0.735126

-0.6773900

-0.027085

上表给出协差阵的三个特征值分别为

λ1=4.7942,λ2=2.72815,λ3=1.15095

对应的特征向量分别为

t1=(0.6435870,0.213039,0.735126),t2=(0.709882,0.192899,-0.67390),t3=(-0.286116,0.957813,-0.27085).

由此可得第一主成份

PRIN=0.643587DEC+0.709882JAN-0.286116FEB.

第二、三个主成份类似可得,由累计特征值可知:

只要用第一、第二两个主成份就能够很好地概括这组数据了,此两个主成份解释了总方差86.7%.

最后一个表打印数据集PRIN,其中包括各观测值第一主成份和第二主成份的值,限于篇幅,不再印出.

2.因子分析

例13.5.1选拔职员对应聘人员测验6门科目:

词汇、阅读、同义词、算术、代数、微积分记为x1,x2,x3,y1,y2,y3,将所有应聘者的考试成绩作计算机处理,得样本相关阵,试对这六科成绩作因子分析.样本相关阵为

对此问题采用程序

datascore(type=corr);

type=’corr’;

inputnamc$x1x2x3y1y2y3;

cards;

procfactordata=score;

varx1x2x3y1y2y3;

title3’principalcomponentanalysis’;

procfactordata=scorepriors=maxn=2

preplotrotate=vplotoutstat=fact;

varx1x2x3y1y2y3;

title3,principalfactoranalysiswithvarimaxrotation,;

procprintdata=fact;

run;

以上程序DATA步用以建立名为SCORE数据库,其类型为CORR即相关阵,其中x1,x2,x3分别表示词汇、阅读、同义词,y1,y2,y3分别表示算术、代数、微积分.

第一个PROCFACTOR语句用来调用因子分析过程对相关阵作因子分析,提取因子的方法缺省,所以作主成分因子分析.其输出结果见下表:

principalcomponentanalysis

IntialFactorMethod:

PrincipalComponents

PriorcommunalityEstimated:

ONE

EigenvaluesoftheCorrelationMatrix:

Total=6Average=1

1

2

3

4

5

6

Eigenvalue

2.601939

1.973989

0.44909

0.441947

0.276921

0.256114

Difference

0.627950

1.524899

0.007143

0.165026

0.020807

Proportion

0.4337

0.3290

0.0748

0.0737

0.0462

0.0427

Cumulative

0.4337

0.7627

0.8375

0.9112

0.9573

1.0000

2factorswillberetainedbytheMINEIGENcriterion

FactorPattern

FACTOR1

FACTOR2

X1

0.63886

-0.64383

X2

0.68425

-0.55009

X3

0.65163

-0.51949

Y1

0.65163

0.51949

Y2

0.68425

0.55009

Y3

0.63886

0.64383

Varianceexplainedbyeachfactor

FACTOR1FACTOR2

2.6019391.973989

FinalCommunalityEstimated:

total=4.575929

X1

X2

X3

Y1

Y2

Y3

0.822664

0.770806

0.694494

0.694494

0.770806

0.822664

由输出结果可得:

(1)先验公因子方差估计按缺少规定取为1.

(2)相关阵有两个大的特征值2.601939,1.973989.

它们一起解释了总信息的76.27%,而其它4个特征值都很小,由此仅提取两个公因子.

(3)由因子模型可见,公因子1(FACTOR1)在六个变量上的载荷都在0.65的附近,此因子反映了考生的平均综合能力.第二个公因子在x1,x2,3,y1,y2,y3上有负载荷,它反映了语文能力和数学能力是两种不同的能力,以及两者之间的差异.

(4)由每个因子对方差的解释一项可见,第一因子解释的方差是2.601929,它占信息量的43.37%,第二个是1.973989,它解释总信息量的32.9%.说明第一个因子最重要,第二个次之.

(5)最后一项输出了两个公因子对各个变量的影响,即h1=0.822664,…,h6=0.822664.

第二个PROCFACTOR语句中没有规定提取因子的方法,但规定了先验公因子方差估计,使用它同其余任一变量相关的最大值(PRIORS=MAX),所以此时执行主因子分析,同时要求提取两个因子(n=2),还要求打印没有旋转的因子模型图(PREPLPOT).POTATE=V要求产生方差最大旋转,PLOT要打印旋转后的因子模型图.此程序的丰富输出结果见下列诸表:

principalfactoranalysiswithvarmaxrotation

InitialFactorMcthod:

PrincipalFactors

PriorCommunalityEstimated:

MAX

X1

X2

X3

Y1

Y2

Y3

0.7222

0.720000

0.720000

0.720000

0.720000

0.720000

EigenvaluesoftheReducedCorrelationMatrix:

Total=4.14Average=0.69

1

2

3

4

5

6

Eigenvalue

2.293373

1.670403

0.105406

-0.008058

-0.028779

Difference

0.622971

1.562748

0.002249

0.113464

0.020722

Proportion

0.5540

0.4035

0.0260

0.0255

-0.0019

-0.0070

Cumulativ

0.5540

0.9574

0.9834

1.0089

1.0070

1.0000

2factorswillberetainedbytheNFACTORcriterion

FactorPattern

FACTOR1

FACTOR2

X1

0.50740

0.60099

X2

0.65111

0.51416

X3

0.59482

0.45788

Y1

0.59482

-0.45788

Y2

0.65111

-0.51416

Y3

0.60740

-0.60099

Varianceexplainedbyeachfactor

FACTOR1FACTOR2

2.2933731.670403

FinalCmmunalityEstimated:

Total=3.963776

X1

X2

X3

Y1

Y2

Y3

0.730118

0.688310

0.563460

0.56340

0.688310

0.730118

上表给出了:

(1)特征值表,前两个特征值较大,它们一起共占了公共方差的95.74%,因此取两个因子(n=2)是很合理.

(2)给出了因子模型以及每个因子对方差的贡献,及公共因子对于每个变量的贡献,及公共因子对于每个变量的贡献.两个因子的含义也和主分量因子分析类似.打印出散点图略去,读者可自行打印,从结果中可见六个变量可以为两种类型,x1,x2,x3和y1,y2,y3各为一类,两个因子轴都没有穿过此两类,表明两个因子都只是综合地反映两种能力,分解得不好.

principalfactoranalytsiswithvarmaxrotation

RotationMethod:

Varimax

OrthogonalTransformationMatrix

1

2

1

0.70711

0.70711

2

-0.70711

0.70711

RotatedFactorPattern

FACTOR1

FACTOR2

X1

0.00454

0.85446

X2

0.09684

0.82397

X3

0.09683

0.74437

Y1

0.74437

0.09683

Y2

0.82397

0.09684

Y3

0.85446

0.0054

Varianceexplainedbyeachfactor

FACTOR1FACTPR2

1.9818881.981888

FinalCommunalityEstimated:

Total=3.963776

X1

X3

3

Y1

Y2

Y3

0.730118

0.688310

0.563460

0.563460

0.688310

0.730118

上表给出了方差最大正交旋转矩阵和旋转后的因子模型.由旋转后的因子模型可见变量x1,x2,x3在第一个因子上的载荷很小,而在第二因子上的载荷较大.y1,y2,y3则正好相反,这表明通过旋转以后得到的两个公因子把语文能力和数学能力很好地区分开了,第一个因子反映的是数学能力,第二个因子反映的是语文能力.输出的第二图略去,从图中可见区分结果:

x1,x2,x3在因子轴2上,y1,y2,y3在轴1上.由此例也表明了更好地解释因子使用一定的旋转方法是必要的.

习题十三

1为了分析美国犯罪情况,统计7种罪行的犯罪率,7种犯罪为MURDER(谋杀),RAPE(强奸),POBBERY(抢劫),ASSAULT(斗殴),BURGLARY(夜盗罪),LARCENY(偷窃),AUTO(汽车犯罪),以50个州里平均每100000人犯罪人数为7个变量的50次观察数据见SAS程序.要把这7个变量画成散点图作为分析是不可能的,用主成分分析把7个变量综合成2~3个主成份,则有助于分析这组数据.为此,我们用SAS过程.

datacrime;

title,CrimeRaesper100000populationbySytate,;

inputstate$1-15murderraperobberyassaultburglarylarcenyauto;

cards;

Alabama

14.2

25.2

96.8

278.3

1135.5

1881.9

280.7

Alaska

10.8

5106

96.8

284.0

1331.7

3369.8

753.3

Arizona

9.5

34.2

138.2

312.3

2346.1

4467.4

439.5

Arkansas

8.8

27.6

83.2

203.4

972.6

1862.1

183.4

California

11.5

49.4

287.0

358.0

2139.4

3499.8

663.5

Colorada

6.3

42.0

170.0

292.9

1935.2

3903.2

477.1

Connectieat

4.2

16.8

129.5

131.8

1346.0

2620.7

593.2

Delaware

6.0

24.9

157.0

194.2

1682.6

3678.4

467.0

Florida

10.2

39.6

187.9

449.1

1859.9

3840.5

351.4

Georgia

11.7

31.1

140.5

256.5

1351.1

2170.2

297.9

Hawaii

7.2

25.5

128.0

64.1

1911.5

3920.4

489.4

Idaho

5.5

19.4

39.6

172.5

1050.8

2599.6

237.6

Illinois

9.9

21.8

211.3

209.0

1085.0

2828.5

528.6

Indiana

7.4

26.5

123.2

153.5

782.2

1662.1

245.5

Iowa

2.3

10.6

41.2

89.8

812.5

2685.1

219.9

Kansas

6.6

22.0

100.7

180.5

1270.4

2739.3

244.3

Kentucky

10.1

19.1

81.1

123.3

872.2

1552.1

245.4

Louisiana

15.5

30.9

142.9

33535

1165.5

2469.9

337.7

Maine

2.4

13.5

38.7

170.0

1253.2

2350.7

246.9

Maryland

8.0

34.8

292.1

358.9

1400.0

3177.7

428.5

Massachusetts

3.1

20.8

169.1

231.6

1532.2

2311.3

1140.1

Michigan

9.3

38.9

261.9

274.6

1522.7

3159.0

545.5

Minnsota

2.7

19.5

85.9

85.8

1134.7

2559.3

343.1

Mississippi

14.3

19.6

65.7

189.1

915.6

1239.9

144.4

Missouri

9.6

28.3

189.0

233.5

1318.3

2424.2

378.4

Montana

5.4

16.7

39.2

156.8

804.9

2316.1

309.2

Nebraska

3.9

18.1

64.7

112.7

760.0

2773.2

249.1

Nevada

5.8

49.1

323.1

355.0

2453.1

4212.6

559.2

NewHampshire

3.1

10.7

23.2

76.0

1041.7

2343.9

293.4

NewMexico

9.8

39.1

109.6

343.4

1418.7

3008.6

259.5

NewYork

10.7

29.4

472.6

319.1

1728.0

2782.0

745.8

NorthCarolina

10.6

17.0

61.3

318.3

1154.1

2037.8

192.1

NorthDakota

0.9

9.0

13.3

43.8

446.1

1843.0

144.7

Ohio

7.8

27.3

190.5

181.1

1216.0

2696.8

400.4

Oklahoma

8.6

29.2

93.0

205.0

1288.2

2228.1

326.8

Oregon

8.9

39.0

124.1

286.9

1636.4

3506.1

388.9

Pennsylvania

5.6

19.0

130.3

128.0

877.5

1624.1

333.2

RhodeIsland

3.6

10.5

86.5

201.0

1489.5

2844.1

791.4

SouthCarolina

11.9

33.0

105.9

485.3

1613.6

2342.4

245.1

SouthDakota

2.0

13.5

17.9

155.7

570.5

1704.4

147.5

Tennessee

10.1

29.7

145.8

203.9

1259.7

1776.5

314.0

Texas

13.3

33.8

152.4

208.2

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 简历

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1