统计回归01Word格式文档下载.docx

资源描述

统计回归01Word格式文档下载.docx

《统计回归01Word格式文档下载.docx》由会员分享，可在线阅读，更多相关《统计回归01Word格式文档下载.docx（20页珍藏版）》请在冰豆网上搜索。

统计回归01Word格式文档下载.docx

617.17

76.8

3283.73

11.0

1443.40

1380.46

20317

35.3

8020

37.4

镇江

268.78

59.6

1206.69

24.5

363.73

331.36

16775

38.7

7668

39.4

南通

766.13

48.6

2111.88

35.1

633.94

736.54

16451

38.5

6905

扬州

459.25

50.2

1311.89

438.35

418.90

15057

6586

38.9

泰州

500.70

47.6

1201.82

33.2

347.73

321.07

14940

43.1

6469

38.1

徐州

940.95

45.8

1679.56

36.0

769.59

543.01

14875

34.9

5534

39.0

连云港

482.23

40.5

618.18

36.2

409.56

249.08

13254

4828

43.7

淮安

534.00

39.9

765.23

34.8

394.91

269.40

12164

5010

43.2

盐城

809.79

1371.26

34.1

470.06

433.74

13857

6092

41.7

宿迁

531.53

542.00

32.0

256.18

158.87

9468

42.4

4783

46.0

解：

方法同二题

第一步，主成分分析，得到其特征值为：

Columns1through7

0.00050.00950.01390.03020.06690.15440.4604

Columns8through10

0.77761.42527.0613

可见，

占据70.61%，

占据14.25%，

占据7.78%

因此，选择后三项做主成分，并进行模糊聚类。

选取

截集等于0.74，得到第一类：

12810111213

降低

为0.6，得到第二类：

继续降低，得到第三类：

4679

因此，对比发现，与题中的传统分类有一定的差距

2.试根据附件一数据对全国35所城市进行分类，划分出一二三线城市群体。

由于衡量指标有9种，过多不易聚类，所以，采用主成分分析，对9个指标挑选主要成分，再对主要成分进行聚类，可得一二三线城市的划分。

分别对九个指标进行主成分分析：

1.年末总人口数_市辖区

2.地区生产总值（GDP）_市辖区

3.客运总量_市辖区

4.货运总量

5.地方财政预算内收入_市辖区

6.固定资产投资总额_市辖区

7.城乡居民储蓄年末余额_市辖区

8.在岗职工平均人数_市辖区

9.在岗职工工资总额_市辖区

得到特征向量：

0.00710.01100.03030.03370.10210.27780.6845

Columns8through9

0.99536.8582

可见，第9、8、7个因素占据主导地位，且三者和在特征向量中的比重大于85%，因此后续的聚类以这三个为准，对35个国家和地区进行以这三个指标为标准进行聚类。

第二步，进行聚类分析

以城乡居民储蓄年末余额_市辖区、在岗职工平均人数_市辖区、在岗职工工资总额_市辖区这三因素进行聚类，得到模糊相似矩阵以及模糊等价矩阵，见excel表格，并选取

截集，当

取0.6时，选择出1、10、23号。

当

取0.5时，选择出1、2、10、23三个城市，发现正好是：

北京、天津、上海、广州这四座城市，同时该结果十分符合常识！

并将此定为一线城市。

继续降低

取0.2时，选得1、2、6、7、9、10、11、21、23、24、27、28、31，发现，这13座城市除去一线城市后为6、7、9、11、21、24、27、28、31，二线城市分别为：

沈阳市、大连市、哈尔滨市、南京市、武汉市、深圳市、重庆市、成都市、西安市

其余的22个城市定为三线城市，分别为：

石家庄、太原市、呼和浩特、长春市、杭州市、宁波市、合肥市、福州市、厦门市、南昌市、济南市、青岛市……

与中国实际的一线二线城市对比发现，有些二线城市被列入三线的范围，究其原因有二：

第一，我们选取的

截集过大，应该继续降低

标准，使得更多额城市进入二线的系列

第二，我们所用以衡量一线二线城市的标准过于单一，应该从多个指标入手，诸如题中的GDP等指标

3.试根据附件二探寻中国GDP与教育投入之间的关系

显然为回归模型，自变量为3个（在校人数、教师人数、经费），因变量为1个（GDP），因此，由于自变量并不多，只有那个，所以只要进行简单的回归分析就可，没必要进行主成分回归。

回归结果见下：

第一步：

讨论“在校人数”对GDP的影响

类似S型曲线，显然为非线性回归。

选用多项式回归

拟合结果：

y=p1*x^5+p2*x^4+p3*x^3+p4*x^2+p5*x+p6

Coefficients:

p1=-2.0458e-08

p2=5.2307e-05

p3=-0.049102

p4=20.393

p5=-3386.4

p6=1.933e+05

Normofresiduals=

17373

讨论“教师人数”对GDP的影响

过程同上：

y=p1*x^5+p2*x^4+p3*x^3+p4*x^2+p5*x+p6

p1=-0.028429

p2=7.7764

p3=-828.47

p4=42801

p5=-1.0648e+06

p6=1.0183e+07

71169

讨论“费用”对GDP的影响

过程同样：

y=p1*x^4+p2*x^3+p3*x^2+p4*x+p5

p1=-1.7067e-10

p2=3.3182e-06

p3=-0.022363

p4=70.382

p5=-6570.4

10653

因此，都是正相关，且，拟合结果见上。

如果，在三个因变量独立的前提下，可以将变量融合。

如果不满足独立性，还需要使用主成分回归除去相关性，再进行回归，解法同上次作业，不重述。

4.为了全面分析机械类行业各企业的经济效益,选择不个不同的利润指标,14个企业关于这八个指标的统计数据如下,试进行主成分分析

企业标号

净产值利润率（%）xi1

固定资产利润率（%）xi2

总产值利润率（%）xi3

销售收入利润率（%）xi4

产品成本利润率（%）xi5

物耗利润率（%）xi6

人均利润率（%）xi7

流动资金利润率（%）xi8

40.4

24.7

7.2

6.1

8.3

8.7

2.442

20.0

25.0

12.7

11.2

11．0

12.9

20.2

3.542

13.2

3.3

3.9

4.3

4.4

5.5

0.578

3.6

22.3

6.7

5.6

3.7

6.0

0.176

7.3

34.3

11.8

7.1

17.1

8.0

8.9

1.726

27.5

35.6

12.5

16.4

16.7

22.8

29.3

3.017

26.6

22.0

7.8

9.9

10.2

12.6

17.6

0.847

10.6

48.4

13.4

19.0

10.9

13.9

1.772

17.8

40.6

19.1

19.8

29.7

39.6

2.449

35.8

24.8

9.8

11.9

16.2

0.789

13.7

9.7

4.2

4.6

6.5

0.874

1.8

0.6

0.7

0.8

1.1

0.056

1.0

32.3

9.4

13.3

2.126

11.3

9.5

12.2

1.327

11.6

直接套用自己写过的代码：

0.00170.03030.04000.24650.36690.45940.9291

Column8

5.9261

因此主成分为最后两项：

即“流动资金利润率

”比重最大为74%

“人均利润率

”比重次之，为11.6%

此两项比重已经超过85%，因此，可以判断，这两项为主成分

另附：

代码：

第一题代码：

主成分分析代码：

n=13;

%nÊ

m=10;

%mÎ

%P=[149.3161.2171.5175.5180.8190.7202.1212.4226.1231.99239.0;

4.24.13.13.11.12.22.15.65.05.10.7;

108.1114.8123.2126.9132.1137.7146.0154.1162.3164.3167.6]'

;

P=[624.4365.65700.857.41704.271250.052126037.91047535.7

461.7467.43858.549.11180.741134.752089839.81002637.6

357.3860.91881.2818.6748.89610.851908935.0903338.0

617.1776.83283.7311.01443.401380.462031735.3802037.4

268.7859.61206.6924.5363.73331.361677538.7766839.4

766.1348.62111.8835.1633.94736.541645138.5690537.9

459.2550.21311.8935.3438.35418.901505737.9658638.9

500.7047.61201.8233.2347.73321.071494043.1646938.1

940.9545.81679.5636.0769.59543.011487534.9553439.0

482.2340.5618.1836.2409.56249.081325438.9482843.7

534.0039.9765.2334.8394.91269.401216438.9501043.2

809.7943.71371.2634.1470.06433.741385738.5609241.7

531.5334.1542.0032.0256.18158.87946842.4478346.0

];

%Y=[15.916.419.019.118.820.422.726.528.127.626.3]'

%P=xlsread（'

\Users\Mrli\Desktop\1'

）;

%´

35¸

9Ï

aver=mean（P,1）;

vari=std（P,0,1）;

%Ç

stdÊ

Z=[];

%Z（:

1）=（P（:

1）-aver

（1））/vari

（1）;

%±

pptÉ

2）=（P（:

2）-aver

（2））/vari

（2）;

3）=（P（:

3）-aver（3））/vari（3）;

fori=1:

Z（:

i）=（P（:

i）-aver（i））/vari（i）;

end

R=（Z'

*Z）/（n-1）;

[D,V]=eig（R）

v（i）=V（i,i）;

%Z1=Z*D（:

3）;

%µ

%Z2=-1*Z*D（:

2）;

%A=[Z1'

Z2'

%Y1=（Y-mean（Y））/（std（Y））;

%[b,bint,r,rint,stats]=regress（Y1,A'

）

%[b,bint,r,rint,stats]=regress（Y,P）

聚类代码：

clearall;

%A=xlsread（'

%½

3Á

\Users\Mrli\Desktop\2'

%Ð

%B=xlsread（'

%A（:

1）=B（:

7）;

2）=B（:

8）;

3）=B（:

9）;

%A;

A=[37.91047535.7

39.81002637.6

35.0903338.0

35.3802037.4

38.7766839.4

38.5690537.9

37.9658638.9

43.1646938.1

34.9553439.0

38.9482843.7

38.9501043.2

38.5609241.7

42.4478346.0

%%%%%%%%%%%%%%×

%%%%%%%%%%%%%%µ

%Ð

M=13;

N=3;

%¾

9¸

%Î

A（:

i）=（A（:

i）-min（A（:

i）））/（max（A（:

i））-min（A（:

i）））;

look_1=A;

R=zeros（M,M）;

forj=1:

fork=1:

ifi~=j

R（i,j）=R（i,j）+A（i,k）*A（j,k）;

end

R=R/max（max（R））;

R（i,i）=1;

R_xiangsi=R;

%xlswrite（'

mohu_xiangsi.xls'

R）;

h=1;

forn=1:

fori=1:

form=1:

temp（h）=min（R（i,m）,R（m,j））;

h=h+1;

R（i,j）=max（temp）;

h=1;

R_dengjai=R;

mohu_dengjia.xls'

%À

%la=0.703;

%½

%la=0.932;

%Â

la=0.7;

%±

ifR（i,j）>

R（i,j）=1;

else

R（i,j）=0;

distance1.xls'

%Ê

record=zeros（M,M）;

k=1;

ifR（i,j）==1

record（i,k）=j;

k=k+1;

k=1;

ifrecord（1,i）==0

break

tidui_1（i）=record（1,i）;

tidui_1

%w=0.10070.22550.6738

第二题代码：

n=35;

m=9;

P=xlsread（'

（聚类代码：

B=xlsread（'

A（:

M=35;

la=0.5;

展开阅读全文