统计回归01.docx
《统计回归01.docx》由会员分享,可在线阅读,更多相关《统计回归01.docx(20页珍藏版)》请在冰豆网上搜索。
![统计回归01.docx](https://file1.bdocx.com/fileroot1/2022-11/30/e162b2dd-865d-4e57-8a19-c4e8d093a348/e162b2dd-865d-4e57-8a19-c4e8d093a3481.gif)
统计回归01
习题一:
江苏省各市经济发展水平的聚类分析
改革开放30年来,我国经济取得了很大的发展。
但同时经济发展中也存在着很多问题,这些问题越来越成为我国经济持续发展的障碍。
地区发展不平衡就是众多问题中的一个。
发达城市都集中东部地区,广大中西部地区和农村地区长期处在不发达状态。
地区发展的失衡使得我国经济难以取得全面的发展,造成的后果是我国经济总量和总体发展速度十分显著,但人均水平长期徘徊在世界的中下层次,大多数人口难以享受到改革的成果。
另外,地区发展的失衡使得人口过度迅速地向少数发达城市集中,已经造成这些城市处于负荷运作,给这些城市的治安、环境和居住条件等带来了巨大的挑战,给城市居住和生活水平造成严重的影响。
也由于地区之间发展的失衡,使得各地区之间的经济难以形成一个顺畅的经济链,从而形成一个良性的经济发展循环体。
要解决好这个问题,首要的问题是对全国范围内,各省市范围内的经济体进行分类,正确划分发达经济体和不发达经济体,进而制定出有针对性的经济政策。
对2007年江苏省的13个地市的国民经济进行了聚类分析,试探讨依据本文选取的若干主要经济指标进行的分类是否与传统上将江苏省划分为苏南、苏中和苏北三部分是否一致。
结果供有关决策部门参考。
数据资料
为了得出2007年江苏省的13个地市的国民经济分布规律,在众多衡量经济水平的指标中我们将采用下列指标:
:
年末户籍人口(万人)
:
城镇化率(%)
:
地区生产总值GDP(亿元)
:
第三产业占GDP的比重(%)
:
城镇固定资产投资额(亿元)
:
社会消费品零售总额(亿元)
:
城市居民人均可支配收入(元)
:
恩格尔系数(城市)(%)
:
农村居民人均纯收入(元)
:
恩格尔系数(农村)(%)
下面的表格是2007年江苏省各市国民经济主要指标值。
地区
苏州
624.43
65.6
5700.85
7.4
1704.27
1250.05
21260
37.9
10475
35.7
无锡
461.74
67.4
3858.54
9.1
1180.74
1134.75
20898
39.8
10026
37.6
常州
357.38
60.9
1881.28
18.6
748.89
610.85
19089
35.0
9033
38.0
南京
617.17
76.8
3283.73
11.0
1443.40
1380.46
20317
35.3
8020
37.4
镇江
268.78
59.6
1206.69
24.5
363.73
331.36
16775
38.7
7668
39.4
南通
766.13
48.6
2111.88
35.1
633.94
736.54
16451
38.5
6905
37.9
扬州
459.25
50.2
1311.89
35.3
438.35
418.90
15057
37.9
6586
38.9
泰州
500.70
47.6
1201.82
33.2
347.73
321.07
14940
43.1
6469
38.1
徐州
940.95
45.8
1679.56
36.0
769.59
543.01
14875
34.9
5534
39.0
连云港
482.23
40.5
618.18
36.2
409.56
249.08
13254
38.9
4828
43.7
淮安
534.00
39.9
765.23
34.8
394.91
269.40
12164
38.9
5010
43.2
盐城
809.79
43.7
1371.26
34.1
470.06
433.74
13857
38.5
6092
41.7
宿迁
531.53
34.1
542.00
32.0
256.18
158.87
9468
42.4
4783
46.0
解:
方法同二题
第一步,主成分分析,得到其特征值为:
v=
Columns1through7
0.00050.00950.01390.03020.06690.15440.4604
Columns8through10
0.77761.42527.0613
可见,
占据70.61%,
占据14.25%,
占据7.78%
因此,选择后三项做主成分,并进行模糊聚类。
选取
截集等于0.74,得到第一类:
12810111213
降低
为0.6,得到第二类:
35
继续降低,得到第三类:
4679
因此,对比发现,与题中的传统分类有一定的差距
2.试根据附件一数据对全国35所城市进行分类,划分出一二三线城市群体。
解:
由于衡量指标有9种,过多不易聚类,所以,采用主成分分析,对9个指标挑选主要成分,再对主要成分进行聚类,可得一二三线城市的划分。
分别对九个指标进行主成分分析:
1.年末总人口数_市辖区
2.地区生产总值(GDP)_市辖区
3.客运总量_市辖区
4.货运总量
5.地方财政预算内收入_市辖区
6.固定资产投资总额_市辖区
7.城乡居民储蓄年末余额_市辖区
8.在岗职工平均人数_市辖区
9.在岗职工工资总额_市辖区
得到特征向量:
v=
Columns1through7
0.00710.01100.03030.03370.10210.27780.6845
Columns8through9
0.99536.8582
可见,第9、8、7个因素占据主导地位,且三者和在特征向量中的比重大于85%,因此后续的聚类以这三个为准,对35个国家和地区进行以这三个指标为标准进行聚类。
第二步,进行聚类分析
以城乡居民储蓄年末余额_市辖区、在岗职工平均人数_市辖区、在岗职工工资总额_市辖区这三因素进行聚类,得到模糊相似矩阵以及模糊等价矩阵,见excel表格,并选取
截集,当
取0.6时,选择出1、10、23号。
当
取0.5时,选择出1、2、10、23三个城市,发现正好是:
北京、天津、上海、广州这四座城市,同时该结果十分符合常识!
并将此定为一线城市。
继续降低
截集,当
取0.2时,选得1、2、6、7、9、10、11、21、23、24、27、28、31,发现,这13座城市除去一线城市后为6、7、9、11、21、24、27、28、31,二线城市分别为:
沈阳市、大连市、哈尔滨市、南京市、武汉市、深圳市、重庆市、成都市、西安市
其余的22个城市定为三线城市,分别为:
石家庄、太原市、呼和浩特、长春市、杭州市、宁波市、合肥市、福州市、厦门市、南昌市、济南市、青岛市……
与中国实际的一线二线城市对比发现,有些二线城市被列入三线的范围,究其原因有二:
第一,我们选取的
截集过大,应该继续降低
标准,使得更多额城市进入二线的系列
第二,我们所用以衡量一线二线城市的标准过于单一,应该从多个指标入手,诸如题中的GDP等指标
3.试根据附件二探寻中国GDP与教育投入之间的关系
解:
显然为回归模型,自变量为3个(在校人数、教师人数、经费),因变量为1个(GDP),因此,由于自变量并不多,只有那个,所以只要进行简单的回归分析就可,没必要进行主成分回归。
回归结果见下:
第一步:
讨论“在校人数”对GDP的影响
类似S型曲线,显然为非线性回归。
选用多项式回归
拟合结果:
y=p1*x^5+p2*x^4+p3*x^3+p4*x^2+p5*x+p6
Coefficients:
p1=-2.0458e-08
p2=5.2307e-05
p3=-0.049102
p4=20.393
p5=-3386.4
p6=1.933e+05
Normofresiduals=
17373
第一步:
讨论“教师人数”对GDP的影响
过程同上:
y=p1*x^5+p2*x^4+p3*x^3+p4*x^2+p5*x+p6
Coefficients:
p1=-0.028429
p2=7.7764
p3=-828.47
p4=42801
p5=-1.0648e+06
p6=1.0183e+07
Normofresiduals=
71169
第一步:
讨论“费用”对GDP的影响
过程同样:
y=p1*x^4+p2*x^3+p3*x^2+p4*x+p5
Coefficients:
p1=-1.7067e-10
p2=3.3182e-06
p3=-0.022363
p4=70.382
p5=-6570.4
Normofresiduals=
10653
因此,都是正相关,且,拟合结果见上。
如果,在三个因变量独立的前提下,可以将变量融合。
如果不满足独立性,还需要使用主成分回归除去相关性,再进行回归,解法同上次作业,不重述。
4.为了全面分析机械类行业各企业的经济效益,选择不个不同的利润指标,14个企业关于这八个指标的统计数据如下,试进行主成分分析
企业标号
净产值利润率(%)xi1
固定资产利润率(%)xi2
总产值利润率(%)xi3
销售收入利润率(%)xi4
产品成本利润率(%)xi5
物耗利润率(%)xi6
人均利润率(%)xi7
流动资金利润率(%)xi8
1
40.4
24.7
7.2
6.1
8.3
8.7
2.442
20.0
2
25.0
12.7
11.2
11.0
12.9
20.2
3.542
9.1
3
13.2
3.3
3.9
4.3
4.4
5.5
0.578
3.6
4
22.3
6.7
5.6
3.7
6.0
7.4
0.176
7.3
5
34.3
11.8
7.1
17.1
8.0
8.9
1.726
27.5
6
35.6
12.5
16.4
16.7
22.8
29.3
3.017
26.6
7
22.0
7.8
9.9
10.2
12.6
17.6
0.847
10.6
8
48.4
13.4
19.0
9.9
10.9
13.9
1.772
17.8
9
40.6
19.1
19.8
19.0
29.7
39.6
2.449
35.8
10
24.8
8.0
9.8
8.9
11.9
16.2
0.789
13.7
11
12.5
9.7
4.2
4.2
4.6
6.5
0.874
3.9
12
1.8
0.6
0.7
0.7
0.8
1.1
0.056
1.0
13
32.3
13.9
9.4
8.3
9.8
13.3
2.126
17.1
14
38.5
9.1
11.3
9.5
12.2
16.4
1.327
11.6
解:
直接套用自己写过的代码:
得到特征向量:
v=
Columns1through7
0.00170.03030.04000.24650.36690.45940.9291
Column8
5.9261
因此主成分为最后两项:
即“流动资金利润率
”比重最大为74%
“人均利润率
”比重次之,为11.6%
此两项比重已经超过85%,因此,可以判断,这两项为主成分
另附:
代码:
第一题代码:
主成分分析代码:
n=13;%nÊÇÑùÆ·Êý£¬²»ÊÇÖ¸±êÊý
m=10;%mΪָ±êÊý
%P=[149.3161.2171.5175.5180.8190.7202.1212.4226.1231.99239.0;4.24.13.13.11.12.22.15.65.05.10.7;108.1114.8123.2126.9132.1137.7146.0154.1162.3164.3167.6]';
P=[624.4365.65700.857.41704.271250.052126037.91047535.7
461.7467.43858.549.11180.741134.752089839.81002637.6
357.3860.91881.2818.6748.89610.851908935.0903338.0
617.1776.83283.7311.01443.401380.462031735.3802037.4
268.7859.61206.6924.5363.73331.361677538.7766839.4
766.1348.62111.8835.1633.94736.541645138.5690537.9
459.2550.21311.8935.3438.35418.901505737.9658638.9
500.7047.61201.8233.2347.73321.071494043.1646938.1
940.9545.81679.5636.0769.59543.011487534.9553439.0
482.2340.5618.1836.2409.56249.081325438.9482843.7
534.0039.9765.2334.8394.91269.401216438.9501043.2
809.7943.71371.2634.1470.06433.741385738.5609241.7
531.5334.1542.0032.0256.18158.87946842.4478346.0
];
%Y=[15.916.419.019.118.820.422.726.528.127.626.3]';
%P=xlsread('C:
\Users\Mrli\Desktop\1');%´ÎÊý¾ÝΪ35¸ö¹ú¼Ò9ÏîÖ¸±ê£¬ÊÇ¡°Í³¼Æ·ÖÎö¡±ÖеĵڶþÌâ
aver=mean(P,1);
vari=std(P,0,1);%Çмǣ¬stdÊÇÇ󷽲²»ÊÇÇó±ê×¼²î
Z=[];
%Z(:
1)=(P(:
1)-aver
(1))/vari
(1);%±ê×¼»¯µÄ½á¹û£¬Ï൱ÓÚÀÏʦpptÉϵģºx*
%Z(:
2)=(P(:
2)-aver
(2))/vari
(2);
%Z(:
3)=(P(:
3)-aver(3))/vari(3);
fori=1:
1:
m
Z(:
i)=(P(:
i)-aver(i))/vari(i);
end
Z;
R=(Z'*Z)/(n-1);
[D,V]=eig(R)
fori=1:
1:
m
v(i)=V(i,i);
end
v
%Z1=Z*D(:
3);%µÚÒ»Ö÷³É·Ö
%Z2=-1*Z*D(:
2);%µÚ¶þÖ÷³É·Ö
%A=[Z1';Z2'];
%Y1=(Y-mean(Y))/(std(Y));
%[b,bint,r,rint,stats]=regress(Y1,A')
%[b,bint,r,rint,stats]=regress(Y,P)
聚类代码:
clearall;
%A=xlsread('C:
\Users\Mrli\Desktop\1');%½¨Ä£3ÁÐ
%A=xlsread('C:
\Users\Mrli\Desktop\2');%д×÷3ÁÐ
%B=xlsread('C:
\Users\Mrli\Desktop\1');%±à³Ì3ÁÐ
%A(:
1)=B(:
7);
%A(:
2)=B(:
8);
%A(:
3)=B(:
9);
%A;
A=[37.91047535.7
39.81002637.6
35.0903338.0
35.3802037.4
38.7766839.4
38.5690537.9
37.9658638.9
43.1646938.1
34.9553439.0
38.9482843.7
38.9501043.2
38.5609241.7
42.4478346.0
];
%%%%%%%%%%%%%%×¢Ò⣡£¡£¡
%%%%%%%%%%%%%%µ¥Î»²»Ò»ÖÂʱ£¬¾¡Á¿²»Òª²ÉÓÃÊýÁ¿»ý
%ÐγÉÄ£ºýÏàËƾØÕó
M=13;%´ý·ÖÀà¶ÔÏóÒ»¹²ÓÐ35¸ö
N=3;%¾ÛÀàÒÀ¾ÝÓÐ9¸öÖ¸±ê
%ÎÞÁ¿¸Ù»¯
fori=1:
1:
N
A(:
i)=(A(:
i)-min(A(:
i)))/(max(A(:
i))-min(A(:
i)));
end
look_1=A;
R=zeros(M,M);
fori=1:
1:
M
forj=1:
1:
M
fork=1:
1:
N
ifi~=j
R(i,j)=R(i,j)+A(i,k)*A(j,k);
end
end
end
end
R=R/max(max(R));
fori=1:
1:
M
R(i,i)=1;
end
R_xiangsi=R;
%xlswrite('mohu_xiangsi.xls',R);
%ÐγÉÄ£ºýµÈ¼Û¾ØÕó
h=1;
forn=1:
1:
N
fori=1:
1:
M
forj=1:
1:
M
form=1:
1:
M
temp(h)=min(R(i,m),R(m,j));
h=h+1;
end
R(i,j)=max(temp);
h=1;
end
end
end
R_dengjai=R;
%xlswrite('mohu_dengjia.xls',R);
%ÀÄ·´ï½Ø¼¯
%la=0.703;%½¨Ä£µÄ½Ø¼¯
%la=0.932;%ÂÛÎĵĽؼ¯
la=0.7;%±à³ÌµÄ½Ø¼¯
fori=1:
1:
M
forj=1:
1:
M
ifR(i,j)>la
R(i,j)=1;
else
R(i,j)=0;
end
end
end
R;
%xlswrite('distance1.xls',R);
%Êä³ö¾ÛÀà¹Øϵ
record=zeros(M,M);
k=1;
fori=1:
1:
M
forj=1:
1:
M
ifR(i,j)==1
record(i,k)=j;
k=k+1;
end
end
k=1;
end
fori=1:
1:
M
ifrecord(1,i)==0
break
end
tidui_1(i)=record(1,i);
end
tidui_1
%w=0.10070.22550.6738
第二题代码:
主成分分析代码:
n=35;%nÊÇÑùÆ·Êý£¬²»ÊÇÖ¸±êÊý
m=9;%mΪָ±êÊý
P=xlsread('C:
\Users\Mrli\Desktop\2');
aver=mean(P,1);
vari=std(P,0,1);%Çмǣ¬stdÊÇÇ󷽲²»ÊÇÇó±ê×¼²î
Z=[];
%Z(:
1)=(P(:
1)-aver
(1))/vari
(1);%±ê×¼»¯µÄ½á¹û£¬Ï൱ÓÚÀÏʦpptÉϵģºx*
%Z(:
2)=(P(:
2)-aver
(2))/vari
(2);
%Z(:
3)=(P(:
3)-aver(3))/vari(3);
fori=1:
1:
m
Z(:
i)=(P(:
i)-aver(i))/vari(i);
end
Z;
R=(Z'*Z)/(n-1);
[D,V]=eig(R)
fori=1:
1:
m
v(i)=V(i,i);
end
v
%Z1=Z*D(:
3);%µÚÒ»Ö÷³É·Ö
%Z2=-1*Z*D(:
2);%µÚ¶þÖ÷³É·Ö
%A=[Z1';Z2'];
%Y1=(Y-mean(Y))/(std(Y));
%[b,bint,r,rint,stats]=regress(Y1,A')
%[b,bint,r,rint,stats]=regress(Y,P)
(聚类代码:
)
clearall;
%A=xlsread('C:
\Users\Mrli\Desktop\1');%½¨Ä£3ÁÐ
%A=xlsread('C:
\Users\Mrli\Desktop\2');%д×÷3ÁÐ
B=xlsread('C:
\Users\Mrli\Desktop\2');%±à³Ì3ÁÐ
A(:
1)=B(:
7);
A(:
2)=B(:
8);
A(:
3)=B(:
9);
A;
M=35;%´ý·ÖÀà¶ÔÏóÒ»¹²ÓÐ35¸ö
N=3;%¾ÛÀàÒÀ¾ÝÓÐ9¸öÖ¸±ê
%ÎÞÁ¿¸Ù»¯
fori=1:
1:
N
A(:
i)=(A(:
i)-min(A(:
i)))/(max(A(:
i))-min(A(:
i)));
end
look_1=A;
R=zeros(M,M);
fori=1:
1:
M
forj=1:
1:
M
fork=1:
1:
N
ifi~=j
R(i,j)=R(i,j)+A(i,k)*A(j,k);
end
end
end
end
R=R/max(max(R));
fori=1:
1:
M
R(i,i)=1;
end
R_xiangsi=R;
%xlswrite('mohu_xiangsi.xls',R);
%ÐγÉÄ£ºýµÈ¼Û¾ØÕó
h=1;
forn=1:
1:
N
fori=1:
1:
M
forj=1:
1:
M
form=1:
1:
M
temp(h)=min(R(i,m),R(m,j));
h=h+1;
end
R(i,j)=max(temp);
h=1;
end
end
end
R_dengjai=R;
%xlswrite('mohu_dengjia.xls',R);
%ÀÄ·´ï½Ø¼¯
%la=0.703;%½¨Ä£µÄ½Ø¼¯
%la=0.932;%ÂÛÎĵĽؼ¯
la=0.5;%±à³ÌµÄ½Ø¼¯
fori=1:
1: