统计回归01Word格式文档下载.docx
《统计回归01Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《统计回归01Word格式文档下载.docx(20页珍藏版)》请在冰豆网上搜索。
617.17
76.8
3283.73
11.0
1443.40
1380.46
20317
35.3
8020
37.4
镇江
268.78
59.6
1206.69
24.5
363.73
331.36
16775
38.7
7668
39.4
南通
766.13
48.6
2111.88
35.1
633.94
736.54
16451
38.5
6905
扬州
459.25
50.2
1311.89
438.35
418.90
15057
6586
38.9
泰州
500.70
47.6
1201.82
33.2
347.73
321.07
14940
43.1
6469
38.1
徐州
940.95
45.8
1679.56
36.0
769.59
543.01
14875
34.9
5534
39.0
连云港
482.23
40.5
618.18
36.2
409.56
249.08
13254
4828
43.7
淮安
534.00
39.9
765.23
34.8
394.91
269.40
12164
5010
43.2
盐城
809.79
1371.26
34.1
470.06
433.74
13857
6092
41.7
宿迁
531.53
542.00
32.0
256.18
158.87
9468
42.4
4783
46.0
解:
方法同二题
第一步,主成分分析,得到其特征值为:
v=
Columns1through7
0.00050.00950.01390.03020.06690.15440.4604
Columns8through10
0.77761.42527.0613
可见,
占据70.61%,
占据14.25%,
占据7.78%
因此,选择后三项做主成分,并进行模糊聚类。
选取
截集等于0.74,得到第一类:
12810111213
降低
为0.6,得到第二类:
35
继续降低,得到第三类:
4679
因此,对比发现,与题中的传统分类有一定的差距
2.试根据附件一数据对全国35所城市进行分类,划分出一二三线城市群体。
由于衡量指标有9种,过多不易聚类,所以,采用主成分分析,对9个指标挑选主要成分,再对主要成分进行聚类,可得一二三线城市的划分。
分别对九个指标进行主成分分析:
1.年末总人口数_市辖区
2.地区生产总值(GDP)_市辖区
3.客运总量_市辖区
4.货运总量
5.地方财政预算内收入_市辖区
6.固定资产投资总额_市辖区
7.城乡居民储蓄年末余额_市辖区
8.在岗职工平均人数_市辖区
9.在岗职工工资总额_市辖区
得到特征向量:
0.00710.01100.03030.03370.10210.27780.6845
Columns8through9
0.99536.8582
可见,第9、8、7个因素占据主导地位,且三者和在特征向量中的比重大于85%,因此后续的聚类以这三个为准,对35个国家和地区进行以这三个指标为标准进行聚类。
第二步,进行聚类分析
以城乡居民储蓄年末余额_市辖区、在岗职工平均人数_市辖区、在岗职工工资总额_市辖区这三因素进行聚类,得到模糊相似矩阵以及模糊等价矩阵,见excel表格,并选取
截集,当
取0.6时,选择出1、10、23号。
当
取0.5时,选择出1、2、10、23三个城市,发现正好是:
北京、天津、上海、广州这四座城市,同时该结果十分符合常识!
并将此定为一线城市。
继续降低
取0.2时,选得1、2、6、7、9、10、11、21、23、24、27、28、31,发现,这13座城市除去一线城市后为6、7、9、11、21、24、27、28、31,二线城市分别为:
沈阳市、大连市、哈尔滨市、南京市、武汉市、深圳市、重庆市、成都市、西安市
其余的22个城市定为三线城市,分别为:
石家庄、太原市、呼和浩特、长春市、杭州市、宁波市、合肥市、福州市、厦门市、南昌市、济南市、青岛市……
与中国实际的一线二线城市对比发现,有些二线城市被列入三线的范围,究其原因有二:
第一,我们选取的
截集过大,应该继续降低
标准,使得更多额城市进入二线的系列
第二,我们所用以衡量一线二线城市的标准过于单一,应该从多个指标入手,诸如题中的GDP等指标
3.试根据附件二探寻中国GDP与教育投入之间的关系
显然为回归模型,自变量为3个(在校人数、教师人数、经费),因变量为1个(GDP),因此,由于自变量并不多,只有那个,所以只要进行简单的回归分析就可,没必要进行主成分回归。
回归结果见下:
第一步:
讨论“在校人数”对GDP的影响
类似S型曲线,显然为非线性回归。
选用多项式回归
拟合结果:
y=p1*x^5+p2*x^4+p3*x^3+p4*x^2+p5*x+p6
Coefficients:
p1=-2.0458e-08
p2=5.2307e-05
p3=-0.049102
p4=20.393
p5=-3386.4
p6=1.933e+05
Normofresiduals=
17373
讨论“教师人数”对GDP的影响
过程同上:
y=p1*x^5+p2*x^4+p3*x^3+p4*x^2+p5*x+p6
p1=-0.028429
p2=7.7764
p3=-828.47
p4=42801
p5=-1.0648e+06
p6=1.0183e+07
71169
讨论“费用”对GDP的影响
过程同样:
y=p1*x^4+p2*x^3+p3*x^2+p4*x+p5
p1=-1.7067e-10
p2=3.3182e-06
p3=-0.022363
p4=70.382
p5=-6570.4
10653
因此,都是正相关,且,拟合结果见上。
如果,在三个因变量独立的前提下,可以将变量融合。
如果不满足独立性,还需要使用主成分回归除去相关性,再进行回归,解法同上次作业,不重述。
4.为了全面分析机械类行业各企业的经济效益,选择不个不同的利润指标,14个企业关于这八个指标的统计数据如下,试进行主成分分析
企业标号
净产值利润率(%)xi1
固定资产利润率(%)xi2
总产值利润率(%)xi3
销售收入利润率(%)xi4
产品成本利润率(%)xi5
物耗利润率(%)xi6
人均利润率(%)xi7
流动资金利润率(%)xi8
1
40.4
24.7
7.2
6.1
8.3
8.7
2.442
20.0
2
25.0
12.7
11.2
11.0
12.9
20.2
3.542
3
13.2
3.3
3.9
4.3
4.4
5.5
0.578
3.6
4
22.3
6.7
5.6
3.7
6.0
0.176
7.3
5
34.3
11.8
7.1
17.1
8.0
8.9
1.726
27.5
6
35.6
12.5
16.4
16.7
22.8
29.3
3.017
26.6
7
22.0
7.8
9.9
10.2
12.6
17.6
0.847
10.6
8
48.4
13.4
19.0
10.9
13.9
1.772
17.8
9
40.6
19.1
19.8
29.7
39.6
2.449
35.8
10
24.8
9.8
11.9
16.2
0.789
13.7
11
9.7
4.2
4.6
6.5
0.874
12
1.8
0.6
0.7
0.8
1.1
0.056
1.0
13
32.3
9.4
13.3
2.126
14
11.3
9.5
12.2
1.327
11.6
直接套用自己写过的代码:
0.00170.03030.04000.24650.36690.45940.9291
Column8
5.9261
因此主成分为最后两项:
即“流动资金利润率
”比重最大为74%
“人均利润率
”比重次之,为11.6%
此两项比重已经超过85%,因此,可以判断,这两项为主成分
另附:
代码:
第一题代码:
主成分分析代码:
n=13;
%nÊ
Ç
Ñ
ù
Æ
·
Ê
ý
£
¬
²
»
Ö
¸
±
ê
m=10;
%mÎ
ª
%P=[149.3161.2171.5175.5180.8190.7202.1212.4226.1231.99239.0;
4.24.13.13.11.12.22.15.65.05.10.7;
108.1114.8123.2126.9132.1137.7146.0154.1162.3164.3167.6]'
;
P=[624.4365.65700.857.41704.271250.052126037.91047535.7
461.7467.43858.549.11180.741134.752089839.81002637.6
357.3860.91881.2818.6748.89610.851908935.0903338.0
617.1776.83283.7311.01443.401380.462031735.3802037.4
268.7859.61206.6924.5363.73331.361677538.7766839.4
766.1348.62111.8835.1633.94736.541645138.5690537.9
459.2550.21311.8935.3438.35418.901505737.9658638.9
500.7047.61201.8233.2347.73321.071494043.1646938.1
940.9545.81679.5636.0769.59543.011487534.9553439.0
482.2340.5618.1836.2409.56249.081325438.9482843.7
534.0039.9765.2334.8394.91269.401216438.9501043.2
809.7943.71371.2634.1470.06433.741385738.5609241.7
531.5334.1542.0032.0256.18158.87946842.4478346.0
];
%Y=[15.916.419.019.118.820.422.726.528.127.626.3]'
%P=xlsread('
C:
\Users\Mrli\Desktop\1'
);
%´
Î
¾
Ý
35¸
ö
¹
ú
¼
Ò
9Ï
î
¡
°
Í
³
Ð
µ
Ä
Ú
¶
þ
Ì
â
aver=mean(P,1);
vari=std(P,0,1);
%Ç
stdÊ
ó
½
×
Z=[];
%Z(:
1)=(P(:
1)-aver
(1))/vari
(1);
%±
¯
á
û
Ï
à
Ó
À
¦
pptÉ
º
x*
2)=(P(:
2)-aver
(2))/vari
(2);
3)=(P(:
3)-aver(3))/vari(3);
fori=1:
1:
m
Z(:
i)=(P(:
i)-aver(i))/vari(i);
end
Z;
R=(Z'
*Z)/(n-1);
[D,V]=eig(R)
v(i)=V(i,i);
v
%Z1=Z*D(:
3);
%µ
÷
É
%Z2=-1*Z*D(:
2);
%A=[Z1'
Z2'
%Y1=(Y-mean(Y))/(std(Y));
%[b,bint,r,rint,stats]=regress(Y1,A'
)
%[b,bint,r,rint,stats]=regress(Y,P)
聚类代码:
clearall;
%A=xlsread('
%½
¨
3Á
\Users\Mrli\Desktop\2'
%Ð
´
%B=xlsread('
%A(:
1)=B(:
7);
2)=B(:
8);
3)=B(:
9);
%A;
A=[37.91047535.7
39.81002637.6
35.0903338.0
35.3802037.4
38.7766839.4
38.5690537.9
37.9658638.9
43.1646938.1
34.9553439.0
38.9482843.7
38.9501043.2
38.5609241.7
42.4478346.0
%%%%%%%%%%%%%%×
¢
%%%%%%%%%%%%%%µ
¥
Â
Á
¿
Ã
%Ð
Ë
Ø
Õ
M=13;
Ô
N=3;
%¾
Û
9¸
%Î
Þ
Ù
N
A(:
i)=(A(:
i)-min(A(:
i)))/(max(A(:
i))-min(A(:
i)));
look_1=A;
R=zeros(M,M);
M
forj=1:
fork=1:
ifi~=j
R(i,j)=R(i,j)+A(i,k)*A(j,k);
end
R=R/max(max(R));
R(i,i)=1;
R_xiangsi=R;
%xlswrite('
mohu_xiangsi.xls'
R);
È
h=1;
forn=1:
fori=1:
form=1:
temp(h)=min(R(i,m),R(m,j));
h=h+1;
R(i,j)=max(temp);
h=1;
R_dengjai=R;
mohu_dengjia.xls'
%À
Ä
ï
%la=0.703;
%½
%la=0.932;
%Â
la=0.7;
%±
ifR(i,j)>
la
R(i,j)=1;
else
R(i,j)=0;
R;
distance1.xls'
%Ê
ä
record=zeros(M,M);
k=1;
ifR(i,j)==1
record(i,k)=j;
k=k+1;
k=1;
ifrecord(1,i)==0
break
tidui_1(i)=record(1,i);
tidui_1
%w=0.10070.22550.6738
第二题代码:
n=35;
m=9;
P=xlsread('
(聚类代码:
B=xlsread('
A(:
A;
M=35;
la=0.5;