表是年中国省自治区的城市规模结构特征的一些数据试通过聚类.docx
《表是年中国省自治区的城市规模结构特征的一些数据试通过聚类.docx》由会员分享,可在线阅读,更多相关《表是年中国省自治区的城市规模结构特征的一些数据试通过聚类.docx(6页珍藏版)》请在冰豆网上搜索。
表是年中国省自治区的城市规模结构特征的一些数据试通过聚类
我国各省、自治区的城市规模结构分析
问题分析:
城市规模结构主要由城市规模、城市首位度、基尼系数构成,所以从这三个方面入手,进行聚类分析。
符号说明:
1.
城市规模(万人)
2.
城市首位度
3.
城市指数
4.
基尼指数
5.
城市规模中位(万人)
模型建立及求解
聚类分析:
验证城市规模、城市首位度、城市指数、基尼系数、城市规模中位数之间的相关系数,看是否存在相关性。
利用spss软件可以得到这五者的相关系数矩阵。
Correlations
城市规模
城市首位度
城市指数
基尼系数
城市规模中位值
城市规模
PearsonCorrelation
1
.278
.477(*)
.295
Sig.(2-tailed)
.868
.152
.010
.127
N
28
28
28
28
28
城市首位度
PearsonCorrelation
1
.705(**)
.335
Sig.(2-tailed)
.868
.000
.081
.317
N
28
28
28
28
28
城市指数
PearsonCorrelation
.278
.705(**)
1
.161
Sig.(2-tailed)
.152
.000
.413
.754
N
28
28
28
28
28
基尼系数
PearsonCorrelation
.477(*)
.335
.161
1
(*)
Sig.(2-tailed)
.010
.081
.413
.039
N
28
28
28
28
28
城市规模中位值
PearsonCorrelation
.295
(*)
1
Sig.(2-tailed)
.127
.317
.754
.039
N
28
28
28
28
28
*Correlationissignificantatthelevel(2-tailed).
**Correlationissignificantatthelevel(2-tailed).
从上表可以看出某些指标之间确实有较强的相关性,可以选取其中的有代表性的几个指标进行聚类分析。
将这些指标进行标准化:
DescriptiveStatistics
N
Minimum
Maximum
Mean
Std.Deviation
城市规模
28
城市首位度
28
城市指数
28
.34
.56023
基尼系数
28
.38
.81
.5410
.11046
城市规模中位值
28
ValidN(listwise)
28
可以画出以下聚类树型图:
从聚类图中可以看出,如果将5个指标分为3类,城市首位度、城市指数两个指标之间相关性比较大,所以聚到一起,城市规模(万人)与城市规模中位(万人)也有相关性,也可以聚成一类,基尼指数单独为一类。
所以就可以将五个指标简化成三个指标进行分析。
下图为27个地区的聚类分析图。
运行结果:
(1)第1类的有17
第2类的有23456891011121314151617181920212223242627
第3类的有25
**********************************
划分成4类的结果如下:
第1类的有2345689101112131516171819212627
第2类的有1420222324
第3类的有17
第4类的有25
**********************************
划分成5类的结果如下:
第1类的有1
第2类的有7
第3类的有2345689101112131516171819212627
第4类的有1420222324
第5类的有25
运行结果:
(2)第1类的有17
第2类的有23456891011121314151617181920212223242627
第3类的有25
**********************************
划分成4类的结果如下:
第1类的有14
第2类的有234568910111213151617181920212223242627
第3类的有17
第4类的有25
**********************************
划分成5类的结果如下:
第1类的有1
第2类的有7
第3类的有14
第4类的有234568910111213151617181920212223242627
第5类的有25
利用matlab进行求解。
按分五类:
第一类:
京津冀;第二类:
苏沪;第三类:
湖北;第四类:
青海;第五类:
其他地区。
按四类分:
第一类:
京津冀、苏沪;第二类:
湖北;第三类:
青海;第四类:
其他地区。
按三类分:
第一类:
京津冀、苏沪;第二类:
青海;第三类:
其他地区。
附件
程序一
load
r=corrcoef(test)%计算相关系数矩阵
d=1-r;
d=tril(d);
d=nonzeros(d);
d=d';
z=linkage(d,'average');%按类平均法聚类
dendrogram(z);%画聚类图
T=cluster(z,'maxclust',3)%把变量划分成3类
fori=1:
3
tm=find(T==i);
tm=reshape(tm,1,length(tm));
fprintf('第%d类的有%s\n',i,int2str(tm));
end
程序2
clc,clear
load%把原始数据保存在纯文本文件中
gj(:
5:
5)=[];
gj(:
3:
3)=[];
gj=zscore(test);%数据标准化
y=pdist(test);%求对象间的欧氏距离,每行是一个对象
z=linkage(y,'average');%按类平均法聚类
dendrogram(z);%画聚类图
fork=3:
5
fprintf('划分成%d类的结果如下:
\n',k)
T=cluster(z,'maxclust',k);%把样本点划分成k类
fori=1:
k
tm=find(T==i);%求第i类的对象
tm=reshape(tm,1,length(tm));%变成行向量
fprintf('第%d类的有%s\n',i,int2str(tm));%显示分类结果
end
ifk==5
break
end
fprintf('**********************************\n');
end