重磅多元统计分析实验三.docx

资源描述

重磅多元统计分析实验三.docx

《重磅多元统计分析实验三.docx》由会员分享，可在线阅读，更多相关《重磅多元统计分析实验三.docx（14页珍藏版）》请在冰豆网上搜索。

重磅多元统计分析实验三.docx

重磅多元统计分析实验三

实验三

一、实验内容

1、实验背景

近几年，中国房地产业得到了长足的发展，但房地产价格的上涨一直饱受争议，甚至有逃离“北、上、广”的言论，这也从侧面反映了房地产价格的区域性特征。

2、实验目的

根据20KK年中国31个省、市、自治区房地市场的房屋平均销售价格、住宅平均销售价格、别墅与高档公寓平均销售价格、经济适用房平均销售价格等九项指标的统计数据（见下表3），对各省市进行区域性分类。

3、实验要求

试根据这些数据分别进行R型和Q型聚类分析。

二、实验报告

1、实验数据

选取全国31个省市地区的房屋平均销售价格、住宅平均销售价格、别墅与高档公寓平均销售价格、经济适用房平均销售价格、办公楼平均销售价格、商业营业用房平均销售价格、其他平均销售价格、商品房销售面积、住宅销售面积等9项指标作为观测量进行分析。

数据见下表3。

表3

省份

北京

12418

11648

19541

3813

16554

17148

6416

1335.37

1031.43

天津

6015

5598

11107

3571

9783

10338

9195

1252.04

1135.35

河北

2779

2743

6375

2208

3692

3915

2102

2231.84

2128.86

山西

2355

2253

5741

1466

6115

2867

2545

994.71

893.10

内蒙古

2483

2265

4104

1690

4822

4080

2660

2396.37

2093.34

辽宁

3758

3575

7265

2095

4783

6149

3888

4091.16

3731.19

吉林

2507

2399

6175

1932

3256

3687

3213

1583.87

1435.73

黑龙江

2832

2642

5414

1785

2804

4330

3019

1486.57

1286.62

上海

8195

8115

12792

1847

11783

6610

5529

2339.29

20KK.48

江苏

4049

3802

7729

1922

5906

6172

2567

6091.86

5282.89

浙江

6262

6144

9424

3092

9716

7446

3180

2992.2

2480.74

安徽

2949

2808

4058

1731

4596

4627

2139

2785.83

2542.6

福建

4384

4498

7334

2313

5386

8303

1686

1625.67

1250.00

江西

2136

2022

3141

1098

2840

4039

2057

1727.6

1604.86

山东

2970

2851

7256

1826

5601

4601

2440

5507.64

5039.4

河南

2339

2138

3618

1372

4367

5065

1933

3191.98

2943.36

湖北

3001

2898

6191

1900

5122

4863

3513

1941.62

1821.31

湖南

2302

2113

4007

1388

4212

4564

1969

2655.51

2413.7

广东

5953

5723

6817

2380

10554

8630

5296

4852.28

4360.45

广西

2826

2634

4601

1880

4959

6077

2926

1768.04

1637.99

海南

5443

5441

9058

1686

5831

5461

5157

372.44

358.72

重庆

2785

2640

6322

1751

4667

5432

2489

2872.19

2669.93

四川

3157

3067

7934

1266

5688

4528

2397

3501.27

3247.32

贵州

2339

2122

4738

1926

3672

5967

2935

908.2

848.11

云南

2680

2441

3230

1441

4860

5203

3086

1643.08

1478.25

西藏

3202

3103

3547

2133

10000

4554

1200

66.49

62.08

陕西

2952

2821

5589

1691

5571

5056

3149

1513.01

1426.06

甘肃

1958

1851

2082

1264

2899

4008

2134

624.66

588.63

青海

2460

2384

2768

1214

3271

4246

2625

147.89

141.23

宁夏

2435

2215

5345

1447

3726

4243

1570

514.81

453.26

新疆

2240

2100

3684

1333

5184

4156

2434

954.35

886.35

注：

P1：

房屋平均销售价格；P2：

住宅平均销售价格；P3：

别墅、高档公寓平均销售价格；P4：

经济适用房平均销售价格；P5：

办公楼平均销售价格；P6：

商业营业用房平均销售价格；P7：

其他平均销售价格；P8：

商品房销售面积；P9：

住宅销售面积。

2、数据处理

数据中无异常值或缺失值，因此不需要进行处理。

3、数据分析

1）、Q型聚类分析

操作步骤如下：

（1）打开SPSS统计软件，将数据输入数据文件中。

（2）在菜单的选项中选择AnalPze→ClassifP命令，在ClassifP命令下选择Hierarchicalcluster（系统聚类法）。

（3）Cluster下选择Cases单选框。

将9个变量移入Variables框中，将省份变量移入LabelCasesbP框中作为标识变量。

（4）选择Statistics选项，选中Agglomerationschedule复选框；ClusterMembership栏中选择Rangeofsolution并在其后两个小矩形框中分别填入2和8。

单击Continue继续。

（5）选择Plots选项，选中Dendrogram复选框，其他默认，单击Continue继续。

（6）选择Method选项，ClusterMethod下拉列表中分别选择Between—groupslinkage（组间联结法,即类平均法）、NearestNeighbor（最短距离法）和FurthestNeighbor（最长距离法）；在Measure的Interval下拉列表中选择SquaredEuclideandistance；在Transformvalue栏中Standardize下拉列表中选择range0to1；其他默认，单击Continue继续。

（7）其他为默认项，单击OK，得到聚类结果如下。

表3-1-1聚类凝聚过程表（Q型聚类）

AgglomerationSchedule

Stage

ClusterCombined

Coefficients

StageClusterFirstAppears

NePtStage

Cluster1

Cluster2

Cluster1

Cluster2

.011

.020

.023

.026

.030

.035

.046

.047

.052

.054

.063

.080

.104

.117

.139

.171

.213

.280

.332

.399

.473

.528

.561

.837

.977

1.372

4.491

表3-1-2分为2~8类的聚类结果

ClusterMembership

Case

8Clusters

7Clusters

6Clusters

5Clusters

4Clusters

3Clusters

2Clusters

北京

天津

河北

山西

内蒙古

辽宁

吉林

黑龙江

上海

10:

江苏

11:

浙江

12:

安徽

13:

福建

14:

江西

15:

山东

16:

河南

17:

湖北

18:

湖南

19:

广东

20:

广西

21:

海南

22:

重庆

23:

四川

24:

贵州

25:

云南

26:

西藏

27:

陕西

28:

甘肃

29:

青海

30:

宁夏

31:

新疆

图3-1-1冰柱图（Q型聚类）

（A）

（B）

（C）

图3-1-2树形聚类图（Q型聚类）

2）、R型聚类分析

操作步骤如下：

（1）依次选择AnalPze→ClassifP命令，在ClassifP命令下选择Hierarchicalcluster（系统聚类法）。

（2）Cluster下选择Variables单选框。

将9个变量移入Variables框中。

（3）选择Statistics选项，选中Agglomerationschedule复选框；ClusterMembership栏中选择Rangeofsolution并在其后两个小矩形框中分别填入2和5。

单击Continue继续。

（4）选择Plots选项，选中Dendrogram复选框，其他默认，单击Continue继续。

（5）选择Method选项，ClusterMethod下拉列表中分别选择Between—groupslinkage（组间联结法,即类平均法）、NearestNeighbor（最短距离法）和FurthestNeighbor（最长距离法）；在Measure的Interval下拉列表中选择SquaredEuclideandistance，在Transformvalue栏中Standardize下拉列表中选择range0to1；其他默认，单击Continue继续。

（6）其他为默认项，单击OK，得到变量聚类结果如下。

表3-2-1聚类的凝聚过程表（R型聚类）

AgglomerationSchedule

Stage

ClusterCombined

Coefficients

StageClusterFirstAppears

NePtStage

Cluster1

Cluster2

Cluster1

Cluster2

.005

.015

.155

.270

.351

.630

1.334

2.757

表3-2-2分为2~5类的聚类结果

ClusterMembership

Case

5Clusters

4Clusters

3Clusters

2Clusters

图3-2-1冰柱图（R型聚类）

（A）

（B）

（C）

图3-2-2树形聚类图（R型聚类）

4、结果分析

1）、Q型聚类：

（1）表3-1-1是Cluster过程的输出。

其中：

●Stage，聚类步顺序号。

Cluster1，Cluster2是该步被合并的两类中的观测量号。

●Coefficient，距离测度值，表明不相似性的系数。

由于选择了欧氏距离平方作为距离测度，因此表中可以看出数值较小的两项比数值较大的两项先合并。

第一步是第7个观测量与第8个观测量合并；第二步为第20个观测量与第27个观测量合并。

●StageClusterFirstAppears，合并的两项第一次出现的聚类步序号。

●NePtStage，此步合并结果在下一步合并时的步序号。

（2）表3-1-2聚类结果表明各观测量分别被分到哪一类。

（3）图3-1-1所示冰柱图。

从出现空白处分解，可以看出各类的划分。

从图中可以清楚地看到那些国家被归为一类，从而得出最后的分类结论。

（4）图3-1-2中（A）、（B）、（C）分别反映的是利用类平均法、最短距离法和最长距离法进行聚类的树形图。

直观看出，类平均法分为三类：

{北京}为第一类，{天津，上海，广东，浙江}为第二类，其他为第三类；最短距离法分为三类：

{北京}为第一类，{天津}为第二类，其他为第三类；最长距离法也分为三类：

{北京}为第一类，{天津，上海，广东。

浙江}为第二类，其他为第三类。

可以看出，类平均法和最长距离法的分类结果是一致的。

综上所述可以得出结论，根据房地产价格的区域性特征将全国31个省市地区分为三类比较合适，分别为：

{北京}为第一类，{天津，上海，广东，浙江}为第二类，其他为第三类。

2）、R型聚类：

看图3-2-2中（A）、（B）和（C），很显然三种聚类法得出的聚类结果完全一致。

因此可以得出结论，可以将P1：

房屋平均销售价格；P2：

住宅平均销售价格；P3：

别墅、高档公寓平均销售价格；P4：

经济适用房平均销售价格；P5：

办公楼平均销售价格；P6：

商业营业用房平均销售价格；P7：

其他平均销售价格；P8：

商品房销售面积；P9：

住宅销售面积这九项指标分为三类：

{P8：

商品房销售面积,P9：

住宅销售面积}为第一类，{P4：

经济适用房平均销售价格}为第二类，其他为第三类。

另外我们可以推测，第一类指标对房地产市场影响最大，其次是第二类指标，最后是第三类指标。

展开阅读全文