两步聚类中文版详解Word格式文档下载.docx

资源描述

两步聚类中文版详解Word格式文档下载.docx

《两步聚类中文版详解Word格式文档下载.docx》由会员分享，可在线阅读，更多相关《两步聚类中文版详解Word格式文档下载.docx（9页珍藏版）》请在冰豆网上搜索。

两步聚类中文版详解Word格式文档下载.docx

在下面几节中,我们介绍两步聚类的方法和案例研究中的输入、输出和结果的分析。

第三节统计方法

数据分组（或数据集群）是一种方法,可以形成具有类似特征的类的对象。

集群通常是与分类混淆,但有一个主要的区别,即分类时,对象被分配到预定义的类,而在集群的情况下,必须定义这些类。

我们预计数据时使用集群技术自然得分组到不同的类别。

集群类别的物品有很多共同的特点,例如,客户、事件等等。

如果问题是复杂的,在聚类数据前,其他数据挖掘技术也可以应用（如神经网络和决策树）。

经典的聚类方法使用分层或分区算法。

分层算法在集群的基础之上建立集群,而分区算法在同一时间确定所有的集群,建立不同的分区,然后评估他们某些标准。

在SPSS中,聚类分析可以使用两步聚类、分层集群或k-means聚类,每个方法都依赖不同的算法来创建集群。

最后两个经典的分类方法是基于分层、分区的算法,而二步聚类方法在SPSS中是特别设计和实现的方法。

对于应用程序而言，考虑到不同的数据类型这种情况，分层集群方法是有限的小数据集,k-means仅限于连续值，而两步聚类方法基于连续和分类变量的情况下可以创建集群模型。

接下来,我们将探讨两步聚类方法,突出其优势之处。

第四节两步聚类方法的分析

两步聚类方法是设计用来分析大型数据集的算法。

这个算法会用标准方法将不同的观察结果分组到不同的集群之中。

这个过程会使用一个凝聚的层次聚类方法。

与经典的聚类分析方法相比,两步聚类分析方法使用连续的分类属性。

此外,该方法可以自动确定最优数量的集群。

两步聚类分析方法的实现主要包括下面几个步骤：

o预聚类

o解决处理非典型值（异常值）--噪声处理，可选

o聚类

在预聚类步骤中,它会扫描数据记录,基于标准的距离决定当前记录是否可以添加到一个以前形成的集群或开始一个新的集群。

测距的方法使用了两个类型:

欧式距离和对数似然距离。

预聚类过程的实现通过构建一个数据结构（称为CF（集群特性）树）,其中包含集群中心。

CF树有水平的节点,每个节点有一个条目的数量。

叶子节点是最后的子类。

对于每一个记录,从根节点开始,找到最近的子节点递归,沿着CF树下行。

一旦到达一个叶子节点,该算法找到最近的叶子节点中的叶条目。

如果记录的数量在一个阈值距离之内,就会记录添加到叶子节点并且CF树更新。

否则,它会创建一个新的叶子节点的值。

在构建CF树的过程中,该算法实现了一个可选的步骤：

可以解决非典型值（异常值）。

离群值被认为并不能很好的适合任何集群的一个记录。

在SPSS，在一片叶子中如果记录的数量小于一定比例的规模最大的CF树中的叶子条目就会被认为是离群值;

默认情况下,这个比例是25%。

在重建CF树之前,会搜索潜在的典型值,将他们放在一边。

CF树重建后,程序检查这些值是否恰当，是否可以不增加树的大小。

最后,值不恰当会被认为是离群值。

如果CF树超过允许的最大尺寸,它会基于现有的CF树，通过增加阈值距离重建CF树,。

新的CF树会小很多,也允许输入新的记录。

预聚类作为输入的一个步骤会产生有子类的聚类（没有噪声，如果你选择了处理非典型值这个选项）并且组成有价值的聚类的数量。

因为子类的数量远小于初始时的记录数量，因此经典的聚类方法可以成功地使用。

两步聚类方法使用一个凝结的自动分层方法决定了集群的数量。

层次聚类方法是指集群不断融合的过程,直到一个集群组包括所有的记录。

这个过程始于为每个子集定义一个初始集群。

然后,所有集群进行比较并且集群之间的距离是最小的两个集群会合并成一个集群。

这个过程会一直重复直到所有集群已经合并。

因此,它是相当简单的比较不同数量的集群解决方案。

计算集群之间的距离,可以使用欧式距离和对数似然距离。

欧式距离只有所有变量是连续的情况下可以使用。

欧式距离是在m维空间中两个点的真实距离。

对于集群来说,两个集群之间中心之间的距离被定义为欧式距离。

集群中心被定义为集群中变量的容器。

可以使用对数似然距离来分析连续和分类变量。

两个集群之间的距离与似然函数的自然对数的减少是相关的,因此他们会被分组到一个集群。

计算对数似然距离,假定连续变量正态分布和分类变量的多项式分布,以及变量是相互独立的。

定义i和j两个集群之间的距离为：

其中

在公式

（2）中

是i和j两个集群之间的距离；

索引代表通过集群i和j的结合后生成的新的集群；

是所有连续变量的总数；

是所有分组变量的总数；

是第k个分类变量的数量；

是S集群中所有数据记录的数量；

是S集群的数量，分类变量k分成了l个分组；

是分组变量k分成l个分组的记录的数量；

对整个数据集来说，是对连续变量k的方差（离散）的估计，在集群j中，对于连续变量k的方差估计。

为了自动确定集群的数量,该方法使用两个阶段。

在第一个阶段,指示器BIC（施瓦兹-贝叶斯准则）或AIC（Akaike准则）计算为每个集群从一个指定范围中计算数量;

然后这个指示器用于寻找一个初始估计集群的数量。

对于J集群，两个指示器通过公式（4）和（5）计算得出，过程如下

变量的相对贡献形成了集群计算的两种类型的变量（连续和分类）。

连续变量的重要性的衡量标准是基于:

在这个公式中：

是连续变量估计值的意思，并且是集群j中连续变量k的估计值。

在H0（零假设），重要性衡量中学生分布呈Nk-1的自由度分布。

显著性水平是双侧的。

对于分组变量，重要性衡量是建立在X2的基础上的：

在零假设中，作为一个X2和LK的自由度。

对于项目的集群成员,记录被分配用于解决非典型值的规范（噪声）和选择测量的距离。

如果解决非典型值的选择不使用,根据距离测量的方法，值会分配给最近的集群中。

否则,该值是区别对待的,如下:

1）在欧几里得的方法的情况下,一个项目被分配到最近的集群,如果它们之间的距离小于临界值：

否则，该项目被声明为噪声（异常）

2）如果选择对数似然方法,它假定噪声均匀分布,并且计算对数似然对应于一个有噪声项目且分配到最近的无噪声集群。

然后,项目分配给集群获得对数的最高价值。

这相当于将一个项目分配给最近的集群,如果它们之间的距离小于临界值。

否则,项目被指定为噪音。

总之,该方法的一个重要优点是它与混合数据操作（包括连续和分类数据）。

另一个优势是,尽管两步聚类方法处理大型数据集,就所需处理这些数据的时间而言,这种方法比其他方法需要更短的时间。

缺点是两步聚类方法不允许丢失值且缺失值的项目不考虑分析

第五节案例研究

自从两步聚类方法开始成为大型数据集和处理混合数据的首选后,我们应用此方法并使用一些从银行获取的的公共数据聚类数据。

（另一方面,这些数据被用在另一个应用程序来减少维度应用PCA（主成分分析）。

并在下文给出了该方法的输入和输出。

第六节输入

供给我们研究的数据集是从一家银行提供的公共数据库中的信息，数据真实可靠，在SPSS中，大致有14000条记录。

这个表包含信用卡还款的的持续时间信息,信用历史，信用卡申请用途,信贷金额,储蓄账户,工龄,还款周期,个人状态、居住权、财产、年龄、住房、银行信用额度,工作,家属和信用批准状态等等。

表1中给出这个数据的一部分。

数据库包含3个分类变量和4个连续变量。

默认情况下，连续变量被标准化。

因为我们使用混合数据，我们在距离度量上只有对数似然的选择。

在第一次运行，我们选择BIC确定聚类的数量，虽然我们可以重写此步骤并指定一个固定的数字。

但是结果使用AIC运行是和BIC运行结果是一致的，所以目前我们使用BIC指标。

关于对于我们数据集的噪声处理方面，我们决定不检查噪声。

异常值定义为在CF树的情况下，其他的叶子不超过规定的最大叶大小的百分比。

通过SPSS软件的一个重要选择是XML格式的CF树或整个模型的导出。

这允许模型进行更新，以增加额外的数据集。

第7节输出

1.点击“分析|分类|两步聚类”命令，弹出“二阶聚类分析”对话框，如下所示

2.将个人税前年收入，申请人申请信用额度和工龄拖入分类变量中，并且将如下变量拖入连续变量中，账户信用额度、教育程度、申请日年龄、卡片最高卡种等级。

3.在距离变量对话框中选择“对数相似值”

4.在聚类数量中选择“指定固定值”

5.在聚类准备中，选择“施瓦兹贝叶斯准则”。

6.本案例不选择噪声处理

7.点击确定，出现如下多个图表。

在SPSS中，自动聚类统计表可以用来评估我们的分析中最佳聚类的数量，如表2所示

表2

在表2中，虽然最低的BIC系数是四簇，根据统计算法，最佳聚类数是三，因为距离最大的比率是三簇。

集群分布如表3所示。

表3

图1所示的群集饼图显示了我们三个集群解决方案的相对大小。

图1

对于分类变量，集群内的百分比图显示了每个变量在每个集群内是如何分裂。

在图2中，它显示了三个簇中每个变量的占比。

图2

第八节讨论：

经过两步聚类的方法，我们得出以下结论。

第一集群，其中占比19.4%，其中包含的主要是单一的男性客户，占据管理职位（34.5%）或失业（27.3%），他们有未知的属性并且他们的信用卡申请通过率是一个小百分比（11.9%）。

集群2占比24.9%，包含女性或已婚男性客户（54.6%），主要是失业（54.5%）或非技术（47.5%），而他们申请信用卡的目的是购置设备，再培训（因为失业所以再培训以寻找新的工作）和购买家具。

最重要的集群是第三集群。

这是最大的集群（55.7%），其中大部分是单身男性或离婚的男性客户，拥有最大的储蓄账户，占管理职位（54.7%）或技术工人（50.6%），有良好的信用的历史，信用卡申请的目的是为业务，汽车（新的或二手的），或教育；

他们有自己的住房（65.1%），故他们的信用卡申请的通过率是在一个大的百分比（55.9%）。

第九节结论

聚类方法可以使用大量的数据来应用于各种领域，只是为了寻找隐藏的模式。

由于大多数来自现实世界的数据（如在银行领域，本文所涉及的分析案例）包含的数值和分类属性，经典的聚类算法不能在大量数据的情况下有效地分析。

为了解决这个问题，我们表明，两步聚类方法可以很方便的使用，这也自动决定了最佳聚类的数量。

对于我们的数据应用这种方法，我们确定了三个客户群体的配置文件。

最重要的资料包含的客户，没有不良的信用记录，其目的是获得教育或业务资金。

二是中产阶级的客户，失业，但有房地产，申请信用卡是再培训或购置家庭用品。

第三资料组的人有未知的属性，大多是失业，他们想要申请信用卡以购买些新的东西，如新的或二手汽车或电视，然后为教育。

本案例研究的目的是为本行通过信用卡的发放来更好的管理现有或可能的客户，以巩固和丰富既有的利润。

展开阅读全文