第2章数据挖掘过程与知识发现20.docx

资源描述

第2章数据挖掘过程与知识发现20.docx

《第2章数据挖掘过程与知识发现20.docx》由会员分享，可在线阅读，更多相关《第2章数据挖掘过程与知识发现20.docx（15页珍藏版）》请在冰豆网上搜索。

第2章数据挖掘过程与知识发现20.docx

第2章数据挖掘过程与知识发现20

第2章数据挖掘过程与知识发现

第一节CRISP_DM介绍

一、数据挖掘阶段

跨行业数据挖掘标准流程被行业成员广泛应用，这一模型包括以下六个阶段：

1.业务理解：

业务理解包括确定商业对象、了解现状、建立数据挖掘目标和制定计划书。

应该是对数据挖掘的目标有一个清晰的认识，知道利润所在，其中包括数据收集、数据分析和数据报告等步骤。

2.数据理解：

一旦商业对象和计划书确定完

备，数据理解就考虑将所需要的数据。

这一

过程包括原始数据收集、数据描述、数据探

索和数据质量核查等。

由于数据挖掘是目标导向的，不同的商

业目的需要不同的数据系列。

数据挖掘的第一步是从许多可供使用的数据库中筛选相关数据，来正确描述研究问题；即对问题进行简单描述；识别问题的相关数据；所选择的变量要相互独立，变量独立意味着不涵盖重复信息。

3.数据准备：

确定可用的数据资源以后，需

要对此进行筛选、清理、调整为所需要的形

式。

数据整理和数据转换等数据建模的准备

工作需要在这一阶段完成。

更深层次的数据

探索也可以在这一阶段进行，新增模型的应

用再次提供了在业务理解基础上看清楚数

据模式的机会。

4.数据预先处理：

噪声问题和缺失问题

数据重复；

数值错误；

数据缺失

数据的变换

数据类型的变换；

数据的平滑；

数据的概化；

数据的规范化

十进制缩放：

将某个数据全部除以10的相同的幂；

通过极值来转化：

新数据=（原数据-最小数值）/（最大数值-最小数值）

通过均值和标准差来转化：

新数据=（原数据-均值）/标准差

通过对数来转化

对每个数据经过自然对数进行数据转换，例如下面的转换可以把数据转换到0-1之间：

O=1/（1+exp（-x））

5.建立模型：

数据模型建立是应用数据挖掘软件不同的情景下获得结果的过程。

首先往往是聚类分析和数据视觉探究。

依据数据挖掘类型的不同，应用各种不同的模型，如果任务是对数据分组，则运用判别分析；如果任务是估计，在连续数据类型的情况下，回归分析就可以运用，对于不连续的数据则可以运用逻辑回归分析，神经网络技术对两者都是可以的。

决策树是进行数据分类的另外一个重要的工具，在以后的章节中将要进行介绍。

6.数据处理：

数据挖掘的本质是在获取大规模的数据基础上进行统计数据的分析。

通过对数据进行分割，一部分成为训练集，另外一部分成为测试集。

一部分进行模型开发，另外一部分成为模型检验的部分。

数据挖掘就是可以通过关联、分类、聚类、序列模式、类似时间序列等方法来实现。

7.模型评估：

数据解释阶段是至关重要的，

要对建立的模型是否能够达到问题解决的

目的进行研究，即包括模型是否能够达到研

究的目标；模型是否能够用合适的方法显

示。

8.模型发布：

数据挖掘既可以应用于核实先

前的假设，也可以应用于知识发现（识别未

预期的有用的关系）。

显然，这几个步骤不

是一成不变的，而是互相作用的。

9.评估办法：

一般来说，研究中把大规模数据集合分为两个部分：

训练集和测试集，分类误差通常运用错差矩阵（干扰矩阵）表现出来，它可以表示出正确分类的案例数目，以及分到不正确类别的案例数。

错差矩阵中所揭示的两类错误的损害有时候不是一样的，例如，银行贷款给一个希望偿还但是没有能力偿还的，比起没有把款项贷给实际会偿还的客户更加令人痛苦。

运用成本分析方法可以比较不同的预测判别方法的成本，运用错差矩阵来度量，并且计算成本函数，例如：

表1：

错差矩阵：

误分类成本相等

电话帐单

模型中不

能够偿付

模型中

可以偿付

合计

实际不

能够偿付

实际能

够偿付

578

654

合计

126

592

718

总分类正确率等于可用正确分类数量（50+578=628）除以总案例（718）数量而得到，于是，案例中有87.5%的数据得到了正确的分类。

这里的成本函数：

190×关闭良好帐户+10×保留帐户

=190×76+10×14=14580美圆

实际上，把好的当作不好的比例相当高，是实践中难以接受的。

如果充分运用先验概率对此进行研究，则可以得到如下矩阵：

表2：

错差矩阵：

误分类成本不相等

电话帐单

模型中不

能够偿付

模型中

可以偿付

合计

实际不能

够偿付

实际能够

偿付

632

654

合计

660

718

案例中93%得到了正确地执行，说明方法得到了显著的改进。

二、讨论：

1.将下列客户年龄的数值转换为年轻（40岁以下）、中年（40-60）和老人（60岁以上）的类别。

客户

年龄（岁）

Fred

Herman

George

Frieda

Hermione

2.将下列工资转换为数值范围，20000等于0，220000等于1，其他在0-1之间

客户

工资（美元）

Fred

120000

Herman

200000

George

50000

Frieda

65000

Hermione

35000

3.几种数据挖掘技术应用于数据测试中，哪种结果是最好的？

主语

实际

回归

聚类

神经网络

基于规则

Fred

好

Herman

差

好

差

好

差

George

好

差

Frieda

好

差

Hermione

差

好

差

好

4.如果把好的当作差的成本为100美元，差的当作好的成本为500美元，则上述各种方法的成本是多少？

第二节数据挖掘的数据库支持

1.数据仓库：

因为存在大量的数据、所以才

有数据挖掘。

这些数据必须以结构化和可靠

的形式存在。

数据仓库是已知事实和相关数

据有序保存、容易读取的存储地，而这些数

据可以更好地有利于决策。

数据仓库通常整合不同的来源的信息，需要识别、获取数据并对其进行清理、分类，以利于组织决策的方式进行存储。

通常数据仓库处理流程包括以下三点：

数据产生流程；数据管理流程；信息分析流程。

数据仓库具有以下作用：

为商业用户提供完成任务所需要的数据

支持；

通过合并和协调，消除业务元素间的屏障；

提供组织中重要部分的宏观视野；

使信息获取更加及时和详细；

为特定的团队提供特定的信息；

提供判断未来发展趋势的能力。

2.数据集市：

是用来为数据挖掘分析进行特

定的服务提取的特定信息。

最初，数据集市

从独立的数据仓库中区别开来。

现在，许多

数据集市是用于连接数据仓库而不是数据

仓库的竞争产品，但是因为价格比较低廉，

仍有很多数据集市被独立使用。

度量数据仓库的详细程度的单位是粒度，数

据挖掘关注于近乎原始形式的数据，所以需

要处理数据，因为数据必须完整、正确、格

式正确。

3.联机分析处理：

联机分析处理（OLAP）是用于数据共享的

多维电子表格，可以让用户在他们认为重要的维度上提取处理，生成报表。

数据被分割成不同维度，并按照层级组织起来。

OLAP可以生成许多变量和扩展元素。

在由数据仓库、OLAP服务器和客户端组成的系统中，OLAP产品是组成部分，通常位于本地网络中，系统连接了客户端用户。

OLAP服务器将信息从数据仓库中重新提取信息，然后对数据进行处理并发送至主服务器，用户通过网络或者电子表格获取这些信息。

4.数据仓库的实现：

通过提供可靠的、完整的和干净的数据

来源，数据仓库能够减轻上述情况的发生。

从技术上来说，“脏数据”是不正确的、不完整的或格式是错误的。

与实现数据仓库系统相关的三个主要步骤如下：

系统开发；数据获取；依据用途提取数据。

5.元数据：

数据挖掘管理不同于数据管理，数据管

理关注于管理企业的所有数据，而数据仓库管理指的是数据仓库生命周期中各个阶段的设计和操作。

生命周期包括以下内容：

管理元数据：

设计数据仓库；确保数据质量；

在操作中管理系统元数据（metadata）是跟

踪数据所需要的参数集合，用于描述仓库的

组织。

数据目录使得用户能够有针对性地了

解数据仓库包含什么内容。

数据仓库的内容

由元数据定义，还提供数据的商业目的和技

术目的。

元数据包括以下内容：

可获得的数据；

各数据元素的来源；

指定数据的位置；

数据更新频率；

预定义报表和查询；

数据读取方法。

技术元素仅仅数据仓库管理员可见：

数据来源、内部和外部；

数据准备特征；

数据的逻辑结构；

数据仓库的物理结构和内容；

数据所有权；

安全权限；

系统信息。

第三节数据挖掘方法概述

本节准备介绍数据挖掘的基本方法，可依任务类别、估计、聚类和概要进行分类，类别和预测属于事前性质的，而聚类和概要属于事后性质的。

1.数据挖掘方法：

由于目的不同，数据挖掘使用了大量的模型化工具。

很多作者通过可行的工具来阐释这些目的。

这些研究方法既包括人工智能工具，也包括历史统计学方法的结晶。

统计方法是强有力的诊断工具，能够以此促进参数估计、假设检验和其他方法的发展。

而人工智能（artificialintelligence）方法不需要对数据做太多的假设。

表1：

数据挖掘模型化工具

Radding

算法

Peacock

算法

基础

任务

聚类检测

聚类分析

统计学

分类

回归模型

统计学

估计

逻辑回归

统计学

分类

判别分析

统计学

分类

神经网络

人工智能

分类

Kohionen网络

人工智能

聚类

决策树

规则推理

关联规则

人工智能

分类

关联规则

人工智能

描述

链接分析

描述

查询工具

描述

描述统计学

统计学

描述

可视化工具

统计学

描述

2.数据挖掘方法视野：

根据上述表格可以知道，若从统计学的角度看数据挖掘，其方法应该包括以下几类：

聚类分析、各种形式的回归、判别分析、多目标线性回归方法等；从人工智能的角度看数据挖掘，其方法有：

神经网络、规则推理、遗传算法等。

对于数据的处理，不同的方法的处理优劣如表2所示，即处理不同数据的能力有显著的差别，应该根据实际情况进行处理。

表2：

数据挖掘方法处理数据的综合能力

数据特征

规则推理

神经网络

案例推理

遗传算法

处理杂乱数据

好

非常好

好

非常好

处理丢失数据

好

非常好

好

处理大数据集

非常好

差

好

处理不同数据类型

好

转成数字

非常好

转成需要形式

预测的准确性

高

非常高

高

解释能力

非常好

差

非常好

好

综合难

易度

好

非常好

运行难

易度

容易

难

容易

难

3.数据挖掘的作用：

通过公开出版物中的信息可以发现问题可以分为以下几类：

分类：

用测试数据集来识别常被用来分类数据的类别和聚类，这方法典型的应用有投资风险和回报特征进行分类，以及对贷款人员的信用风险分类。

预测：

识别数据的关键特征，以便于找到公式来预测未来的事件，回归模型就是如此。

关联：

识别决定实体关系的规则，这方面的例子主要有企业财务特征分析。

检测：

确定不规则属性，对于欺诈检测特别有价值。

表3：

按照方法分类的数据挖掘应用领域

领域

方法

应用

问题类型

财务

神经网络

预测股票价格

预测

神经网络

预测破产

预测

规则推理

预测价格指数期货

预测

检测欺诈

检测

神经网络

利率预测

预测

案例推理

神经网络

银行拖欠贷款

检测

可视化

规则推理

预测拖欠贷款

预测

信用评估

预测

证券管理

预测

风险分类

分类

金融客户分级

分类

规则推理

预测

案例推理

规则推理、可视化

贷款审批

预测

第四节实证数据集演示

1.贷款申请数据：

下组数据包含了贷款申请人，完整的数据集共有650个上述的观察目标。

申请人信息有年龄、收入、资产和信用等级等变量，信用等级数据来自于信用机构，红色表示不良信用，黄色表示信用问题，绿色表示良好的信用记录，这些信息披露被假定为对申请贷款是有用的。

按时偿还表示为1，反之表示为0。

如果债务超过资产则表示为高风险，反之为低风险。

表4：

申请贷款训练数据集

年龄

收

入

资

产

债

务

贷

款

量

风险

信用等级

结果

17152低收入

11090

20455

400

高

绿

按时

25862低收入

14756

30083

2300

高

绿

按时

26169低收入

47355

49341

3100

高

黄

按时

21117低收入

21242

30278

300

高

红

延时

7127

低收入

23903

17231

900

低

黄

按时

42083中等

收入

35726

41421

300

高

红

不履行

55557中等

收入

27040

48191

1500

高

绿

按时

34843中等

收入

21031

2100

高

红

按时

74295中等

收入

88827

100599

100

高

黄

按时

38887中等

收入

6260

33635

9400

高

绿

延时

31758中等

收入

58492

49268

1000

低

绿

按时

80180高收入

31696

69529

1000

高

黄

延时

40921中等

收入

91111

90076

2900

中

绿

按时

63124中等

收入

164631

144697

300

低

绿

按时

59006中等

收入

195759

161750

600

低

黄

按时

125713高收入

382180

315396

5200

低

绿

按时

80149高收入

511937

21923

1000

低

绿

按时

81723高收入

783164

20277

1800

低

绿

按时

99522高收入

783491

24643

900

低

绿

按时

表5是一组测试数据集。

年龄

收

入

资

产

债

务

贷

款

量

风险

信用等级

结果

37214

123420

106241

4100

低

绿

按时

57391

250410

191879

5800

低

绿

按时

36692

175037

137800

3400

低

绿

按时

67808

25174

61271

3100

高

黄

按时

102143

246148

231334

600

低

绿

按时

34579

49387

59412

4600

高

红

按时

22958

29878

36508

400

高

黄

延时

42526

109934

92494

3700

低

绿

按时

80019

78632

100957

12800

高

绿

按时

57407

117062

101967

100

低

绿

按时

对于其他信息申请者，同样可以根据信息建立数据挖掘模型。

作业：

（TRY,TRY,TRY）

1.下载软件：

SASEnterpriseMiner

2.下载软件：

SPSSClementine

展开阅读全文