数据挖掘Word下载.docx

资源描述

数据挖掘Word下载.docx

《数据挖掘Word下载.docx》由会员分享，可在线阅读，更多相关《数据挖掘Word下载.docx（28页珍藏版）》请在冰豆网上搜索。

数据挖掘Word下载.docx

数据挖掘，在“数据矿山”中找到蕴藏的“知识金块”，帮助企业减少不必要投资的同时提高资金回报。

数据挖掘给企业带来的潜在的投资回报几乎是无止境的。

世界范围内具有创新性的公司都开始采用数据挖掘技术来判断哪些是他们的最有价值客户、重新制定他们的产品推广策略（把产品推广给最需要他们的人），以用最小的花费得到最好的销售。

数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程，这些模型和关系可以用来做出预测。

数据挖掘的第一步是描述数据---计算统计变量（比如平均值、均方差等），再用图表或图片直观的表示出来，进而可以看出一些变量之间的相关性（比如有一些值经常同时出现）。

选择正确的数据源对整个数据挖掘项目的成败至关重要，在后面数据挖掘的步骤中我们会着重强调这一点。

单单是数据描述并不能为人们制订行动计划提供足够的依据，你必须用你的这些历史数据建立一个预言模型，然后再用另外一些数据对这个模型进行测试。

一个好的模型没必要与数据库中的数据100%的相符（城市交通图也不是完全的实际交通线路的等比缩小），但他在你做决策时是一个很好的指南和依据。

最后一步是验证你的模型。

比如你用所有对你的产品推广计划做出回应的人的数据库做了一个模型，来预测什么样的人会对你的产品感兴趣。

你能在得到这个模型后就直接利用这个模型做出决策或采取行动吗？

还是更稳妥一点先对一小部分客户做一个实际的测试，然后再决定？

不能干什么

数据挖掘是一个工具，而不是有魔力的权杖。

它不会坐在你的数据库上一直监视着数据库，然后当他发现有意义的模型时给你发一封电子邮件。

他仍然需要了解你的业务，理解你的数据，弄清分析方法。

数据挖掘只是帮助商业人士更深入、更容易的分析数据---他无法告诉你某个模型对你的企业的实际价值。

而且数据挖掘中得到的模型必须要在现实生活中进行验证。

注意数据挖掘中得到的预言模型并不会告诉你一个人为什么会做一件事、采取某个行动，他只会告诉你他会这样做，为什么要人去考虑。

比如，数据挖掘可能会告诉你，如果这个人是男的、年收入在5万到6万之间，那么他可能会买你的商品/服务。

你可能会利用这条规则，集中向这类人推销你的商品而从中获益，但是数据挖掘工具不会告诉你他们为什么会买你的东西，也不能保证所有符合这条规则的人都会买。

为了保证数据挖掘结果的价值，你自己必须了解你的数据，这一点至关重要。

输入数据库中的异常数据、不相关的字段或互相冲突的字段（比如年龄和生日不一致）、数据的编码方式等都会对数据挖掘输出结果的质量产生影响。

虽然一些算法自身会对上面提到的这些问题做一些考虑，但让算法自己做所有这些决定是不明智的。

数据挖掘不会在缺乏指导的情况下自动的发现模型。

你不能这样对数据挖掘工具说，“帮我提高直接邮件推销的响应率”，你应该让数据挖掘工具找

（1）对你的推销回应的人，或

（2）即回应又做了大量订单的人的特征。

在数据挖掘中寻找这两种模型是很不相同的。

虽然数据挖掘工具使你不必再掌握艰深的统计分析技术，但你仍然需要知道你所选用的数据挖掘工具是如何工作的，他所采用的算法的原理是什么。

你所选用的技术和优化方法会对你的模型的准确度和生成速度产生很大影响。

数据挖掘永远不会替代有经验的商业分析师或管理人员所起的作用，他只是提供一个强大的工具。

每个成熟的、了解市场的公司都已经具有一些重要的、能产生高回报的模型，这些模型可能是管理人员花了很长时间，作了很多调查，甚至是经过很多失误之后得来的。

数据挖掘工具要做的就是使这些模型得到的更容易，更方便，而且有根据。

数据挖掘和数据仓库

大部分情况下，数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中（见图1）。

从数据仓库中直接得到进行数据挖掘的数据有许多好处。

就如我们后面会讲到的，数据仓库的数据清理和数据挖掘的数据清理差不多，如果数据在导入数据仓库时已经清理过，那很可能在做数据挖掘时就没必要在清理一次了，而且所有的数据不一致的问题都已经被你解决了。

数据挖掘库可能是你的数据仓库的一个逻辑上的子集，而不一定非得是物理上单独的数据库。

但如果你的数据仓库的计算资源已经很紧张，那你最好还是建立一个单独的数据挖掘库。

当然为了数据挖掘你也不必非得建立一个数据仓库，数据仓库不是必需的。

建立一个巨大的数据仓库，把各个不同源的数据统一在一起，解决所有的数据冲突问题，然后把所有的数据导到一个数据仓库内，是一项巨大的工程，可能要用几年的时间花上百万的钱才能完成。

只是为了数据挖掘，你可以把一个或几个事务数据库导到一个只读的数据库中，就把它当作数据集市，然后在他上面进行数据挖掘。

数据挖掘和在线分析处理（OLAP）

一个经常问的问题是，数据挖掘和OLAP到底有何不同。

下面将会解释，他们是完全不同的工具，基于的技术也大相径庭。

OLAP是决策支持领域的一部分。

传统的查询和报表工具是告诉你数据库中都有什么（whathappened），OLAP则更进一步告诉你下一步会怎么样（Whatnext）、和如果我采取这样的措施又会怎么样（Whatif）。

用户首先建立一个假设，然后用OLAP检索数据库来验证这个假设是否正确。

比如，一个分析师想找到什么原因导致了贷款拖欠，他可能先做一个初始的假定，认为低收入的人信用度也低，然后用OLAP来验证他这个假设。

如果这个假设没有被证实，他可能去察看那些高负债的账户，如果还不行，他也许要把收入和负债一起考虑，一直进行下去，直到找到他想要的结果或放弃。

也就是说，OLAP分析师是建立一系列的假设，然后通过OLAP来证实或推翻这些假设来最终得到自己的结论。

OLAP分析过程在本质上是一个演绎推理的过程。

但是如果分析的变量达到几十或上百个，那么再用OLAP手动分析验证这些假设将是一件非常困难和痛苦的事情。

数据挖掘与OLAP不同的地方是，数据挖掘不是用于验证某个假定的模式（模型）的正确性，而是在数据库中自己寻找模型。

他在本质上是一个归纳的过程。

比如，一个用数据挖掘工具的分析师想找到引起贷款拖欠的风险因素。

数据挖掘工具可能帮他找到高负债和低收入是引起这个问题的因素，甚至还可能发现一些分析师从来没有想过或试过的其他因素，比如年龄。

数据挖掘和OLAP具有一定的互补性。

在利用数据挖掘出来的结论采取行动之前，你也许要验证一下如果采取这样的行动会给公司带来什么样的影响，那么OLAP工具能回答你的这些问题。

而且在知识发现的早期阶段，OLAP工具还有其他一些用途。

可以帮你探索数据，找到哪些是对一个问题比较重要的变量，发现异常数据和互相影响的变量。

这都能帮你更好的理解你的数据，加快知识发现的过程。

数据挖掘，机器学习和统计

数据挖掘利用了人工智能（AI）和统计分析的进步所带来的好处。

这两门学科都致力于模式发现和预测。

数据挖掘不是为了替代传统的统计分析技术。

相反，他是统计分析方法学的延伸和扩展。

大多数的统计分析技术都基于完善的数学理论和高超的技巧，预测的准确度还是令人满意的，但对使用者的要求很高。

而随着计算机计算能力的不断增强，我们有可能利用计算机强大的计算能力只通过相对简单和固定的方法完成同样的功能。

一些新兴的技术同样在知识发现领域取得了很好的效果，如神经元网络和决策树，在足够多的数据和计算能力下，他们几乎不用人的关照自动就能完成许多有价值的功能。

数据挖掘就是利用了统计和人工智能技术的应用程序，他把这些高深复杂的技术封装起来，使人们不用自己掌握这些技术也能完成同样的功能，并且更专注于自己所要解决的问题。

软硬件发展对数据挖掘的影响

使数据挖掘这件事情成为可能的关键一点是计算机性能价格比的巨大进步。

在过去的几年里磁盘存储器的价格几乎降低了99%，这在很大程度上改变了企业界对数据收集和存储的态度。

如果每兆的价格是￥10，那存放1TB的价格是￥10,000,000，但当每兆的价格降为1毛钱时，存储同样的数据只有￥100,000！

计算机计算能力价格的降低同样非常显著。

每一代芯片的诞生都会把CPU的计算能力提高一大步。

内存RAM也同样降价迅速，几年之内每兆内存的价格由几百块钱降到现在只要几块钱。

通常PC都有64M内存，工作站达到了256M，拥有上G内存的服务器已经不是什么新鲜事了。

在单个CPU计算能力大幅提升的同时，基于多个CPU的并行系统也取得了很大的进步。

目前几乎所有的服务器都支持多个CPU，这些SMP服务器簇甚至能让成百上千个CPU同时工作。

基于并行系统的数据库管理系统也给数据挖掘技术的应用带来了便利。

如果你有一个庞大而复杂的数据挖掘问题要求通过访问数据库取得数据，那么效率最高的办法就是利用一个本地的并行数据库。

所有这些都为数据挖掘的实施扫清了道路，随着时间的延续，我们相信这条道路会越来越平坦。

数据挖掘应用

由于数据挖掘带来的显著的经济效益，使数据挖掘越来越普及。

他不仅能用于控制成本，也能给企业带来效益。

很多企业都在利用数据挖掘技术帮助管理客户生命周期的各个阶段，包括争取新的客户、在已有客户的身上赚更多的钱、和保持住好的客户。

如果能够确定好的客户的特点，那么就能提供为客户提供针对性的服务。

比如，已经发现了购买某一商品的客户的特征，那么就可以向那些具有这些特征但还没有购买此商品的客户推销这个商品；

找到流失的客户的特征就可以，在那些具有相似特征的客户还未流失之前进行针对性的弥补，因为保留一个客户要比争取一个客户便宜的多。

数据挖掘可以应用在各个不同的领域。

电讯公司和信用卡公司是用数据挖掘检测欺诈行为的先行者。

保险公司和证券公司也开始采用数据挖掘来减少欺诈。

医疗应用是另一个前景广阔的产业：

数据挖掘可以用来预测外科手术、医疗试验和药物治疗的效果。

零销商更多的使用数据挖掘来决定每种商品在不同地点的库存，通过数据挖掘更灵活的使用促销和优惠卷手段。

制药公司通过挖掘巨大的化学物质和基因对疾病的影响的数据库来判断哪些物质可能对治疗某种疾病产生效果。

成功的数据挖掘

有保证数据挖掘成功的两个关键要素。

一是准确的定义你所要解决的问题，定位准确的问题通常会带来最好的回报。

二是使用正确的数据，选定了你所能得到的数据，也许还要从外部购买数据，你需要对这些数据做有效的数据整合和转换。

描述型数据挖掘

统计和可视化

要想建立一个好的预言模型，你必须了解自己的数据。

最基本的方法是计算各种统计变量（平均值、方差等）和察看数据的分布情况。

你也可以用数据透视表察看多维数据。

数据的种类可分为连续的，有一个用数字表示的值（比如销售量）或离散的，分成一个个的类别（如红、绿、蓝）。

离散数据可以进一步分为可排序的，数据间可以比较大小（如，高、中、低）和标称的，不可排序（如邮政编码）。

图形和可视化工具在数据准备阶段尤其重要，它能让你快速直观的分析数据，而不是给你枯燥乏味的文本和数字。

它不仅让你看到整个森林，还允许你拉近每一棵树来察看细节。

在图形模式下人们很容易找到数据中可能存在的模式、关系、异常等，直接看数字则很难。

可视化工具的问题是模型可能有很多维或变量，但是我们只能在2维的屏幕或纸上展示它。

比如，我们可能要看的是信用风险与年龄、性别、婚姻状况、参加工作时间的关系。

因此，可视化工具必须用比较巧妙的方法在两维空间内展示n维空间的数据。

虽然目前有了一些这样的工具，但它们都要用户“训练”过他们的眼睛后才能理解图中画的到底是什么东西。

对于眼睛有色盲或空间感不强的人，在使用这些工具时可能会遇到困难。

聚集（分群）

聚集是把整个数据库分成不同的群组。

它的目的是要群与群之间差别很明显，而同一个群之间的数据尽量相似。

与分类不同（见后面的预测型数据挖掘），在开始聚集之前你不知道要把数据分成几组，也不知道怎么分（依照哪几个变量）。

因此在聚集之后要有一个对业务很熟悉的人来解释这样分群的意义。

很多情况下一次聚集你得到的分群对你的业务来说可能并不好，这时你需要删除或增加变量以影响分群的方式，经过几次反复之后才能最终得到一个理想的结果。

神经元网络和K-均值是比较常用的聚集算法。

不要把聚集与分类混淆起来。

在分类之前，你已经知道要把数据分成哪几类，每个类的性质是什么，聚集则恰恰相反。

关联分析

关联分析是寻找数据库中值的相关性。

两种常用的技术是关联规则和序列模式。

关联规则是寻找在同一个事件中出现的不同项的相关性，比如在一次购买活动中所买不同商品的相关性。

序列模式与此类似，他寻找的是事件之间时间上的相关性，如对股票涨跌的分析。

关联规则可记为A==>

B，A称为前提和左部（LHS），B称为后续或右部（RHS）。

如关联规则“买锤子的人也会买钉子”，左部是“买锤子”，右部是“买钉子”。

要计算包含某个特定项或几个项的事务在数据库中出现的概率只要在数据库中直接统计即可。

某一特定关联（“锤子和钉子”）在数据库中出现的频率称为支持度。

比如在总共1000个事务中有15个事务同时包含了“锤子和钉子”，则此关联的支持度为1.5%。

非常低的支持度（比如1百万个事务中只有一个）可能意味着此关联不是很重要，或出现了错误数据（如，“男性和怀孕”）。

要找到有意义的规则，我们还要考察规则中项及其组合出现的相对频率。

当已有A时，B发生的概率是多少？

也即概率论中的条件概率。

回到我们的例子，也就是问“当一个人已经买了锤子，那他有多大的可能也会买钉子？

”这个条件概率在数据挖掘中也称为可信度，计算方法是求百分比：

（A与B同时出现的频率）/（A出现的频率）。

让我们用一个例子更详细的解释这些概念：

总交易笔数（事务数）：

1,000

包含“锤子”：

包含“钉子”：

包含“钳子”：

包含“锤子”和“钉子”：

包含“钳子”和“钉子”：

包含“锤子”和“钳子”：

包含“锤子”、“钳子”和“钉子”：

则可以计算出：

“锤子和钉子”的支持度=1.5%（15/1,000）

“锤子、钉子和钳子”的支持度=0.5%（5/1,000）

“锤子==>

钉子”的可信度=30%（15/50）

“钉子==>

锤子”的可信度=19%（15/80）

“锤子和钉子==>

钳子”的可信度=33%（5/15）

“钳子==>

锤子和钉子”的可信度=25%（5/20）

我们可以看到买锤子的人也买钉子的可能性（30%）高于买钉子的人要买锤子的可能性（19%）。

锤子和钉子关联的支持度已经足够高了，意味着这是一条有意义的关联规则。

改善度（lift）是另外一个描述规则价值的数值。

改善度越高A的出现对B出现的可能性影响越大。

改善度是一个比值：

（A==>

B的可信度）/（B出现的频率）。

如：

钉子”的改善度：

3.75（30%/8%）

钳子”的改善度：

16.5（33%/2%）

关联规则算法的另一个重要的性质是指定项的概念层次。

比如在我们讨论的锤子和钉子的例子中没有涉及产品的品牌和型号。

这一点很重要，如在“金属制品-->

五金工具-->

钉子-->

5号钉子-->

XX厂的5号钉子”的概念层次上，基于不同的目的，你可能需要选择不同的层次。

注意数据挖掘得到的关联规则或序列模式并不是真正的规则，他只是对数据库中数据之间相关性的一种描述。

还没有其他数据来验证得到的规则的正确性，也不能保证利用过去的数据得到的规律在未来新的情况下仍有效。

有时很难决定能利用你发现的关联规则做些什么。

比如，在超市货架的摆放策略上，按照发现的关联规则把相关性很强的物品放在一起，反而可能会使整个超市的销售量下降—顾客如果可以很容易的找到他要买的商品，他就不会再买那些本来不在他的购买计划上的商品。

总之，在采取任何行动之前一定要经过分析和实验，即使它是利用数据挖掘得到的知识。

有些软件产品用图形的方式显示项之间的相关性。

如图3所示，每个圆圈代表一个项或一个事件，线代表他们间的关系，线越粗表示相关性越强，这样对软件的使用者来说就很直观。

预言型数据挖掘

你需要选择的

数据挖掘的目的是生成可以据其所示的含义采取行动的知识，也就是建立一个现实世界的模型。

建立这个模型可能需要各种各样的源数据，包括交易记录、顾客历史数据、人口统计信息、进程控制数据、和市场相关的外部数据等，比如：

信用卡公司提供的数据、天气数据等。

模型是模式和数据间相关性的形式化描述。

为了防止混淆，我们把数据挖掘概念划分为几个层次

✧✧

商业目标

预言的种类

模型的类型

算法

产品

最高层是商业目标：

数据挖掘的最终目的是什么？

比如：

希望用数据挖掘技术留住你的有价值的客户，你可能先要建立一个模型来预测每个客户所能带来的利润，然后再建立一个模型来确定哪些客户可能会离开。

充分了解你所在企业的需求和目标有助于你建立这样的目标。

下一步是决定最合适的预言的种类：

（1）分类：

预测一个特定的客户或事件属于哪一类；

（2）回归（regression）：

预测一个变量的值（如果此变量随事件变化，可成为时间序列预测）。

在上面的例子中你可以用回归来预测利润的大小，用分类预测哪些客户会离开。

后面我们会详细讨论。

现在你可以选择模型的类型：

用神经网络来做回归，决策树做分类，还是用统计模型，如：

逻辑回归，偏差分析，普通线性模型等。

下一章我们要详细讨论这些模型。

每种模型都可以用不同的算法来实现，比如，可以用回馈函数或radialbasis函数来建立神经网络；

决策树有CART，C5.0，QUEST，CHAID等。

在选择数据挖掘软件产品时，要注意这些软件所采用的算法虽然名称可能完全一样，但他们的实现方法通常都是不一样的。

这些对算法的不同实现影响了软件对内存、硬盘的需求的不同，和性能上的差异。

大部分的商业目标都可以用各种不同的模型及相异的算法来解决。

通常在你还没有试过任何数据挖掘算法之前，很难决定那种对你来说是最好的。

一些术语

在预言模型中，把我们要预测的值或所属类别称为响应变量、依赖变量或目标变量；

用于预测的输入变量是预测变量或独立变量。

一些预言模型是通过那些已知目标变量值的历史数据训练出来的。

这种训练有时也称为带指导的学习，因为是通过给出一些已知答案的问题（已知结果的数据）来让他“学习”。

相对应的，还有不带指导的学习，如上面提到的描述型数据挖掘（在运行之前，算法对数据一无所知）。

分类

分类要解决的问题是为一个事件或对象归类。

在使用上，既可以用此模型分析已有的数据，也可以用它来预测未来的数据。

例如，用分类来预测哪些客户最倾向于对直接邮件推销做出回应，又有哪些客户可能会换他的手机服务提供商，或在医疗领域当遇到一个病例时用分类来判断一下从哪些药品着手比较好。

数据挖掘算法的工作方法是通过分析已知分类信息的历史数据总结出一个预测模型。

这里用于建立模型的数据称为训练集，通常是已经掌握的历史数据。

如，已经不再接受服务的用户，你很可能还保存了他们在接受服务时的历史记录。

训练集也可以是通过实际的实验得到的数据。

比如你从包含公司所有顾客的数据库中取出一部分数据做实验，向他们发送介绍新产品的推销信，然后收集对此做出回应的客户名单，然后你就可以用这些推销回应记录建立一个预测哪些用户会对新产品感兴趣的模型，最后把这个模型应用到公司的所有客户上。

回归

回归是通过具有已知值的变量来预测其他变量的值。

在最简单的情况下，回归采用的是象线性回归这样的标准统计技术。

但在大多数现实世界中的问题是不能用简单的线性回归所能预测的。

如商品的销售量、股票价格、产品合格率等，很难找到简单有效的方法来预测，因为要描述这些事件的变化所需的变量以上百计，且这些变量本身往往都是非线性的。

为此人们又发明了许多新的手段来试图解决这个问题，如逻辑回归、决策树、神经网络等。

一般同一个模型既可用于回归也可用于分类。

如CART决策树算法既可以用于建立分类树，也可建立回归树。

神经网络也一样。

时间序列

时间序列是用变量过去的值来预测未来的值。

与回归一样，他也是用已知的值来预测未来的值，只不过这些值的区别是变量所处时间的不同。

时间序列采用的方法一般是在连续的时间流中截取一个时间窗口（一个时间段），窗口内的数据作为一个数据单元，然后让这个时间窗口在时间流上滑动，以获得建立模型所需要的训练集。

比如你可以用前六天的数据来预测第7天的值，这样就建立了一个区间大小为7的窗口。

数据挖掘模型和算法

现在我们来讨论数据挖掘算法中涌到的各种类型的模型和算法。

大多数数据挖掘产品使用的算法都是在计算机科学或统计数学杂志上发表过的成熟算法，所不同的只是算法的实现和对性能的优化。

当然也有一些公司采用的是自己研发的未公开的算法，效果也不错。

我们下面将要介绍的模型和算法都是数据挖掘中最常见的和应用最广泛的，在计算机科学、统计数学、和人工智能领域的科学家们已经在研究和改进这些算法方面作了大量的工作。

几乎所有的数据挖掘技术都可称为是数据驱动的，而不是用户驱动的，也就是说用户在使用这些算法时，只要给出数据，不用告诉算法程序怎么做和期待得到什么结果，一切都是算法自身从给定的数据中自己找出来。

应注意的是大部分算法都不是专为解决某个问题而特制的，算法之间也并不互相排斥。

不能说一个问题一定要采用某种算法，别的就不行。

一般来说并不存在所谓的最好的算法，在最终决定选取那种模型或算法之前，你可能各种模型都试一下，然后再选取一个较好的，或只试了一个就已经满足了你对准确度的要求。

神经网络

神经网络近来越来越受到人们的关注，因为它为解决大复杂度问题提供了一种相对来说比较有效的简单方法。

神经网络可以很容易的解决具有上百个参数的问题（当然实际生物体中存在的神经网络要比我们这里所说的程序模拟的神经网络要复杂的多）。

神经网络常用于两类问题：

分类和回归。

在结构上，可以把一个神经网络划分为输入层、输出层和隐含层（见图4）。

输入层的每个节点对应一个个的预测变量。

输出层的节点对应目标变量，可有多个。

在输入层和输出层之间是隐含层（对神经网络使用者来说不可见），隐含层的层数和每层节点的个数决定了神经网络的复杂度。

除了输入层的节点，神经网络的每个节点都与很多它前面的节点（称为此节点的输入节点）连接在一起，每个连接对应一个权重Wxy，此节点的值就是通过它所有输入节点的值与对应连接权重乘积的和作为一个函数的输入而得到，我们把这个函数称为活动函数或挤压函数。

如图5中节点4输出到节点6的值可通过如下计算得到：

W14*节点1的值+W24*节点2的值

神经网络的每个节点都可表示成预测变量（节点1，2）的值或值的组合（节点3-6）。

注意节点6的值已经不再是节点1、2的线性组合，因为数据在隐含层中传递时使用了活动函数。

实际上如果没有活动函数的话，神经元网络就等价于一个线性回归函数，如果此活动函数是某种特定的非线性函数，那神经网络

展开阅读全文