数据挖掘自行车.docx

资源描述

数据挖掘自行车.docx

《数据挖掘自行车.docx》由会员分享，可在线阅读，更多相关《数据挖掘自行车.docx（13页珍藏版）》请在冰豆网上搜索。

数据挖掘自行车.docx

数据挖掘自行车

自行车购买预测

随着社会的发展,越来越多的人趋于购买私家车，但又由于油价越来越贵,交通越来越拥挤。

更多的人倾向于购买既省钱又环保的自行车。

本报告针对给出的案例，运用EXCEL中的数据挖掘工具分析影响人们购买自行车的各个因素：

如有没有私家车，有没有家庭，收入，所受的教育等。

一．预测的目的

同过对自行车购买的预测，可以有效的解决自行车生产商对于其市场的定位，适合的人群，以及客户的购买能力有一个很好地把握。

可以帮助其更好的出售产品，如同“啤酒与尿布”一样，可以提高企业的收益率。

其次，通过预测，可以改善企业的产业结构，使其更加符合市场的需求。

提高企业的竞争力。

对于从企业——顾客这整条价值链的提升有很大的帮助。

二．问题的分解

1.对于案例中的数据中影响人们购买自行车的各个因素单个进行分析，找出最大的影响因素。

2.对于各个因素建立一个数据模型，预测实例购买自行车的可能性。

3.对所建立的模型进行测试。

4.用所建立的模型进行预测。

三．关键技术及工具

聚类分析

决策树模型

EXCEL的数据挖掘工具神经网络模型

准确性图表

分类矩阵

MicrosoftSQL2008，MicrosoftEXCEL2007，SQL2005数据挖掘外接程序

四．数据挖掘与预测

随着信息技术的高速发展，人们积累的数据量急剧增长，如何从海量的数据中提取有用的知识成为当务之急。

数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。

其主要任务是关联分析、分类、预测时序模式和偏差分析等。

数据初步处理：

将数据分为两个部分一为分析数据（定型数据与测试数据），二为预测数据

1.神经网络模型

由于所要分析的各个因素存在大量的非线性的关系，对于案例中最后的预测数据我们可能从中找到合适的线性关系来得出结构，而运用神经网络模型可以解决这类非线性的关系。

它的构筑理念是受到生物（人或其他动物）神经网络功能的运作启发而产生的。

人工神经网络通常是通过一个基于数学统计学类型的学习方法（LearningMethod）得以优化，所以人工神经网络也是数学统计学方法的一种实际应用。

神经网络可以有MP模型和ANN模型。

其中ANN模型又分为前馈型网络和反馈型网络。

首先我们利用数据挖掘工具中的建模工具——分类。

将已经统计好的数据运用随机抽样的方法分为定型数据和测试数据。

定性数据用来建立数据模型，测试数据用来测试模型的准确性。

（定型数据492条，测试数据212条）

（1）定型数据

定型数据是指用来建立模型的数据，这些数据是从原始数据中随机抽选出来的。

我们运用建模工具——神经网络，利用定型数据以PurchasedBike为预测值，其他为输入值得到我们所需要的模型。

可以看出决策变量PurchasedBike有两个属性值，其给预测带来了很大的方便，上图我们可以看出其的概率分布是从高到低的，这种效果有助于我们找出其中的关键因素，摒弃其中对预测结果影响小的因素。

其次神经网络模型也具体给出了在定型数据中具体的买或不买自行车的具体数字方面我们统计。

（2）测试数据。

测试数据是指用来测试模型可行度与可信度的数据，这些数据是从原始数据中随机抽选出来的。

我们利用已经得到的定型数据的模型，用测试数据运用两种工具进行准确性校验。

1.准确性图表

如下图：

可以看出红色的线代表定型数据，蓝色的线代表随机的推测。

该图表的X轴表示用于比较预测的测试数据集的百分比。

给图表的Y轴表示预测为指定状态的值的百分比。

有此图可以看出此数据模型提升115.69%。

2.分类矩阵

如下如图：

可以看出原定型数据的模型准确率63.81%，错误率36.19%，可以看出所建立的模型的准确度超过50%。

同时上图也具体给出了买车，与不买车的正确的概率。

由于以上的定型数据和测试数据都是从统计的数据中随机抽取的，所以其所建立的模型的客观性及准确性无法有较大的保证。

因此我又对以上的步骤重复几次。

（3）对未知数据的预测。

根据以上得出的比较准确的定型数据的模型，我们可以利用关联分析模型或决策树模型中得到的主要因素作为输入值，通过添加多个因素对未知数据进行预测。

这样预测的结果比较准确，可信度高。

（4）单个因素对于是否够买自行车的影响

运用神经网络得出的模型通过改变因素如Cars可以看出随着拥有的私家车的数量的提高，人们越来越不趋于购买自行车。

其次，看以看出一个家庭拥有的孩子数越多越不会购买自行车，收入越高也越趋于不买自行车如下图：

左边为Cars为1，右边为Cars为4

对于Income来说，与我们平常的认识不同，收入越高人们越趋向于购买自行车。

对于Children来说，一个家庭拥有的孩子越多，越不趋于购买自行车。

而在现实生活中往往不是单个因素起决定性作用的，往往是多个因素的组合，这就加大了预测的难度，运用神经网络的模型也可以实现多个因素的预测。

总结：

对于神经网络模型来说，适用于决策变量的取值只有两个或三个的对象，对于更多的取值利用神经网络模型不可得到。

其次，神经网络适用于数据量大的模型的应用，对于小数据量来说，其的准确性会大大降低。

2.决策树模型

决策树是一种常用于预测模型的算法，它通过将大量数据有目的分类，从中找到一些有价值的，潜在的信息。

它的主要优点是描述简单，分类速度快，特别适合大规模的数据处理。

最有影响和最早的决策树方法是由quinlan提出的著名的基于信息熵的id3算法。

从数据中生成分类器的一个特别有效的方法是生成一个决策树（DecisionTree）。

决策树表示方法是应用最广泛的逻辑方法之一，它从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。

决策树分类方法采用自顶向下的递归方式，在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分支，在决策树的叶结点得到结论。

决策树法的决策过程就是利用了概率论的原理，并且利用一种树形图作为分析工具。

其基本原理是用决策点代表决策问题，用方案分枝代表可供选择的方案，用概率分枝代表方案可能出现的各种结果，经过对各种方案在各种结果条件下损益值的计算比较，为决策者提供决策依据。

管理用的决策树与数据挖掘用的决策树有很大的不同，数据挖掘用的决策树基于从杂乱无章的数据中提取分类在建立联系从而得出结果，而管理用的决策树是一个具体的案例进行方案的选择。

首先选择高级选项中的决策树模型,以PurchasedBike为预测值以其他为输入值得到模型

通过对案例中的数据进行决策树分析，看以看出如下所示：

购不购买自行车与Age和有没有Children存在着依赖关系，其中Age表现出的是强依赖，Children弱依赖。

而对于决策树来说

年龄在32~39岁之间的人群各个倾向与购买自行车。

年龄小于32岁或大于39岁的人群来说，孩子小于5个的更倾向于购买自行车。

对于决策树而言，我进行了从原始数据与分类分析进行了比较，其所给出的依赖关系与决策树得出的结论有所不同，依赖关系中少了Children而多了地区。

：

我又通过提取其他模型的关键因素发现地区不是关键的因素，因此决策树所得到的模型结果是比较准确地。

结论：

通过对决策树的分析的得出我们通常认为的收入的高低影响着人们的购买自行车的欲望这个结论是没有依据的，对于销售自行车的公司来说，应该着重针对32~39岁的这些客户群体发展。

3.聚类分析

聚类分析（clusteranalysis）是一组将研究对象分为相对同质的群组（clusters）的统计分析技术。

聚类分析也叫分类分析（classificationanalysis）或数值分类（numericaltaxonomy）。

聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。

它是一种重要的人类行为。

聚类分析的目标就是在相似的基础上收集数据来分类。

聚类源于很多领域，包括数学，计算机科学，统计学，生物学和经济学。

在不同的应用领域，很多聚类技术都得到了发展，这些技术方法被用作描述数据，衡量不同数据源间的相似性，以及把数据源分类到不同的簇中。

聚类分析能够从样本数据出发，自动进行分类。

聚类分析所使用方法的不同，常常会得到不同的结论。

如图下为PurchasedBike其中的一类

25<=Age<=37,Children=0,Occupation=Manual,

HomeOwner=No,10000<=Income<=56255,Education=PartialHighSchool,

Cars=1,MaritalStatus=Single,Education=HighSchool,Education=PartialCollege,

CommuteDistance=2-5Miles,CommuteDistance=1-2Miles,PurchasedBike=No,

Region=Europe,Cars=2,Occupation=SkilledManual,Region=NorthAmerica,

CommuteDistance=5-10Miles

下图为各个分类关系之间的依赖关系

我们可以通过调整明暗程度来区分类与类之间的具体的关系。

如对于分类2而言，其余分类6，分类3，分类5都有关联但其与分类3的联系最为紧密。

结论：

由于聚类分析其模型比较复杂，从直观上较其他模型而言不好直接观察，而且对于其具体的分类，没有剔除那些对于预测结果影响度低的因素，有可能这些因素是由于偶然原因引起的，因此此模型的准确度没有关联分析的准确性高。

但其和决策树想比，由于其内容的丰富，可对于具体的详细的数据进行预测。

4.关联分析

关联分析是数据挖掘领域常用的一类算法，主要用于发现隐藏在大型数据集中有意义的联系。

举一个大家最耳熟能详的例子，就是尿布和啤酒，表示成关联规则的形式就是｛尿壶｝——>｛啤酒｝。

这就是使用关联分析方法所得到的结果，而关联分析所得到的结果，我们可以用关联规则或者频繁项集的形式表示。

关联分析是指如果两个或多个事物之间存在一定的关联,那么其中一个事物就能通过其他事物进行预测.它的目的是为了挖掘隐藏在数据间的相互关系。

在数据挖掘的基本任务中关联（association）和顺序序贯模型（sequencing）关联分析是指搜索事务数据库（transactionaldatabases）中的所有细节或事务,从中寻找重复出现概率很高的模式或规则。

其属于灰色理论中的一种分析方法。

通过使用EXCEL数据挖掘工具中的关联分析工具，通过调整阈值和支持度来提高算法的准确性，再以purchasedbike为预测值，以其他为输入值得到关联分析模型。

如下图为purchasedbike为NO的关联。

由于模型所提供的关联太多，我们只提取依赖度高的，得到car=2，children=3，age>=65，age=57~65之间的人群更趋向于不买自行车。

结果如下图：

同理对于purchasedbike=yes的关联分析如下图：

Region，cars=1，income=34585-73842，cars=0,的人群更趋于购买自行车。

我们可以看出关联模型建立比较简单，可以很快的提取出关键的因素，可以提供很快的市场定位与预测，以便企业占领市场。

其次我们可以通过提高关联分析算法效率来提高准确度，而提高关联分析算法效率最简单的办法则是提高支持度和置信度的阈值。

支持度和置信度的意义在于，支持度是一个重要的度量，如果支持度很低，代表这个规则其实只是偶然出现，基本没有意义。

因此，支持度通常用来删除那些无意义的规则。

而置信度则是通过规则进行推理具有可靠性。

我们可以通过改变在建立关联模型时第一个步骤中的改变阈值，来提高算法效率。

规则分析:

我们可以将其转换为规则分析可以直观的看出其具体概率可信度。

如图所示为购买自行车的规则示意图我们可以看出其概率分布是从高到低分布的有助于我们找出其中的关键，二而在重要性中给出了其依赖强度的概率，也可以作为一个参考模型，对于其提取的规则而言我们可以以其为参考对未知数据进行预测从而得到具体的结果。

5.贝叶斯分析，线性回归分析

由于案例是多种非线性关系的结合，无法使用贝叶斯分析模型，线性回归模型进行分析。

运行结果为错误的。

五.总结

通过以上五个模型的分析，我们可以得出如下结论:

1.对于整体的预测而言，神经网络由于添加的变量多而预测的结果较其他的准确。

但其使用于存在大量的数据的情况下，对于较少的数据而言其结果不准确。

然而，对于决策变量的属性为连续的且无穷个时，运用神经网络的模型就不能分析，因此决策变量的属性只能为离散的且数量确定（2个或3个）。

如：

案例我们所分析的YES或NO只有两个取值。

另一方面，神经网络方法的缺点是"黑箱"性，人们难以理解网络的学习和决策过程。

2.数据挖掘完整的步骤如下：

①理解数据和数据的来源。

②获取相关知识与技术。

③整合与检查数据。

④去除错误或不一致的数据。

⑤建立模型和假设。

⑥实际数据挖掘工作。

⑦测试和验证挖掘结果。

⑧解释和应用。

由上述步骤可看出，数据挖掘牵涉了大量的准备工作与规划工作，事实上许多专家都认为整套数据挖掘的过程中，有80%的时间和精力是花费在数据预处理阶段，其中包括数据的净化、数据格式转换、变量整合，以及数据表的链接。

3.对于决策树分析模型和关联分析模型而言，其都用到了分类的思想，找出其影响PurchasedBike的因素并确定其关联度，依赖度。

通过调整其关联，依赖的强度找出影响PurchasedBike的关键因素，这两种方法适用于从多个杂乱无章的影响因素中提取关键性的因素，其次，运用关联分析得到的模型比运用决策树得到的模型更为精确，就如购不购买自行车为例，决策树模型提取出的因素只有两个，而关联分析中的得到的模型分为两个部分：

一为不买自行车，提取出4个因素；二为买自行车，提取出5个因素。

4.数据挖掘与传统的数据分析（如查询、报表、联机应用分析）的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识.数据挖掘所得到的信息应具有先前未知,有效和实用三个特征。

5.对于聚类分析模型来说，与以上两个模型有所不同，其不是因素间的分类从而进行提取，

而是各种因素的组合从而得到我们想要的结果。

其相较其他三个模型来说，不容易理解。

预测的结果我认为也没有其他的模型好。

6.通过对购不购买自行车的预测，充分熟悉这几种数据挖掘工具，了解了这几个模型的优缺点，在以后的工作学习中会对我有很大的帮助。

展开阅读全文