数据挖掘报告.docx

资源描述

数据挖掘报告.docx

《数据挖掘报告.docx》由会员分享，可在线阅读，更多相关《数据挖掘报告.docx（9页珍藏版）》请在冰豆网上搜索。

数据挖掘报告.docx

数据挖掘报告

电子科技大学成都学院

数据建模与数据处理中心

报告名称：

公共自行车服务系统的研究报告

提交人：

张楠

组员（选填）：

提交时间：

2014/3/23

关键字：

数据挖掘

一、数据挖掘综述3

1.1什么是数据挖掘3

1.2数据挖掘的功能3

1.3数据挖掘的一般流程4

二、数据准备5

2.1研究背景5

2.2数据来源5

2.3数据集介绍5

2.4数据预处理5

三、数据处理6

3.1用户借车次数的分析报告6

3.2用户借车时长分析报告7

3.3借（还）车地点分析报告8

3.4用户借车方式分析报告9

一、数据挖掘综述

1.1什么是数据挖掘

数据挖掘一词起源于KDD（KnowledgeDiscoveryinDatabase,数据库中的知识发现），可以追溯到20世纪80年代末。

KDD这个名词的正式形成是在1989年美国底特律市召开的第一届KDD国际学术会议上，而第一届知识发现和数据挖掘（DataMining，DM）国际学术会议是在1995年加拿大召开的，会议上将数据库里存放的数据生动地比拟成矿床，从而“数据挖掘”这个名词很快就流传开来，

事实上，如果准确的说,数据挖掘只是整个KDD过程中的一个步骤但因为它是KDD过程中最为核心和重要的步骤，并且在媒体、产业界和数据库研究界中，“数据挖掘”一词较“数据库中的知识发现”更为人认知和接受，所以数据挖掘被更广泛的定义成为了等同于KDD的同义词。

数据挖掘有多种定义，包括“是从海量、混杂的数据中提取或挖掘有用模式或知识的一个过程”、“从数据中提取出隐含的过去未知的有价值的潜在信息”等。

一种被广泛接受的定义是：

数据挖掘是一个从不完整的、不明确的、大量的并且包含噪声，具有很大随机性的实际应用数据中，提取出隐含其中、事先未被人们获知、却潜在有用的知识或模式的过程此定义包含了多个含义：

（1）数据源必须为大量的、真实的并且包含噪声的；

（2）挖掘到的新知识必须为用户需求的、感兴趣的；（3）挖掘到的知识为易理解的、可接受的、有效并且可运用的；（4）挖掘出的知识并不要求适用于所有领域，可以仅支持某个特定的应用发现问题。

事实上，这的确准确地表现它的作用，即对海量、杂乱无章的数据进行处理和分析，并发现隐藏在这些数据中的有用的知识，为决策提供支持。

从技术这个角度来说，数据挖掘就是利用一系列相关算法和技术从大量的数据中提取出为人们所需要的信息和知识，它们隐藏在数据中、之前不为人们所知但却是人们确实需要的有价值的潜在知识，所提取到的知识表示形式可以为概念、模式、规律和规则等；它可以通过对历史数据和当前数据的分析，帮助决策人员提取隐藏在数据中的潜在关系与模式等，进而协助其预测未来可能出现的状况和即将产生的结果。

1.2数据挖掘的功能

1.数据总结：

继承于数据分析中的统计分析。

数据总结目的是对数据进行浓缩，给出它的紧凑描述。

传统统计方法如求和值、平均值、方差值等都是有效方法。

另外还可以用直方图、饼状图等图形方式表示这些值。

广义上讲，多维分析也可以归入这一类。

2、分类：

目的是构造一个分类函数或分类模型（也常常称作分类器），该模型能把数据库中的数据项映射到给定类别中的某一个。

要构造分类器，需要有一个训练样本数据集作为输入。

训练集由一组数据库记录或元组构成，每个元组是一个由有关字段（又称属性或特征）值组成的特征向量，此外，训练样本还有一个类别标记。

一个具体样本的形式可表示为：

（v1，v2，…，vn；c），其中vi表示字段值，c表示类别。

3、聚类：

是把整个数据库分成不同的群组。

它的目的是使群与群之间差别很明显，而同一个群之间的数据尽量相似。

这种方法通常用于客户细分。

在开始细分之前不知道要把用户分成几类，因此通过聚类分析可以找出客户特性相似的群体，如客户消费特性相似或年龄特性相似等。

在此基础上可以制定一些针对不同客户群体的营销方案。

4、关联分析：

是寻找数据库中值的相关性。

两种常用的技术是关联规则和序列模式。

关联规则是寻找在同一个事件中出现的不同项的相关性；序列模式与此类似，寻找的是事件之间时间上的相关性，例如：

今天银行利率的调整，明天股市的变化。

5、预测：

把握分析对象发展的规律，对未来的趋势做出预见。

例如：

对未来经济发展的判断。

6、偏差的检测：

对分析对象的少数的、极端的特例的描述，揭示内在的原因。

例如：

在银行的100万笔交易中有500例的欺诈行为，银行为了稳健经营，就要发现这500例的内在因素，减小以后经营的风险。

1.3数据挖掘的一般流程

1数据清理

对不完整的、不明确的、大量的并且包含噪声，具有很大随机性的实际应用数据进行清洗，包括清除噪声、推导计算填补缺省和不完整数据、修正异常数据和清除重复数据。

该步骤需要领域知识的判断和选择恰当的清洗方法。

2数据集成

把来源不同、格式不同、特点和性质也不尽相同的数据进行物理上或者逻辑上的有机集中，为后续的一系列数据处理提供良好的准备。

该步骤的实现需要处理好数据类型不同、数据所在平台不同、操作系统不同所造成的数据物理格式上的差异。

3数据选择

根据任务目标，从集成好的、包含大量数据的数据集合中发现与选择相关数据集，将其抽取出来，得到具体挖掘任务的相应操作对象。

4数据变换

转换数据类型，将数据转换成适合被挖掘的数据形式，例如将离散值型数据转换为连续值型使其利于进行神经网络计算，或是将连续值数据转换成离散值型以方便进行符号归纳操作。

数据变换还有一个重要的目的就是数据降维，即找出真正有用的特征或变量表示数据。

5数据挖掘

数据挖掘方法目前已经呈现出丰富多彩的形式，其原因在于数据挖掘在研究和发展过程中不断将各种学科领域的知识、技术和研究成果融入其中。

以统计学角度看，目前统计分析技术中主要使用的数据挖掘方法有回归分析、最近序列分析、时间序列分析、非线形分析、线形分析、最近邻算法分析、多变量分析、单变量分析、聚类分析等方法通过使用这些方法能够找出表现异常的数据，再使用一系列数学或统计模型对其进行解释，揭示出隐含在这些数据中的潜在的规律、模式和知识知识发现类技术，是一种完全不同于统计分析类技术的数据挖掘技术，主要使用的方法有支持向量机、遗传算法、人工神经网络、粗糙集、关联规则、决策树等。

在数据挖掘这个步骤中，必须依据数据本身的特点和预期实现的功能选择对应的算法从而数据中提取隐含的模式，可选的方法包括上述的回归分析、分类、聚类、决策树、公式发现、神经网络、关联规则、Web挖掘等，它们各自侧重于以不同角度对数据进行分析和掘。

6模式评估

使用某种手段对数据挖掘发现的模式进行度量和识别，对其有效性和可运用性进行评估，即按照某一种兴趣度度量以找出表示知识的真正有价值的模式。

7知识表示

对挖掘出的知识进行解释，将其转换成能够最终被用户理解的知识，其表示方法可以为可视化和知识表示技术。

完成了整个数据挖掘过程，用户可以得到他们需求的、有价值的知识。

运用知识是发现知识的最终目的，怎样合理的运用知识自然是十分重要的。

运用知识有两种方法：

一种是发现的知识本身就已经描述清楚所需要得到的结果或者关系，从而能够直接提供决策支持；另一种是要把已发现的知识运用到新的数据中从而可能会出现新的问题，所以仍然有必要更深入的研究和优化知识

二、数据准备

2.1研究背景

公共自行车作为一种低碳、环保、节能、健康的出行方式，正在全国许多城市迅速推广与普及。

在服务系统中，自行车租赁的站点位置及各站点锁桩和自行车数量的配置，多系统的运行效率与用户的满意度有重要的影响。

2.2数据来源

本报告中数据均来自于相关的自行车租赁公司的历史记录，真实可靠。

2.3数据集介绍

由相关的收集得到20天内的具体借车情况，其中包含数据借车（还车）的站点、借车（还车）的时间、借车的时长、借车时的方式（即是使用会员卡还是使用普通会员卡或者VIP卡）、借车的车号，站点号和缩庄号。

2.4数据预处理

统计这二十天的借车换车的数据不难发现，还车车站号出现‘0’，为异常数据，但有考虑到出现换车车站的异常数据远小于总的样本数据，故我们采取舍去异常数据的方法。

将每天的还车数据统计如（表一）所示：

表一

原每天还车总数量（辆）

处理后每天还车总数量（辆）

原每天还车总数量（辆）

处理后每天还车总数量（辆）

第1天

36402

36397

第11天

32726

32719

第2天

37412

37409

第12天

38319

38318

第3天

16910

第13天

41920

41905

第4天

32429

32426

第14天

41831

41824

第5天

38308

38305

第15天

38939

38935

第6天

40326

40322

第16天

19130

第7天

40362

40357

第17天

32400

32394

第8天

16548

16546

第18天

32453

32436

第9天

11210

11208

第19天

40693

40683

第10天

6981

6978

第20天

42242

42224

所获得的数据中通过观察，不难发现，在用车时间上，有一些用车时长为‘0’，可能是由于用车时间不足一小时在统计的时候就统计成了‘0’，我们将这部分数据全部改为‘1’。

也就是说用车时间不足一小时的按一小时计算。

三、数据处理

3.1用户借车次数的分析报告

通过对每张卡的借车次数的分许能帮助我们了解这20天内每张卡的借车次数，通过对其中的数据的分析能帮我们了解借车次数主要集中在多少次，借车次数与频数的关系，首先我们应用Excel将每张卡的借车次数统计出来，在运用SPSS分析得到如下图（图1）：

图1

从图一可以看出借车次数在1-5之间的人最多，而借车次数越高的人数越少，可以看出人们只是偶尔使用自行车，可能是用于玩耍，而真正将自行车作为自己出行的交通工具的人还是比较的少，可见低碳环保的理念还没有达到深入，自行车出租公司要使得利润增加，可投资部分资金在低碳环保的宣传上面。

3.2用户借车时长分析报告

通过前面的数据预处理我们可以精确的得到这二十天的借车的用户的使用自行车的时长。

通过时长的分析帮助我们了解用户的使用规律和习惯，就可针对不同的使用时间制定合理的价位，来使得自行车出租公司的利润增加，也可对消费者实行价格歧视以增加小费者的小费量。

对消费者使用时长运用SPSS分析得到如下图（图2）。

图2

由上图不难看出用户使用自行车的时长（1-10）小时以内，即一般都是租用一天，可能是用于观光游完，自行车出租公司可以通过阶梯费用的计价方式来延长顾客使用自行车的时间，比如使用时间越长每个小时所需支付的费用也就越低。

3.3借（还）车地点分析报告

对借还车的在不同地点的分析能帮我们确定该地点的借（还）车流量，方便我们队该地区的规模和服务进行调整。

使自行车出租公司制定合理的规模，即方便客户的租借也能使得自行车出租公司的结构最合理。

通过SPSS对借车地点的分析得到20天累计借车频率最高的前五位和后五位如下（表2）所示：

地点

20天累计频数

地点

20天累计频数

街心公园

12288

望江路广化桥路口

328

五马美食林

11953

银都花园

326

开太百货

9869

妇女儿童中心

299

体育中心西

9675

都市花园

185

医学院

9276

调试站

表2

同样用SPSS对还车地点20天的累计频数的分析得到频率最高前五位和后五位如下（表3）所示：

地点

20天累计频数

地点

20天累计频数

街心公园

12288

广化桥路口

328

五马美食林

11953

银都花园

326

开太百货

9869

妇女儿童中心

299

体育中心西

9675

都市花园

185

医学院

8071

调试站

表3

根据以上表2、表3的分析，有一些站点借出的和还回来的都较多比如街心公园、五马美食林、开太百货、体育中心西，这几个站不仅借出的多，归还的也非常多，所以这几站我们建议自行车出租公司将这几个站点进行扩建。

而银都花园、妇女儿童中心、调试站、都市花园，这几个站点不仅借出的少归还到这几个站点的也较少，所以我们建议自行车出租公司将这几个站点予以取消，这样既能方便消费者，也节约了自行车出租公司的运营成本。

3.4用户借车方式分析报告

目前自行车租赁公司在对外出租的方式有三种：

VIP卡、会员卡、普通会员卡。

就根据收集的二十天的数据进行分析可以得到消费者的消费方式，方便自行车出租公司制定相应的套餐或者价位来提高其利润。

由收集到的数据使用会员卡只有第二天出现一次，故在此我们不考虑会员卡，只考虑VIP卡可普通会员卡，运用SPSS进行处理得到如下（图4）所示：

图4

显然普通会员卡较VIP卡多得多，也就是自行车出租公司的客户主体是普通会员卡，普通会员卡得用户作为消费的主体，该公司因该提示着部分主体的服务质量，而VIP卡的客户较少，该公司可适当运用活动等手段吸引普通会员卡得用户升级VIP卡。

展开阅读全文