数据挖掘1.docx

资源描述

数据挖掘1.docx

《数据挖掘1.docx》由会员分享，可在线阅读，更多相关《数据挖掘1.docx（31页珍藏版）》请在冰豆网上搜索。

数据挖掘1.docx

数据挖掘1

数据挖掘技术在竞争情报系统中的应用研究

摘要

社会上20%的人掌握80%的社会财富。

如何来掌握这20%的人便成了每个管理者首当其冲的工作，新时代的好帮手--竞争情报系统就是这样应运而生。

本文将详细阐述竞争情报中必不可少的工具--数据挖掘技术以及竞争情报系统的相关概念，并结合实例分析数据挖掘技术在竞争情报系统中的运用现状、模型构建及其应用价值。

【关键词】数据挖掘竞争情报竞争情报系统

引言3

一、文献综述3

二、理论概述3

（一）数据挖掘技术3

1.数据挖掘一般过程4

2.数据挖掘的分析方法及实用工具6

3.数据挖掘的应用7

（二）竞争情报与竞争情报系统8

1.竞争情报8

2.竞争情报系统9

三、数据挖掘技术在竞争情报系统中的应用研究10

（一）数据挖掘在企业竞争情报系统中运用的模型构建10

1.竞争情报采集子系统11

2.数据预处理子系统11

3.竞争情报服务子系统12

（二）数据挖掘技术在企业竞争情报系统中的实例研究13

1.确定客户喜好13

2.制定销售计划16

3.减少成本降低风险18

（三）数据挖掘技术在竞争情报系统中的功能价值19

四、总结19

参考文献20

附录21

引言

自19世纪末，社会财富的80%被20%的人占有，这一理念便被广泛运用到社会的各个角落。

这样说也许你没有切身感受，那不知道你是否身处这样的环境：

超市付账有自己的会员卡、品牌服饰店有自己的VIP用户专享折扣、各个网站有登陆注册会员的要求等等。

怎样才能快而有效的确定社会的那20%的人，给自身带来效益呢？

1、文献综述

对竞争情报的研究起源于20世纪80年代，国外的研究时间早于国内。

80年代初，许多知名的跨国公司就建立起符合自己实际需求的情报系统，比如IBM、微软、惠普等。

我国则是在80年代末才将竞争情报这一概念引入国内。

在情报学最初阶段，美国科学家VannevarBush提出将利用检索工具采集到的文献缩小成微品的设想[1]和英国文献家SamuelClementBradford强调稳步发展的文献工作必须改革的局面[2]奠定了情报学的理论基础。

随后，竞争战略之父MichaelE.Porter[3,4,5]和陈飓分别提出竞争情报分析的基本理论框架和应用工具[6],为情报研究提供了极具说服力的理论依据。

但同时也反映了专门应用于情报研究的分析方法少的问题，迫切需要加强对这一领域的深入研究。

刘勃和王琦也指出企业管理者对竞争情报系统的关注度远远赶不上企业的需求，竞争情报人才也是凤毛麟角[7]，大大小小的问题成为了竞争情报工作发展的障碍。

总之，国内外竞争情报系统研究的速度非常快，也取得了相应的成果，但信息时代的到来使得竞争情报系统与组织的实际需求的矛盾不断增多。

这种情况下，需要我们寻找新的技术注入竞争情报系统之中，来增强组织的核心竞争力，推动组织的快速发展，以此来拉动经济的和谐发展，最为重要的是，使国内的竞争情报工作步入一个良性的发展道路。

2、理论概述

（1）数据挖掘技术

数据挖掘（DataMining,DM），顾名思义，它是从庞大的数据库中提取有利于管理者的信息。

管理者所面对的大型数据，它可以是模糊的、不完全的也可以是随机的、有噪声的。

而管理者则需从中提取出较新颖的、未知的、有潜在价值的信息。

被提取出来的信息其表现形式也是多种多样的，一般有这几种：

概念（Concepts）、规则（Rules）、规律（Regularities）、可视化（Visualizations）等[8]。

数据挖掘是一个涉及面非常广泛的学科[9]。

首先，它与计算机科学相关联，既省时又方便地统计、分析数据，还可以删减不必要的信息，清除冗余数据；其次，它受人工智能、图形识别、可视化技术等多个学科的影响，凭借各种工具高度自动化地分析出数据之间的联系并建立模型和数据之间的关系，帮助管理者提高市场决策能力，以及发现被忽略的因素，使管理者在决定行业走向时占有绝对的优势。

阿里巴巴董事局主席马云说，我们正在从IT时代（信息时代）走向DT时代（数据时代）。

IT和DT之间，不仅仅是技术的变革，更是思想意识的变革。

IT主要是为自我服务，用来更好的自我控制和管理；DT则是激活生产力，让别人活的比你好。

早在几年之前阿里巴巴就致力于数据挖掘，如图，2011年国人购买珠宝的比率[10]。

图1-1淘宝网民主报消费占比

从上图中可以清晰的反映出国人最喜欢的珠宝是翡翠，其次还有钻石和黄金。

这则认知不仅仅是给线上卖家提供的一个商机，也给线下商家决定销售产品时提供了参考依据。

1.数据挖掘一般过程

看过上述图表，数据挖掘究竟是怎样一个过程呢？

它又是如何来运作的呢?

数据挖掘是对大量数据进行整合、归类、分析和建立模型的转换处理，其目的是挖掘出不被人注意的信息、规律，并从中得出益于决策的关键性数据。

如图：

图1-2数据挖掘一般过程

（1）原始数据：

即信息收集，是一个组织原有的数据存储或数据仓库。

此步骤需要事先确定数据分析对象，从海量的数据中抽取所需要的特征信息，并选择恰当的收集方法存入数据仓库中。

（2）数据共享：

即数据集成，将具有相同特征不同形式的信息在物理或逻辑上有机地转换、归纳，为管理者提供更全面的数据共享。

（3）数据预处理：

即整合与检查数据、数据清理、数据模式转换以及数据表的链接。

这一步骤在整个过程中是极其重要的，它所花费掉的时间和精力至少占60%[11]，可见其工作量的繁复。

（4）选择分析工具：

即数据挖掘过程中所依赖的分析工具，具体有可视化技术、统计分析、实例推理、支持向量机、决策树、K近邻算法、规则推理、神经网络等，要求管理者根据实际情况准确无误地选择最恰当最接近最适合的工具，从而得到期望中的结果。

（5）建立模型：

即管理者根据所得结果建立最接近的模型，以便未来数据的检测。

（6）模式评估：

这一步骤则需要社会各行业专家凭借以往经验和自身的专业知识来验证模型的准确信。

（7）新数据：

即知识表现，从模型中数据分析得到的新数据新结果，以知识表现的方式呈现给管理者，并存入数据仓库以备未来所用。

数据挖掘是一个不断循环的过程，需要投入大量的时间和精力来充盈原始数据库和发现新知识点。

2.数据挖掘的分析方法及实用工具

（1）数据挖掘分析方法

1）关联分析（Associationanalysis）：

数据与数据之间或多或少都存在着某种联系。

关联分析就是从多个变量中发现某种关系，找出数据之间隐含的关联网，生成有价值的规律。

例如，沃尔玛就将风马牛不相及的尿布和啤酒一起销售，从而使销售量大大的增加。

2）决策树（DecisionTree）：

它能够简单、快捷地帮助决策分析人员从大量数据中抽取有价值、可利用的信息，是对大型数据快速分类的有效工具之一。

3）神经网络（NeuralNetworks,NNS）：

它是根据逻辑规则进行推理并写成串行指令的算法。

神经网络通过输入层、隐含层、输出层将数据符号化再运用特定的符号运算将数据重组整合。

4）支持向量机（SupportVectorMachine,SVM）：

同神经网络一样属于学习型机制，它更侧重于数学方法和优化技术，是一种非常有潜力的分类技术。

5）偏差检测（Deviationdetection）：

数据库中的数据呈现多样化，研究这些数据时并不能断定数据的真伪性，因此需要反复检测其准确性，偏差检测的重要性就在于此。

除此之外，数据挖掘还有许多分析方法，我们在结合管理者的业务逻辑及需求后选择恰当的数据挖掘工具，同时还应考虑以下几个因素：

模式种类的数量、处理问题的能力、执行性能、数据存储能力和与其他产品的链接。

（2）数据挖掘实用工具

在国外数据挖掘工具很早就被开发并投入实际运用，例如SAS公司的EnterpriseMiner、IBM公司的IntelligentMiner等等。

那这些数据挖掘工具是如何分类的呢？

数据挖掘工具可分为两类：

专用数据挖掘工具和通用数据挖掘工具[12]。

专用数据挖掘工具针对性强且专一，只适用于特定领域。

因此，不论数据、需求怎样特殊，专用数据挖掘工具都可以利用算法开发特定的数据挖掘工具，以便研究出准确性较高的解决方案。

例如，芬兰赫尔辛基大学研究出来的TASA系统，就只为帮助预测网络通信中的警报。

相较于专用数据挖掘工具，通用数据挖掘工具则显得相当随性。

管理者可以根据自己的需求来选择通用数据挖掘工具，不需要特地寻找某一种算法，而是常见普通的算法就可以找到解决问题的方案。

当然，通用数据挖掘工具只能处理常见的数据类型，遇到特殊的数据类型还需考虑专用数据挖掘工具。

如若时间和精力充沛，两种工具相互结合，相辅相成能够使得到的规律更具说服力。

下面是两种工具的实例：

分类

数据挖掘工具

开发单位

专用数据挖掘工具

AdvancedScout

IBM公司

SKICAT系统

加州理工学院

TASA

芬兰赫尔辛基大学

通用数据挖掘工具

Clementine

SPSS公司

MineSet系统

SGI公司

DBMiner系统

加拿大SimonFraser大学

QUEST系统

IBM公司

表1-3数据挖掘工具分类

3.数据挖掘的应用

综上所述，下面是具体案例，看看管理者是如何巧妙的运用数据挖掘并从中给自己带来丰厚效益的。

案例一：

马东：

数据拷问是挖痛点的重要武器。

爱奇艺首席内容官马东有一个“致命”武器就是数据拷问，说白了也就是数据挖掘。

他利用这项武器找用户，甚至是找铁杆用户。

利用数据拷问分析出用户的喜好、性别、年龄等，挖掘出了一些兴趣点，作为编剧内容的参考；同时也通过这项武器找编剧和导演。

他用数据分析聘请了王岳伦导演，用受众分析法[13]请到了编剧丁丁张；他甚至用数据拷问制作出了精编版，受到了很多用户的追捧，无疑，他是成功的。

案例二：

TESCO（特易购）和运营效率。

这家连锁超市在其数据仓库中收集了700万部冰箱的数据。

对这些数据进行了深度挖掘并及时的进行了全面监控，主动维修出问题的冰箱，降低了整体能耗为超市节约了大量成本。

案例三：

AMERICANEXPRESS（美国运通，AMEX）和商业智能（BusinessIntelligence,BI）。

没有认识到数据挖掘的重要性之前，AMEX只能听取事后报告和滞后的预测，并且传统的BI也逐渐无法满足业务发展的需要。

因此，AMEX开始构建真正能够预测忠诚度的模型，在历史交易数据的基础上，用115个变量来进行分析预测。

不久之后该公司表示，对于澳大利亚未来四个月中流失的客户中，已经能够识别出其中的24%。

数据挖掘实例还有很多，例如梅西百货的实施定价机制、沃尔玛的搜索引擎、快餐业的视频分析等等，他们的成功更显数据挖掘的重要性，更揭示了我们正在从信息时代转变为数据时代，而数据挖掘作为数据时代的重要功臣功不可没。

（二）竞争情报与竞争情报系统

1.竞争情报

（1）竞争情报的含义

源于生活，我们都知道竞争无处不在。

国家与国家在经济、政治、文化等方面相互竞争，为经济发动战争，为政治软文化侵略，为文化抢专利申请等等事件层出不穷；企业与企业之间竞争不断，新产品发布抢占市场、新技术研发争分夺秒以及不断引进新人才新思想，丰富企业文化，提升企业竞争力；个体之间的竞争更是习以为常，孩子们从小就关注全面发展，样样都不甘于人后。

更别说成年人之间，越来越多的考核上位，越来越多的技能证书等等，无时无刻不再提醒我们身处一个布满竞争的环境。

社会经济的发展使得人们的需求不断增大，竞争也愈演愈烈。

人们如此重视竞争，情报的掌握尤为重要。

关于竞争情报并没有明确的定义，不同领域不同研究方向的专家有他们自己的理解方式。

在国外，美国竞争情报专业人员协会（SCIP）称竞争情报是一个过程。

在这个过程中，人们利用各种合法的搜集手段收集、分析有关市场环境、竞争对手和组织自身的准确、相关联、具有前瞻性以及可操作的情报。

同时，他们认为竞争情报也是一个产品，是将采集到的企业计划、决策战略和企业的外部信息，凭借合法的方法和工具分析、管理、保存所得到的新信息新产物。

国内，著名情报专家包昌火在综合了国外学者对竞争情报的定义后，认为竞争情报不仅是一个过程，还是一个产品[14]。

竞争情报的采集和分析便是过程，因此过程而得到的新信息新策略便是产品。

也给竞争情报简单的定义了一下，即竞争情报是关于市场环境、竞争对手和战略决策的信息和研究。

（2）竞争情报处理过程图

图2-1竞争情报处理过程图

如图所示，竞争情报获取流程：

第一步：

PlanningDirecting,即规划与定向。

管理者根据情报需求，结合客观因素，建立情报目标，制定合适的情报策划。

第二步：

Collection，即情报采集。

以第一步为基础，工作人员通过各种合法手段全面撒网，及时准确地收集内外部信息。

此步骤需耗费大量的时间和精力。

第三步：

Process，即情报筛选。

管理者将上一步采集到的信息加工处理，经过整理归纳、删除重复、辨别真伪的过程，生成摘要存储为有利于决策的情报。

这一步骤是必不可少的，没有经过筛选的情报或信息是毫无意义的。

第四步：

Analysis，即情报分析。

情报筛选过后，所得到的信息已初步定型。

此时选用合适的分析方法和数据模型对已存档的信息进行二次分析，提高其利用价值使决策更具说服力和可靠性。

第五步：

Dissemination，即情报传播。

将从情报中挖掘出的有关数据之间的联系及其变化规律传递给管理者或决策者，便是情报传播。

综上，竞争情报获取流程也是一个循环反复的过程，目前存档的的分析结果便是下一次可利用的原始数据。

竞争情报有利于管理者了解其他国家在政治、经济、文化等各方面的政策，帮助决策者规避不必要的矛盾，增进国家间的友谊；竞争情报有利于管理者分析对手和市场环境，预测市场变化趋势，及时发现潜在的竞争对手和商机，把握市场机会在行业中成为佼佼者；竞争情报有利于组织成员学习他人成功的经验，提高个人素养，为自身和工作环境增添新能量、新动力、新技术。

2.竞争情报系统

竞争情报系统是把组织内部原有的事务型数据和组织外部环境的情报信息，通过信息技术手段，采集、整理、分析、存储，将有关于组织发展的敏感情报转换成可视形式并提交给组织决策者，以达到增强组织综合实力目的的战略决策系统和组织管理咨询子系统。

竞争情报系统可以帮助组织对行业未来发展趋势作出评估，为组织决策调整战略决策提供理论依据；能够捕捉组织外部出现的微小变化，帮助组织保护内部情报安全，时刻保持警惕性；理解组织所处环境（经济环境、政治环境、社会环境、市场环境），关注行业结构的变化；帮助组织监测潜在竞争对手和已有竞争对手的动向和实力，为组织提供针对性的进攻战略；最后，竞争情报系统协助组织在宏观条件下减少组织面临机遇和风险的反应时间，为组织可持续发展增加竞争优势。

总之，竞争情报系统为组织提供具有时效性、价值高、准确有效的情报数据，有利于组织洞悉政治经济环境、社会文化氛围、市场技术变化和组织面临的机遇和挑战，及时地更改竞争战略，提升竞争优势。

因此，建立竞争情报系统对增强组织竞争力具有现实意义，组织管理者应更多的关注情报系统的建立与运行。

3、数据挖掘技术在竞争情报系统中的应用研究

身处信息泛滥的时代，上至管理者下及员工每时每刻都需要面对数以万计的信息。

显而易见，传统的竞争情报系统已经不能维持一个组织的正常运作。

此时的组织需要一项或多项新技术、新动力，推动组织迅速且稳健的继续发展。

数据挖掘便是从海量数据中挖掘出数据之间的联系，它能够及时有效地识别潜在对手、预测竞争对手的新动向和新决策、了解客户需求和维护客户关系[15]，更是为组织带来巨大经济利益的好帮手，正是组织迫切需求的新源泉、新动力。

竞争情报系统涉及各行各业乃至各个国家，因此我们取其中最为常见的企业竞争情报系统进行研究分析。

（一）数据挖掘在企业竞争情报系统中运用的模型构建

新型的企业竞争情报系统将数据挖掘技术集成在竞争情报采集子系统、数据预处理子系统和竞争情报服务子系统之中，使传统的企业竞争情报系统获得新生。

数据挖掘技术使得企业竞争情报系统优化升级了信息的获取，提高了数据预处理的深度和灵敏度，竞争情报服务方式也更为全面，彻底加快了整个系统的运行效率。

1.竞争情报采集子系统

竞争情报采集子系统，即根据企业的项目需求利用各种工具进行的数据采集，最终形成一个有关企业情报的文本信息便于企业管理者决定重大决策。

与此同时，它也是竞争情报系统极为重要的输入系统，是企业在开展情报工作时的不可或缺的步骤[16]。

如下，是竞争情报采集子系统的流程图：

图3-1竞争情报采集子系统

企业通过数据库检索、文本检索和网络检索从情报源里分离出和决策相关的情报信息，形成的文本集存储于初级数据库；再经过数据挖掘工具的归纳整理，将得到的可利用的信息存储于数据仓库；企业的管理者根据决策需要利用检索工具将项目需求的信息存储在情报信息库中，未能使用的信息继续保留以便下一次决策时参考。

2.数据预处理子系统

数据预处理子系统也可称为情报分析子系统，他在竞争情报系统中处于核心地位，一个系统的好坏由它对信息的处理质量来判定。

如图：

图3-2数据预处理子系统

将竞争情报采集子系统采集来的情报归类整理而成的初级数据库中的信息取出，运用恰当的分析方法或模型再辅以数据仓库技术进行深层次的提炼、筛选、转化和集成，使得这些有关情报目标的敏感信息更具有层次感。

这一过程的最终目的是产出高质量的竞争情报产品即符合数据挖掘要求的数据，来支持管理者的重大决策和战略部署。

3.竞争情报服务子系统

竞争情报服务子系统相当于一个显示器，它将预处理阶段得到的情报产品以图形、邮件、报告等形式表现出来，方便情报需求者查看及运用。

同生活中的服务一样，它的高速运转和效率关系到情报系统的形象和质量，可以说是竞争情报系统的门面。

如图：

图3-3竞争情报服务子系统

企业竞争情报系统的最终目的是为了得到有关项目要求的情报产品，竞争情报服务子系统则是利用数据推送、自动摘要、分类浏览等智能服务方式包装情报产品。

美化后的情报产品（简报、报告、邮件等）被提交给企业管理者，为企业决策提供保障和依据。

（二）数据挖掘技术在企业竞争情报系统中的实例研究

情报分析涉及很多领域，分析方法也是涵盖众多学科，我们借用有关统计学和管理学上的知识进行实例分析。

1.确定客户喜好

数据挖掘技术的功能有很多其中最值得说明的是在竞争情报系统中的统计功能。

如下数据是今年4月9号至4月16号淘宝官方软件数据魔方统计出来的行业关键词热搜榜[17]，数据量较多，因此只取前十。

序号

关键词

搜索人气

搜索指数

点击指数

商城点击率

点击率

成交指数

转化率

直通车

零食

19268

55239

24523

66.70%

43.66%

1493

2.51%

2.86

红枣

16216

28050

23474

48.66%

83.38%

1734

5.84%

4.79

肉松饼

15222

22986

23049

62.68%

100.28%

1691

6.98%

2.11

饼干

14314

24236

20370

58.86%

83.75%

1053

4.08%

2.6

牛肉干

13644

21310

16372

54.21%

76.42%

1369

6.07%

3.57

进口

11797

31220

11221

99.03%

35.20%

638

1.89%

1.85

巧克力

11773

28540

12307

64.28%

42.39%

848

2.77%

3.05

周黑鸭

10462

12651

6006

57.37%

46.76%

291

2.13%

3.49

坚果

9226

12547

7647

86.74%

60.33%

372

2.76%

5.14

核桃

7803

15370

12272

58.76%

79.48%

1136

7.01%

2.3

表3-1行业关键词热搜榜

表中可明显的看出顾客搜索“零食”的次数比较多，搜索“核桃”的相对较少，但其转化率却比“零食”高很多。

可见，卖家在设置关键词的时候还是要谨慎考虑一番的。

图3-4关键词搜索人气与点击指数

簇状水平圆柱图能够直观的反映出两个系列的数值比较。

从图中我们可以看出这些关键词基本上都是点击指数大于搜索人气除了个别的“进口”、“周黑鸭”和“坚果”。

搜索人气最高和点击指数最高的都是“零食”，其次便是“红枣”、“肉松饼”、“饼干”。

当然，也不是所有关键词都有如此高的人气和点击率，比方说搜索人气较低的关键词“核桃”，点击指数较低的“周黑鸭”。

决策者在编写产品关键词时以这些数据为基础，使得自家产品拥有更高的转化率。

图3-5关键词转化率及产品成交笔数

三位堆积柱形图可以清晰地比较出类别轴上的每个数值占总数值的大小。

在这十个关键词中“红枣”的成交指数最高，但其转化率并未达到最高。

同样关键词“周黑鸭”的成交指数最低但其转化率却有2.13%比关键词“进口”多出0.24%。

关键词“核桃”的成交指数比之“红枣”“肉松饼”少很多，但其转化率却有7.01%。

所以说，关键词的选择关系到店铺转化率的高低，更关系到商家的利益问题。

因此，决策者如何选择关键词，确定怎样的关键词，确定的关键词能带来怎样的效益，这都需要以竞争情报系统为基础运用数据挖掘技术来提供可靠的数据来源。

图3-6天猫商城点击占比

图3-7淘宝C店点击率

分离型三维饼图显示每个数值占总数值的大小，同时强调单个数值。

从上图可知，关键词“进口”在天猫商城中的点击率最高达到99.03%，其次便是关键词“坚果”达到86.74%。

点击率最少的关键词是“红枣”，只有48.66%。

淘宝C店中点击率最高的关键词是“肉松饼”高达100.28%，其次关键词“饼干”和“红枣”都达到83%，关键词“牛肉干”和“巧克力”都靠近80%，而关键词“进口”最低只有35.20%。

淘宝C店中关键词“红枣”、“肉松饼”、“饼干”、“牛肉干”和“核桃”的点击率都比天猫商城中的点击率高。

天猫商城中关键词“进口”、“巧克力”、“周黑鸭”和“坚果”的点击率比淘宝C店同样关键词的点击率高，单关键词“进口”就比C店高出63.83%。

综上，客户在天猫商城中搜索零食的次数比在淘宝C店搜索次数多。

客户更愿意在商城中买进口零食，更愿意相信品牌的信誉度。

而常见的零食，红枣、饼干、核桃之类的较喜欢在C店买，同信誉度相比这类食品的价格更占优势。

商家在拥有自己产品的基础上，择优选择运营商，借此情报系统确定客户喜好，为组织带来更好的效益。

2.制定销售计划

我们都相信过去存在的变量间关系和相互作用原理在今后仍将存在并继续发挥其作用[18]，而一般企业都会参考前一个月或前一个季度或前几年的销售情况预测下个月或下个季度乃至全年的销售情况，这种预测方法在管理学上称之为定量预测。

定量预测有时间序列模型和因果关系模型，在此借用时间序列模型分析实例。

一次指数平滑法是时间序列模型的应用方法之一。

一次指数平滑平均值SAt的计算公式为：

SAt=αAt+（1-α）SAt-1（3-1）

将SAt作为t=1期的一次指数平滑预测值SFt，则一次指数平滑法的预测公式为：

SFt+1=αAt+（1-α）SFt（3-2）

其中，SFt+1为t+1期一次指数平滑预测值；

At为t期实际值；

α为平滑系数，它

展开阅读全文