CART算法在新浪微博客户分类中的应用研究Word文件下载.docx
《CART算法在新浪微博客户分类中的应用研究Word文件下载.docx》由会员分享,可在线阅读,更多相关《CART算法在新浪微博客户分类中的应用研究Word文件下载.docx(39页珍藏版)》请在冰豆网上搜索。
在如此一个商业时代,资源占有率成为一个企业生死存亡的关键点,客户才是企业生存与进展的全然,而关于如何改善客户服务,增加客户中意度和忠诚度,提升客户价值来扩大自身的收入和利润,如何用信息化治理来替代原有的传统治理手段等方法,是新浪门户当前解决的重要问题之一。
因此,企业必须从“产品”导向向“客户”导向转变,从而对客户进行有效治理,深层分析储备大量客户信息的数据仓库,提高企业市场竞争力,获得有利于商业运作,有效信息从而制造更多的价值。
而当前的数据库技术虽能够对数据高效查询、分析及统计,然而仍无法发觉潜在的规律和联系,因此便无法对以后进展的趋势进行更好地推测,导致了一种“数据膨胀然而知识贫乏”的现象[1],如此的需求便使数据挖掘这门技术孕育而生。
数据挖掘技术是从先前不知的、大量的、模糊的、不完整的随机的数据中提取潜在的有用的知识及信息的一个过程。
正是有了这种技术的支持,才使得客户分类的理念及目标得以完成,满足当前时代猛烈竞争的需求。
(一)研究背景
依照CNZZ权威公布的第31次中国互联网统计报告,截止到2020年12月底,我国微博用户连续增长,规模达到3.09亿,比较2011年增长5873亿,网民中的微博用户较去年相比提升6个百分比,达到了54.7%[2]。
网络信息交换的新风向标新浪微博平台的推广,打破了时空的限制,改变了交流的形势,加速了整
个社会的信息快速流通。
关于企业而言,有助于降低企业成本,提高企业竞争力,能够关心企业“走出去”,快速交换、获得信息。
数据挖掘是分析与探究大量数据,以求发觉有意义的规则与模式的过程。
同样关于一个企业来说,数据挖掘过程能够有助于发觉企业业务进展的趋势,推测未知的结果,揭示已知的事实,且关心企业分析出完成要求任务所需的关键因素,从而达到降低成本、增加收入,使企业处于更有利的竞争位置的目的。
齐克芒德认为,“成功的治理者必须同时了解营销概念和信息系统结构,才能连续形成全面、可靠和完整的客户观念并加以成功应用”企业必须建立适合自己的客户治理系统,构建数据仓库,将客户关系治理系统与数据挖掘技术有效结合,深层分析储备大量客户信息的数据仓库,提高企业市场竞争力,获得有利于商业运作、有效信息,争取新的客户,让已有的客户制造更多的利润、保持住有价值的客户[2]。
从这些方面能够看出,当今社会数据挖掘技术关于客户分类具有相当重要的意义及作用。
(二)选题目的
作为现在人类生活沟通必需品且服务于社会各阶层的新浪微博,其在互联网、广播、电视等各种媒体上的覆盖面,各种实体上的推广,和在网络上的推广,在社会上产生庞大的阻碍力及知名度,最终带来了大量的目标客户群。
同时,由于新浪微博的专门性,也带来了大量的非目标客户。
为降低成本,提高新浪微博生成效率,降低成本,如何在数量庞大的客户中准确地查找到目标客户,成为一个急需解决的重要问题。
从相关资料分析得出,新浪微博平台往往带来非目标客户如儿童、老人等,也带来大量捏造的、虚假的客户资料。
而人工选择目标客户只会大大降低整个市场的效益,白费了企业大量的物力、人力以及财力。
因此如何建立合理的客户选择模型,定位目标客户显得尤为重要。
本论文采纳数据挖掘的方法,分析模型的方式,建立客户选择模型,对这一问题进行深入分析、研究。
二、数据挖掘与客户分类概述
(一)关于数据挖掘
在“数据膨胀然而只是贫乏”的时代,人们为了能够更好的利用现有数据,对其进行更深层次的分析。
在通过不断完善后,现在,应用在不同的领域,本小节的要紧内容便是介绍数据挖掘与分析的理论与技术。
1.数据挖掘的概念及其操作过程
(1)数据挖掘的概念
随着网络信息化的到来、信息储备技术及运算机数据库技术的飞速进展,面临着不是信息的匮乏,而是关于庞大数据库感到不知所措,人们迫切想要从这些数据中提取有用的信息,为人类制造价值,因此有效的技术显得尤为重要。
与传统的分析方法不同,数据挖掘技术(DateMining,DM)是在没有明确的假设下挖掘信息和发觉知识,它是数据库只是发觉(KnowledgeDiscoverDatabase,KDD)中的一个步骤,是从庞大的数据中获得潜在的、具有价值的知识及信息的过程而所得到的信息有有效性、事先未知及有用性的特点。
数据挖掘基于统计学、数据库技术、面向对象方法、人工智能、高性能运算、机器学习、知识工程、信息检索及数据可视化等多种技术结合为一体的多学科的交叉研究领域,不但能够查询历史信息,还能从历史信息中查找相关潜在联系,然后进行高层次的分析,从中提取有价值的、潜在的模型、知识、模式和规律等,在此过程中,能够依照已有的发觉从而对以后进行推测,关心决策者调整市场,最后做出科学的决策。
数据挖掘的目标是关心决策者找到数据间的特点(Pattern)、潜在的关联性(Relation)、趋势(Trend)等,发觉容易被忽视的要素,对决策行为及推测以后十分有用[4]。
本论文在使用数据挖掘技术的基础上,从庞大的客户数据库中,找出目标客户,为企业赢得更多的人力,节约大量的物力、财力[6]且大大地提升企业的工作效率。
(2)数据挖掘过程
数据挖掘是一个高效的、能从数据训练集中识别出潜在有用、新颖、有效及最终能够被明白得模式的过程。
数据挖掘过程分为五个时期:
抽样、说明、预处理、建模以及挖掘结果的评估。
数据挖掘是一个多步骤的过程,之间反复调整及相互阻碍,从而形成一个螺旋式的上升过程。
该过程类似于蓄水池中水的迭代过程:
从蓄水池中的水被抽取到表层,在通过处理后,就会沉到下一层,然后通过不停地循环,直到最后一层,接着再次循环被抽取到顶层。
CRISP-DM(Cross-industryStandardProcessForDataMining),即为"
跨行业数据挖掘过程标准"
反映了一个完整的数据挖掘环境。
CRISP过程如图所示[7]:
图3.1CRISP过程
数据挖掘的过程能够分为下列几个步骤:
提出问题、数据选择、数据变换、数据挖掘、模型评估及结果分析。
故简化的数据挖掘流程如下[8],见图2.2。
1)提出问题:
明确地定义问题,分析需求,判定问题所属的类别,确定所需的的数据挖掘方法,最终确定数据挖掘的目的。
2)数据选择:
为进行分析而收集数据,这一步可能成为这一整个过程中最重要的步骤,这一步应当确定选取数据挖掘的训练集数据的变量和它们的值域。
数据的选择在专门大程度上决定了模型最终建立的结果,训练集应该具备一定得数据,数据应该从海量的数据中提取覆盖所有数据来源、数据类型、数据内容、数据格式等方面的数据。
其次对数据进行预处理把选取后的数据做进一步的分析。
即对训练集数据进行质量上的把控。
3)数据变换:
把选取后的数据转换成数据挖掘所需的类型。
例如:
目标客户查找,需把客户的各种静态状态用特定的符号表示,并把不同类型的数据分组、分类。
4)数据挖掘:
预备好数据之后,就对这批数据和业务进行研究,对该业务问题进行需求分析,确定数据挖掘的任务和算法以及最终目的。
目前基于研究各种特定的业务均有比价适合的算法和步骤。
关键在于这些算法的组合和不同算法的组合运用,以及算法的完善,使得适合最终更加地贴近实际,贴近业务方。
5)模型评估及结果分析:
一旦算法实现并得到结论之后,需要对模型进行测试和评估,确定该模型是否适用,是否能够完成最初的任务目的,假如不能够达到最初目的就要重新检测模型,甚至要更换模型的算法。
结果分析是利用推测集数据去判定,查看是否符合实际。
假如符合实际情形,模型达到了任务目的,则需要用可视化的方式把该模型的结论,以及对业务方的建议表现出来。
数据挖掘过程如下图所示:
图3.2数据挖掘流程
2.数据挖掘常用技术
在数据处理的过程中,数据挖掘算法,亦数据挖掘方法,成为数据挖掘技术的核心。
数据挖掘方法分为以下两类:
各种逻辑算法和决策树——分类和回来树算法。
为本论文要紧是是关于分类和回来树算法。
而逻辑算法要紧分为四类:
关联算法、人工神经网络、遗传算法及粗糙集算法[9]。
(1)关联算法
关联算法是与大多数人群所认为的数据挖掘最相似的一种数据挖掘的形式,要紧针对的是事物型数据库。
在关联规则中,规则是“假如是如何样,那么便是如何样”的一种行为,关联规则依照关联规则涉及的抽象层次,分成多层关联规则和单层关联规则。
而依照关联算法处理值的类型,又可分成布尔关联规则和量化关联规则两类。
而依照关联规则涉及的抽象层次,又分为单层关联规则及多层关联规则,这种算法关于收成数据来说,只需分析历史事物数据,便可对顾客的购买行为提供有价的信息[10]。
(2)人工神经算法
简单神经元构成了神经网络,通过专门丰富和完善的连接构成自适应非线性动态系统,具有着联想经历、自学习、自组织、自适应分布储备等功能。
人工神经网络在生物神经网络的基础上,模拟人类的思维形式,通过简化、归纳、提炼总结出一种并行处理网络。
而人工神经网络的过程,要紧分为学习与工作两个时期,在学习的过程中,此算法一定要依靠学习算法,来此纠正学习过程中的偏误差或偏离[11]。
与其他方法一样,神经网络在发觉规则对其概括之前,需要检测数据中存在的模式,最终获得结论。
目前,要紧用在优化、推测和操纵、分类、模式识别等领域。
(3)遗传算法
遗传算法是基于达尔文进化论学说中的基因突变、基因重组及自然选择等,利用交叉(重组)、变异(突变)及复制(选择)差不多算子优化求解,此算法最大特点是不仅有强大的搜索最优解的能力,而且问题的最优解和初始条件无任何关联。
目前,此算法的运用领域广泛,如运算机科学、工程技术等领域,遗传算法的研究工作有:
分布并行遗传算法、遗传神经网络、分类系统、基础理论等。
(4)粗糙集算法
粗糙集算法的特点是特点或属性的数量描述是不需要预先给定的,以统计学中概率分布、模糊集理论中隶属函数等为例,直截了当给定问题为动身点,通过不可辨论类所确定问题的近似域及不可辨论关系,从中找到此问题的内在规则。
此算法的核心领域为在只是源于对对象的分类的思想上,通过分类找到属性之间的关联规则[12]。
(5)决策树
决策树(DecisionTree)用树型结构来表示决策集合或分类,依照不同特点,形成进展规律及规则。
为了找寻数据库中最大信息量的字段采纳信息论中的信息增益即互信息,在建立决策树的节点后,再依照每个字段的取值来构建树的分枝,又在每个分枝的子集中,建立节点与分枝的循环过程。
而每个内部节点是每个属性上的测试,又由分枝表示测试的输入。
如此便生成一个分类树,接着对分类树进行剪枝处理,最后把分类树转化成为规则。
在学习过程中,分类树的算法不需要使用者了解大量的背景知识,只要能够用属性-结论式表示训练集,便能够使用该算法。
改动算法成本低,且效率高,适用于海量数据。
例如查找企业的目标客户,针对企业的庞大客户群,通过分类树的各种逻辑算法判定是否为目标客户,大大地提高企业的效率[12][13]。
(二)关于客户分类
1.客户分类的概念
客户分类那个概念是由美国学者温德尔·
史密斯在20世纪50年代中期所提出,是指在指定的市场及明确的战略模式中,企业依照客户的需求、行为、属性、价值及偏好等因素对客户进行分类,且提供服务、销售模式及有针对性的产品[3]。
2.新浪微博客户分类的意义
当前,越来越多的行业运用客户分类来实现企业利润的增长及服务水平的提高。
从客户价值的方面,不同的客户为企业提供不同的价值,企业要想明白哪些是企业的忠诚客户,哪些是企业的潜在客户,哪些是企业最有价值的客户,哪些客户最容易流失,哪些客户的成长性最好,企业就必须对自己的客户进行分类。
客户分类的结果说明,企业通过分析及检测不同类的客户行为,针对不同的客户群,采取相应的措施。
随着新浪微博中不同客户群的加入,那个市场显示出异质化及细分化的特点,由于不同的职业、生活适应、收入水平等等的差别不同的客户显示出不一样的特点。
而客户分类不但能够为新浪微博指定系统及科学的差别化提供了证据,而且提高新浪微博中企业及个人的推广。
随着,电信市场的蓬勃进展,不同的客户差别慢慢凸显出来,因此,客户分类变得尤为重要。
3.新浪微博客户操作流程
新浪微博为个人及企业提供快速交流的平台,其拥有着大量客户。
目前,微博客户操作的流程如图1.1所示:
LEADS
信息治理部市场调研部
数据挖掘和分析部
图1.1客户招商流程图
(1)市场调研部门
市场调研部门即猎取客户,新浪微博获得客户信息的渠道专门多,要紧分为免费及付费的方式。
免费是网上资源互换,即通过自身公布的信息和对方进行交换获得客户的信息。
所有的推广目的是吸引客户提交信息,然后储存到数据库。
付费是企业等通过利用新浪微博平台扩大知名度分为实体广告、搜索引擎链接付费推广等而搜索引擎付费推广即通过新浪微博平台利用关键字的排名,从中获得客户的信息。
实体广告即在新浪微博平台上通过信息公布、宣传图等方式提高知名度,在推广的过程中附带着客服,最终得到了客户的信息。
如此获得客户信息的方式天罗地网,然而有一个缺点确实是客户散乱,存在着专门多非目标客户,而查找目标客户确实是本论文要解决的问题。
(2)信息治理部
猎取客户或企业信息后,就要全面跟进客户。
由于这两种方式都能够带来许多的目标客户,为考虑到企业的整体效率,因此在将客户或企业信息交给销售跟进之前要对信息进行统一治理及细分,把最有效的客户交给销售来跟进,如此能够最大限度提升效率。
对信息的治理要紧包括三方面即提取目标客户,将目标客户进行分类,和最后将信息分出优先级。
(3)数据挖掘与分析部
数据挖掘与分析部门是对整个流程进行把控,通过分析反馈成效,从而提出科学的决策,最后对流程的每个步骤进行最优化调整,使得企业效率最大化。
4.新浪微博客户分类中的具体应用
(1)客户现状及问题描述
基于社会经济和网络的飞速进展,通过各种渠道的推广给新浪微博带来了大量客户,由于一些非可控因素从而导致了得到的客户中存在着大量的非目标客户。
目前,新浪门户采取的措施是通过关键字选择,然后一条一条的人工判定。
尽管,新浪门户投入了庞大的财力、物力、人力对目标客户进行选择,然而仍无法降低新浪门户的工作效率。
而数据挖掘技术能够快速地从客户数据库中查找到目标客户,在提升查找目标客户的准确度上提高了新浪门户的工作效率。
(2)研究目标
在各种推广渠道中,新浪微博平台能够收集到客户的信息多为静态信息,包括:
用户昵称、性别、用户UID、粉丝数、关注数、微博数、互粉数、地址、语言版本、是否认证及注册时刻。
由于客户数据库一定会存在错误及缺失的情形,因此在建模的过程中,必须查找一种承诺数据存在错误及缺失信息的模型。
由于新浪微博收集的客户信息量庞大,达到了上千万上亿条,因此在建模的过程中,必需找到一种能迅速分析庞大数据库的模型。
在达到上述目标下,构建一种最优化模型,能采纳最低的成本,从庞大客户数据库中查找到目标客户。
5.新浪微博客户分类及特点
微博,简称是微博客,是一个基于用户关系的基础上进行信息分享、猎取和传播平台的客户端,用户能够通过WEB、WAP等从而组建个人社区,以200字以下的文字进行更新信息,且能够实现时时分享的网络新平台。
中国闻名的门户网站新浪(sina)于2009年8月份推出“新浪微博”,成为了中国电信市场第一个有微博功能的网站,因此微博正式进入上网主流人群的视野,而2011年10月份,中国的微博用户总数达到2.498亿,成为了世界第一大国。
2020年12月,新浪微博平台上进行了一次微博用户使用情形的调查。
依据微博用户的心理特点、规模和行为分析,把微博分成两大类:
个人用户、组织和机构。
其中,机构和组织,能够分为公益机构、政府部门、慈善组织,政府公司以及相关机构。
而个人用户又分成名人(业内知名人士、公司高层、娱乐体育界明星、知名学者及媒体人)和一般用户。
(1)一般网民即组织类、名人类及非机构类的一样一般的微博用户。
该群体类用户的特点:
用户年龄范畴从15—60岁,跨度专门之大,其中,又以18—35岁的中青年为主体。
用户职业出现多层次化结构,同时涉及到现在的各行各业。
一般网民的主题是发表博文即转发或原创,传播方式为裂变式(即1:
n:
n)[5],特点是阻碍力大,传播的范畴广。
微博具体行为的使用分类四类:
1)扫瞄关注人微博更新动态写微博2)参与热点话题的讨论3)随便扫瞄,了解资讯4)发表观点或发泄情绪。
(2)企业即企业是从事生产、流通、服务等经济活动,以此来满足社会的需求,实行独立核算、依法设立、自主经营,而且在新浪门户中注册微博,并对商户认证。
该用户群体特点:
所有行为差不多上以营利为目的。
使用微博的目的为:
利用微博平台,进行网络营销,包括进行网站推广、网络品牌、信息公布、在线调研、销售促进等。
从全然上来说,企业使用微博的目的是提高企业的知名度,树立企业的品牌,扩大企业的经济效益。
微博具体行为的使用分类五类:
1)网络公关(即指网络危机公关)2)更新企业的动态信息3)进行在线的调研4)顾客网上服务5)发起活动(公益、娱乐及促销)。
三、CART算法及其在新浪微博客户分类中的具体应用
(一)CART算法简介
分类与回来树(ClassificationandRegressionTrees,CART)算法由Breiman等人于1984年提出,是分类数据挖掘算法的其中一种,可处理无序的或顺序的类属性数据,也能够处理多态的数据值或高度倾斜数据[15]。
CART选择最小GINI系数值的属性为测试属性,GINI值越小,样本纯洁度就越高,划分的成效便越好。
它是描述一个给定推测X值后,变量条件Y分布的一种灵活算法。
该模型采纳二叉树,将推测空间递归划分成若干个子集,在子集上Y变量上的分布是平均及连续的。
划分是由和各个内部的节点有关的分类规则(ClassificationRule)所定夺的,而CART树的叶子节点对应着不同的被划分的区域。
通过树根到叶子节点的移动,推测训练集被给予唯独一个的叶子节点,而同时确定Y变量在此节点中的条件分布。
CART算法使用如下结构的学习样本集。
其中,L是训练样本集,
是属性向量(AttributeVectors),其属性能够是离散的或者是有序的的;
Y是标签向量(LabelVectors),其属性能够是离散的或者是有序的。
Y是离散值,称为分类决策树;
或Y是有序的数量值时,称为回来决策树树。
依照所定的样本集L,由以下三个步骤构建分类树[16]:
(1)低规划分训练样本:
使用L构建树
,使得
中每一个叶节点要么专门小(给定值
大于节点内部所含样本数量);
得到惟一的属性向量作为分支选择,或者纯节点(节点内部样本Y仅仅包含一类)。
(2)使用修剪算法构建一个有限的递减(节点数目)有序子树序列。
(3)使用评估算法从第
(2)步产生的子树序列中选出一棵最优树作为最终的决策树。
1.构建树
构建树
是将给定的训练样本集L转换成为相对应L的最大二叉树的过程。
的构建要紧分为两步骤:
①数据预处理;
②由根节点递归构建。
此过程应用最大杂度削减算法,能够查找到最佳的分支规则。
2.数据预处理
数据挖掘过程的关键步骤之一便是对初始数据集的预备及变换。
第一,数据预处理是降低属性向量的基数,即把向量分成若干段。
然后,针对属性向量构建标准问题集,其中符号属性向量即离散属性向量与连续属性向量,两者的标准问题集的构建方法不相同[17]。
降低属性向量的基数:
关于属性向量值进行降低基数的工作,即按客户的需求,针对各个属性向量设定一组离散值,将该属性向量在训练样本集L上的取值分配到这组范畴值中。
3.CART树的生成
决策树的核心算法是确定决策树分枝准则,该准则涉及到两个方面问题:
⑴如何在众多的输入变量中选择出一个最佳的分组变量;
⑵如何在分组变量的众多取值中查找到最佳的分割值。
第一在生成原始树中引入差异系数(diversityindex)的概念。
此系数用于测度各个个结点内n(n>
=2)个类样本的分布情形。
在那个地点我们采纳的是CART算法中最常用的杂质函数基尼系数