1、第八届MathorCup高校数学建模挑战赛特等奖论文基于粗糙集改进的决策树手机精准营销模型基于粗糙集改进的决策树手机精准营销模型 摘 要 随着我国电子商务和移动支付的快速发展,手机已经成为人们必不可少的工具。在考虑用户的基本行为特征和个人偏好的基础上,本文对影响手机的销售情况的指标进了统计和分析,建立了基于粗糙集改进的决策树模型,最终实现精准营销。 针对问题一,我们对附件中所给的数据进行了预处理,删除了重复值,缺失值。然后我们对附件中每一个表格的数据都进行了描述性统计分析,将附件中所给的数据整合成我们需要的指标,对这些指标进行归一化,以便于后续建模和计算使用。 针对问题二,结合用户基本行为信息
2、,我们选取了网络活跃指数,网络购物指数,在线视频指数,出行指数,理财指数作为用户行为的基本特征。筛选出已购买该手机用户的这几项指标值,由于指标之间基本无共线性,而购买该手机用户的这些指标可能有趋同性,趋同性越大,则该指标的影响越显著。我们采用方差分析法对指标进行了选取。以用户是否购买该手机为因变量,以筛选后的指标为自变量建立了二分类的𝒍𝒐𝒈𝒊𝒔𝒕𝒊𝒄回归模型,得到用户是否购买该手机与用户基本行为特征之间的函数关系。为探究这些指标的具体影响,我们每次对其中一个指标微小变
3、化,其他指标不变,将变化前后的回归值进行对比,得到每个指标的因子影响率。因子影响率越大,则该指标对用户是否购买该手机的影响越大。最终我们得到因子影响率较大的指标是网络购物指数和出行指数。 针对问题三,结合电商分类,视频行为,触媒行为,我们定义并选取了浏览视频总时长,购买欲望指数,浏览次数比,网页影响度四个指标,筛选出已购买该手机用户的这几项指标值,考虑到指标之间可能存在共线性,我们用主成分分析的方法对指标进行筛选。以用户是否购买该手机为因变量,以筛选后的指标为自变量,同样建立二分类的logistic回归模型,得到用户是否购买该手机与用户偏 好之间的函数关系,用与第二问相同的方法得到每个指标的因
4、子影响率。最终我们得到因子影响率较大的指标是浏览视频总时长和浏览次数比。 针对问题四,对潜在客户行为属性进行约简化处理后,我们构造基于粗糙集的改进决策树挖掘模型。在决策树中每个叶节点代表一条规则,即这个规则的左边条件表示根节点开始到达叶节点路径上的全部中间节点组成的一个判断,规则的右边表示叶节点的类型。综合用户各方面信息,我们采用网络活跃指数、网络购物指数、购买欲望指数、浏览次数之比和性别来判定用户是否会购买 Surpass 手机。为了验证树状图的准确性,我们随机抽取 100 名已购买该手机的用户数据进行检验,检验正确率达 89%,说明我们的模型判别正确率还比较高。 运用建立的基于粗糙集的改进
5、树挖掘模型,对附件二中给出的 50 名客户进行了潜力界定。利用改进树挖掘模型,我们对附件一中的用户进行潜力度进行分析,选出了前 100 名潜在客户,具体结果见正文。结合二、三问,我们知道在基本行为方面,影响度较大的指标有网络购物指数和出行指数,在用户偏好方面,影响度较大的指标有浏览视频总时长和浏览次数比。当用户这些指标较大时,我们可向用户推广𝑠𝑢𝑟𝑝𝑎𝑠𝑠手机,以实现精准营销。在广告投放方面,我们综合网页影响度和各大网页的用户浏览次数两个指标, 得到广告转化率这个指标,广告转化率指标
6、越大,我们对该网站投资也越大。 关键词: 精准营销 𝑙𝑜𝑔𝑖𝑠𝑡𝑖𝑐回归 决策树挖掘模型 主成分分析 方差分析 一、问题的重述 3 1.1 问题的背景与意义 3 1.2 文献综述 3 1.3 问题的提出 4 二、问题的假设 4 三、主要符号的说明 4 四、模型的准备 5 4.1 重要名词与指标的定义 5 五、模型的建立与求解 6 5.1数据的预处理和统计分析 6 5.2用户基本行为特征对该手机购买的影响 11 5.2.1问题二的分析 11 5.2.2指标的方差分析 1
7、1 5.3消费者个人偏好对手机购买的影响 16 5.3.2指标的主成分分析模型 17 5.3.3二分类的 logistic 模型的建立与求解 18 5.3.4用户偏好如何影响是否购买手机 20 5.4客户潜力界定模型的建立和精准营销 21 (1)决策树的生成 21 (2)决策树的剪枝处理 21 (3)提取相应的行为规则 21 六 模型的评价与推广 26 6.1 模型的优点 26 6.2 模型的缺点 26 6.3 模型的推广 27 参考文献 27 附录 28 一、问题的重述1.1问题的背景与意义在当今数字信息化时代,传统的营销手段已经不能满足企业的快速发展要求,面临不断涌现的机遇和日益激烈的竞争
8、,新的营销手段应运而生,其中基于大数据进行精准营销的方法得到越来越多的重视。 精准营销就是在精准定位的基础上,依托现代信息技术手段建立个性化的顾客沟通服务体系,实现企业可度量的低成本扩张之路,是有态度的网络营销理念中的核心观点之一。 现阶段手机上网用户整体呈现稳定增长的趋势。如此庞大的手机上网用户群和稳定的增长势头,为手机广告特别是背景下手机广告的发展提供用户数量保证,也预示着未来中国手机广告市场的巨大潜力。随着电子商务和移动支付的快速发展,手机成为人们生活和工作中必不缺少的工具,因此,选择什么样的手机已经成为广大消费者注重考虑的问题。 1.2文献综述目前国内外的一些学者在大数据挖掘分析,客户
9、精准营销等方面都进行了许多相关研究。 大数据方面21 世纪,随着互联网的飞速发展,全球数据量呈现大爆炸的增长,云计算、物联网等新兴产业的诞生,使得人们对于数据的应用需求也进一步增大2011 年,麦肯锡在其报告大数据:创新、竞争和生产力的下一个前沿领域中指出大数据是指平常的数据库工具无法获取、存储、运营和进行分析的众多数据的集合。2011 年 12 月,我国工信部在物联网十二五规划中,将处理信息的技术作为 4 项技术创新工程提了出来,其中包含的超大数据存储、数据细项挖掘、智能图像及视频分析等内容都属于大数据技术的核心。精准营销方面1960 年,美国营销学大师麦卡锡教授提出了 4P 营销市场理论,
10、该理论认为产品、价格、渠道和宣传是市场营销的四个基本要素1。 1990 年,美国营销大师罗伯特劳特朋提出了 4C 营销理论,该理论重新定义了市场营销的四个基本因素:消费者、成本、便利和沟通。 1999 年,美国的莱斯特伟门提出了精细化营销的概念,他主张改变传统营销渠道及方式,通过建立客户信息资料来进行客户分类,并通过多种更为直接的渠道及方式来进行营销。 2005 年,菲利普科特勒第一次正式提出了“精准营销”这一概念,他认为企业需要更为精准、高效、能够评估的营销策划,需要更关注效果的营销宣传策划,还需要投入更多资源在挖掘到目标客户。 2006 年,科特勒在市场营销原理中,首次提到了以互联网为基础
11、的精准营销理论。同年,齐渊博在准确营销一书中将精准营销描述为准确营销,认为精准营销应符合 “标准”和“确定”两个方面,“标准”就是可以有效地复制推广。并予以进一步优化升级,“确定”就是要求企业必须对市场有非常深入地了解并能够判断未来的市场走势。 1.3问题的提出某品牌手机销售总部希望了解消费者对该手机的购买意愿,以便能够进行精准营销。为此,市场营销部门进行了相关调查,得到了附件的数据。为了对此公司的手机进行精准营销,我们需要建立数学模型解决以下几个问题: (1)对附件中的数据进行预处理,并进行描述性统计分析。 (2)目标用户中,部分用户在调研期间购买了该手机,但更多的用户并没有购买。作为销售部
12、门很想了解用户的基本行为特征是否有影响?并分析具体是怎样影响的。 (3)不同的网络关注会体现不同的手机消费个人偏好,导致每个人购买手机的主要动机并不相同。不同的手机也有不同的性能。销售部门很想了解个人偏好对手机购买是否有影响?并分析是如何影响的。 (4)目前,很多目标用户并没有下单购买该手机,但他们中存在潜在的买家。请结合前面的研究,建立一个潜在客户挖掘模型,对附件2中的50位目标用户进行客户潜力界定,运用此挖掘模型,针对附件1中未购买该手机的目标用 户,挖掘出100名最有潜力购买该手机的用户,并提供建议如何进行精准营销和广告投放。 二、问题的假设假设1:假设一个用户编号即代表一个用户,不存在
13、多个用户使用同一部手机浏览网页的情况。 原 因:精准营销要做的是根据每一位用户的浏览喜好和内容对其进行推荐营销,因此针对的直接对象是用户,即该手机的使用者。并且考虑实际情况, 基本是每个人都会使用自己的手机。 假设2:假设用户所浏览的网页,内容和时间都是用户有意为之,不存在误操作的情况。 原 因:只有用户在有意的情况下所浏览的网页和内容才能反映用户的个人偏好和基本特征,而这种情况在实际情况下又比较少,所以在建模时我们对这种情况不予考虑。 假设3:假设附件中所给的用户基本信息都是准确无误的。 原 因:对用户的分析和分类都是建立在用户基本信息基础上进行的,只有在信息无误的情况下,我们对问题所做的讨
14、论和建立的模型才合理。 三、主要符号的说明数学符号 具体说明 t𝑡𝑜𝑡𝑎𝑙 用户浏览网页的总浏览时间 𝑡𝑠𝑖𝑝𝑖𝑛 用户浏览视频的总时间 广告转化率 𝑏𝑖𝑛𝑑𝑒𝑥 购买欲望指数 c𝑟𝑎𝑑𝑖𝑜 浏览次数比 f 网页影响度 用户潜力度 手机需求指数 &
15、#119887;1网络活跃指数 𝑏2网络购物指数 𝑏3在线视频指数 𝑏4出行指数 𝑏5理财指数 v(l)剪枝操作前的分类错误样本个数 e(l)进行剪枝操作的错误样本个数 n(t)在节点t处的数据样本个数 N(t)子数𝑇𝑡的叶子个数 *其他未标明符号在文中说明 四、模型的准备4.1重要名词与指标的定义指标一:用户基本信息手机的选择因人而异,除了产品价格、外观、性能等产品因素之外,个人的基本特征如性别、年龄、职业、学历也尤为重要。 (1)性别:女性可能更注重外观和感官上的体验,在应用方面注重购物, 视频
16、等;男性主要考虑手机的性能和游戏体验。 (2)年龄:年轻人更注重外观和性能的体验,对价格要求不高,而老年人偏爱价格便宜,操作简便的手机。 (3)职业,学历:不同的职业和学历的用户对于手机的特殊性能的要求也有差异。 指标二:浏览总时长同一用户可能会浏览多个网页,但其在各个网页上的浏览时间是不一样 的,浏览时间越长,说明该网站的宣传力度越大。在考虑投资时,在该网页上的投资就可以越高。 指标三:浏览视频总时长每个用户的视频浏览时长是有差异的。视频浏览时长较大的用户对于手机的屏幕,电池以及内存的要求可能更高一些,而不经常浏览视频的用户对这些指标的关注度较小。因此,用户的视频浏览总时长应该作为精准营销的
17、一个重要指标。 指标四:广告转化率广告转化率是指通过点击广告进入推广网站的网民形成转化的比例。转化是指网民的身份产生转变的标志,如网民从普通浏览者升级为注册用户或购买用户等。转化标志一般指某些特定页面,如注册成功页、购买成功页、下载成功页等,将这些页面的浏览量称为转化量。广告用户的转化量与广告到达量的比值称为广告转化率。指标五:购买欲望指数购买欲望指数用来表示用户对于购买该手机的欲望大小。此文中我们以用户在商务平台上浏览该手机的时间与用户在平台上浏览手机的时间之比。该比值越大,说明用户对该手机的兴趣越大,则用户购买该手机的欲望也越高。 指标六:浏览次数比浏览次数比表示用户对该型号手机的浏览次数
18、与用户浏览手机的总次数之比,浏览次数比越大,说明用户对该手机的兴趣越大,则用户购买该手机的潜力越大。 指标七:网页影响度网页影响度指的是用户浏览该网页对其购买该手机的影响的大小。本文中我们是通过已购买该手机的用户对该网页的浏览次数与已购买该手机的用户对所有网站的浏览次数之比来衡量的。用户浏览网页的网页影响度之和约大,用户购买该手机的可能性就越大。 指标八:用户潜力度用户潜力度即每个用户购买某种手机的可能性,用户潜力度越大,该用户购买某种手机的可能性也越高。 指标九:手机需求指数手机需求指数横量的是用户购买手机的需求的大小。本文中手机需求指数是通过用户在商务平台上浏览手机的时长与用户浏览总时长之
19、比来衡量的。该比值越大,说明用户对手机的需求越大,从而购买手机的可能性就越高。 五、模型的建立与求解5.1数据的预处理和统计分析5.1.1问题一的分析由于本题附件中所给的数据量较大,为了得到更加直观系统的数据,我们首先对数据进行了预处理。处理的内容包括重复值的剔除,缺失值的增添,异常值的筛选和删除等。 为了直观反映数据和在大量的数据中提取出有效数据,我们对附件中的每一个表都进行了统计分析,得出了可直接用于建模和计算的数据。 5.1.2数据预处理(1)异常值(包括缺失值,重复值)的处理由于本题数据有多种异常值和需要处理的项,因此我们对数据进行了预处理,筛选和删除了表格中的重复信息。考虑到附件中所
20、给数据量较大,在保证信息准确的前提下,我们只考虑所有信息均齐全的用户。同时,为了计算的方便,我们将表格中所给的时长均转化为秒,对表格中包含内容信息较多的列,进行了分类提取。最后,我们将异常值进行了删除和修改。重复值举例如下表所示: 表 1:重复值举例 用户编号 目标用户行为标签 6 网络活跃指数 77856 网络购物指数 101843 在线视频指数 9571 6 77856 101843 9571 10 5776 2919 1054 10 5776 2919 1054 从上表可以看出,附件中存在大量重复的数据,因此我们需要对这些数据筛选和删除。对于缺失值,经过筛选,在目标用户表格 17578
21、条数据中,存在50 个用户的信息是空白的。对于这些信息缺失的用户,我们不对其进行考虑。 (2)数据的归一化为了处理数据时的方便和消除量纲,我们对得到的数据采用 Z-score 标准化的方法对数据进行了归一化操作。公式为: 𝑥 𝜇𝑥 = 𝜎其中,𝜇代表所有样本数据的均值,𝜎为所有样本数据的标准差 经过这种方法处理的数据符合标准正态分布,得到的标准化后的指标数值 5.1.3数据的统计分析(1)目标用户目标用户中所包含的信息有用户编号,在某购物平台上的平均每次停留的时间和最后一次的跟踪状态,其中最后一次的
22、跟踪状态包括购买,搜索和浏览三种情况。我们分别对三种情况下用户的平均浏览时长,浏览次数和浏览比做了统计,浏览比为三种情况下的浏览次数占总次数的比例。具体内容如表 1 所示: 表 2 目标用户统计分析表 状 态 平均时长(s) 次 数 频率 购买 1772.911 574 0.032748 浏览 1803.896 11828 0.674806 搜索 1790.783 5126 0.292446 浏览+搜索 1802.311 16954 0.967252 从表中我们可以看出,购买,浏览和搜索跟踪状态下的平均浏览时间相差不大。这可能是因为快餐文化的时代,用户浏览搜索用的时间都比较少。而不同跟踪状态下
23、的浏览次数却有较大差别,这说明浏览次数这一指标可以较好的反应用户的基本行为。可以看出,浏览的次数最多,其次是搜索,最后是购 买,这说明购买是经过深思熟虑后做的决定,符合生活中的实际情况。 图 1:三种跟踪状态下的次数与平均时长比 由表 2 和图 1,我们可以看出浏览、搜索、购买过手机的用户在购物平台上浏览的平均时长差别很小,证明用户是否购买该手机与用户在购物平台上停留的时长没有很大的相关性,所以我们忽略该因素。但是,我们观察到浏览及搜索该手机的用户频率为 0.967,而真正购买该手机的用户频率为 0.033,也就是说大多数用户浏览过后并没有购买该手机,所以我们认为有必要对目标用户进行精准营销以
24、提升销量。 (2)目标用户身份标签目标用户身份标签中所包含的内容有用户编号,年龄,性别,学历以及正在学习或从事的专业或职业。对各个年龄段的人数,男生女生的人数,各种学历的人数以及从事不同职业的人数。具体内容见图 2. 图 2 年龄与学历之间的关系数据图 由图 2 我们可以看出,我们目标用户的结构组成是学历为大学专科和高中及以下的人群中男性居多,而在大学本科及以上的学历中女性较多,且总人数中女性用户要多于男性用户,由此可以得出女性用户倾向于该手机的可能性较大。在 20 到 30 岁左右的人群中,高中及大学本科的人倾向于本款手机的可能性较大,而随着年龄的增长,30-40 岁左右的人群中,大学本科及
25、硕士喜爱本款手机可能性更大。 图 3 学历分布情况数据 一般来说学历越高的人年龄就越高,所以我们在网上查阅了中国各阶段学历的人数比例:高中及以下学历人数为 1066406427,占比为 89.9%,大专及以上学历人数为 119636790,占比为%10.1,与上述数据不符,这可能是因为该手机面向的用户都为城市居民,而城市居民的受教育程度普遍偏高,所以该数据与实际现象基本吻合。 (3)目标用户行为标签目标用户行为标签中包含的内容有用户编号和目标用户行为标签,其中目标用户行为标签中包含的内容为用户基本行为,主要有网络活跃指数,网络购物指数,在线视频指数,母婴指数,出行指数,理财指数,医疗健康,购物
26、倾向,常用网站,视频网站等。其中,我们对用户行为标签这一列的内容分列进行了提取。提取后的数据如下表所示: 表 3 目标用户行为统计分析表 用户编号 网络活跃指数 网络购物指数 在线视频指数 198 1081 268 64 6049 2091 1986 467 560 342 21 181 5718 27208 48821 79 从上表可以看出,购买和未购买该手机用户的网络活跃指数,网络购物指数,在线视频指数的值均有较大差异。因此,用户基本行为特征是影响用户是否购买该手机的重要指标。 (4)电商分类电商分类中包含的内容主有用户编号,浏览时长,在商务平台网页上浏览过的手机型号,产品一级分类,产品二
27、级分类。我们统计了每个用户浏览手机时长,浏览 surpass 手机时长,计算得到了购买该手机欲望指数,购买该手机的欲望指数为浏览 surpass 手机时长比浏览手机总时长。具体内容见表 4: 表 4:电商行为统计表用户编号浏览手机总时长浏览该手机时长购买手机欲望指数23463s31s0.8955520s1838s33.271667s1667s100 19621s0s0通过上表,我们可以得到每个用户购买该手机的欲望指数,购买该手机的欲望指数越大,则该用户的购买该手机的潜力越大。 (5)视频行为视频行为中包含的内容有用户编号,浏览时长,浏览内容,内容一级分类, 内容二级分类。考虑到用户观看视频的需
28、求可能对手机的屏幕,内存,电池等有较高要求,并且用户具体观看什么内容与手机本身没有直接关系,我们对每个用户的浏览视频总时长进行了统计,具体内容见表 5: 表 5 视频行为统计分析表 用户编号 浏览视频总时长 2 15066s 3 1866s 25 2111s 通过上表我们可以看出不同用户的浏览视频总时长不同,考虑到 surpass 参数中的数据,surpass 手机屏幕占比 75.4%,存储 16G,可以满足观看视频较多的用户需要,因此可以作为精准营销时的一个优势。 (6)触媒行为触媒行为中包含的内容有用户编号,浏览网页名称,搜索子类名称,网址。将所有购买了该手机的用户对这 22 类网页的浏览
29、次数进行了统计,访问次数最多,则说明访问该网页对用户购买该手机的影响最显著,以次数从高到低对这 22 类网页进行排序,分别给其赋从 22 分到 1 分,最终求出每个用户的得分和即为网页影响度指标,对网页的网页影响度进行统计得到下表所示: 表 6 触媒行为统计分析表 浏览网页名称 计数 得分 新闻媒体 172194 21 在线视频 129225 20 电子商务 105170 19 搜索服务 105057 18 社交网络和在线社区 76669 17 网址导航 70121 16 网络服务应用 61816 15 IT 数码 57337 14 游戏 48457 13 投资金融 34881 12 生活服务
30、 29981 11 汽车 27299 10 音乐 17891 9 房产家居 13703 8 交通旅游 12696 7 休闲娱乐 9141 6 人才招聘 8621 5 医疗保健 6833 4 女性时尚 5762 3 教学及考试 4288 2 垂直行业 1635 1 通过上表我们看出,不同网页的网页影响度得分是不同的,通过对已购买该手机的用户的基本行为和个人偏好的分析得出的各个网页对用户购买手机的影响力,进而得出的网页影响度指标对于不同用户而言是有显著差异的。网页影响度越大的指标,其购买该手机的可能性就越大。 综上,我们通过数据预处理和对数据的统计分析得到了更为直观和系统的数据,可以用于接下来的建
31、模和计算。对手机的销售情况进行分析,发现影响手机销售情况的因素有很多,例如用户基本行为特征,其中用户基本行为特征又包括网络活跃指数,网络购物指数,在线视频指数,母婴指数,出行指数,理财指数等;用户个人偏好,其包括浏览视频总时长,购买欲望指数,浏览次数比,网页影响度等。要研究手机的销售情况,就要分析手机的销售情况与这些因素变化之间的关系。 5.2用户基本行为特征对该手机购买的影响5.2.1问题二的分析对于问题二,首先我们从目标用户中筛选出购买该手机的用户,同时我们选取了网络活跃指数,网络购物指数,在线视频指数,母婴指数,出行指数,理财指数作为用户行为的基本特征。初步考虑这六个指标间的共线性可能比
32、较 小,因此我们对选取的 6 个指标做方差分析,筛选出对是否购买该手机影响显著的前 4 个指标。再以用户是否该手机为因变量,筛选出的指标为自变量建立了二分类的𝑙𝑜𝑔𝑖𝑠𝑡𝑖𝑐回归模型,得出用户是否购买该手机与用户基本行为特征之间的关系。 为分析每个指标是如何影响用户是否购买该手机,我们每次给其中一个指标一个微小的变化,将对应的𝑙𝑜𝑔𝑖𝑠𝑡𝑖𝑐回归值作比,得到该指标对用户是否购买该手机的影响的灵敏度大小,从而得到各个指标是如何影响用户是否购买该手机的。 5.2.2指标的方差分析(1)方差分析基本思想方差分析用来研究两个及两个以上控制
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1