消费者购买可能性判断的模型设计111.docx
《消费者购买可能性判断的模型设计111.docx》由会员分享,可在线阅读,更多相关《消费者购买可能性判断的模型设计111.docx(10页珍藏版)》请在冰豆网上搜索。
消费者购买可能性判断的模型设计111
消费者购买可能性判断的模型设计
分类模型就是根据以往的经验,根据每个属性内的水平与类之间的对应关系,构造出分类模型。
本文旨在探讨分类模型的评价标准,并提出了两种分类方法。
第一种分类方法比较简单,经济含义也比较明显,但第一种方法要求属性(指标)之间不能有强的相关性。
在第二种方法中,提出并证明了两条比较实用的结论,并利用这两条结论与一些合理的假设,求解出了新的分类模型。
在一对一销售、信用评价等商业活动中,经常需要判断哪些人的购买倾向更高一些,哪些人的信用更好一些的问题。
这实际上是如何进行分类的问题。
分类与聚类不同。
聚类没有根据经验进行学习的过程。
而分类模型根据以往的经验,根据每个属性内的水平与类之间的对应关系,构造出分类模型。
分类模型的方法有:
决策树、遗传算法、贝叶斯等。
在本文中,只分成两类,这两类用购买者与非购买者来代表。
购买者表示购买某产品,非购买者表示不购买某产品。
一、模型好坏评价的标准
预测结果的好坏也就是预测准确程度。
本文以销售时的情况为例,假设结果分为两类:
购买者与非购买者。
假设在以往数据中购买者与非购买者的个数分别是a、b。
我们利用某种模型在a个购买者中预测准确a1个人,不准确a2个人(或者说a2个人被预测成非购买者);在b个非购买者中预测准确b1个人,不准确b2个人(或者说b2个人被预测成了购买者)。
很自然的想法是利用整体准确率来衡量:
L1=(a1+b1)/(a+b)×100%指标一
指标一的缺点是,有时购买者的个数要远低于非购买者的个数,比如,假设在某个人群中非购买者的比例占98%,如果采用这样的预测方法:
对于任何一个人,都认为他是非购买者,按照指标一,预测准确率可以达到98%,属于很高的预测精度。
但这与商家的目标不一致:
商家希望根据以往的经验,根据每个人的属性特征,利用某种评价模型,从某个人群中挑出一部分人来,与没有应用该种模型相比,挑出来的这部分人比原始人群具有很高的购买倾向。
而利用指标一评价,就属于一个人都没有挑出来。
指标一的根本缺点是没有注意到预测准一个购买者与预测准一个非购买者的重要程度是不一样的(在购买者与非购买者数量基本相等时两者的重要程度是一致的)。
而以下指标就可以有效的克服上述缺点:
L2=(a1/a+b1/b)×50%指标二
可以利用指标二来判别模型的预测能力,将L2称为分类模型拟合优度系数。
容易证明,在一般情况下,模型拟合优度系数在0.5与1之间。
当L2=0.5时,说明利用分类预测模型并没有提高预测精度;而当L2=1时,说明分类模型将购买者与非购买者完全区分开了。
将指标二进行变换,可以得到:
L2=(a1/a+b1/b)×50%
=50%+(a1/a–b2/b)×50%
一般来说,a1/a–b2/b显然大于0。
因为根据我们的目标利用模型挑选出来的人中,购买者的比例与原始人群相比有所提高,也就是:
a1/(a1+b2)>a/(a+b)
(1)
其中,模型的左边是利用模型挑选出的人群中购买者所占的比重,模型的右边是原始人群中购买者所占的比例。
将式
(1)两边同乘以(a1+b2)×(a+b),经过整理可以得到:
a1/a>b2/b
同理,可以得到:
b1/b–a2/a>0,并且容易得到:
a1/a–b2/b=b1/b–a2/a
(2)
本文将a1/a–b2/b或b1/b–a2/a称为模型的识别能力因子,识别能力因子越大,则模型的挑选能力越高,越能够符合商家的需要。
容易得到,能力识别因子在0与1之间。
当能力识别因子等于0时,利用模型挑选出的人群中购买者占的比例与原始人群相等,模型没有起到应有的挑选能力的作用。
而当模型识别能力因子等于1时,挑选出的人群全部是购买者或非购买者,也就是说将购买者与非购买者完全分开,当然这是一种理想情形,实际上是不可能达到的。
二、评价模型
设有m个属性(比如性别、年龄、以往购买情况等),每个属性由一定的水平构成,通过某种规则将每个属性的各个水平赋予一定的值,设Xki表示第j个人的第k个属性对应的水平,将该水平赋予一定的数值Ukj(比如如果第k个属性是性别,如果第j个人是男,那么属性对应的水平就是男性,根据购买倾向等可以将男性赋予一定的数值)。
对于第j个人,若U1j+U2j+……+Umj>P,则判断第j个人属于购买者,否则判断为非购买者,U1j+U2j+……+Umj称为第j个人的得分,P称为临界值。
假设共有m个属性,假设第i个属性共有ki个水平,分别赋予一定的数值:
U(i,1),U(i,2),……,U(i,ki)。
如果当每个属性的水平以及临界值取以下值时:
U*(i,1),U*(i,2),……,U*(i,ki);P*使模型评价标准取最大值,即
L2=max(a1/a+b1/b)×50%
=50%+max(a1/a–b2/b)×50%
或者使模型识别能力取最大值,即max(a1/a–b2/b),则称U*(i,1),U*(i,2),……,U*(i,ki);P*为模型的一个最优解。
三、赋植方法
利用统计的方法
假设属性A中的j水平有t比例的人属于购买者,则称A属性j水平对购买的隶属程度为t。
将t值赋予j水平,依据同样的方法,则可以得到每个属性各个水平的赋植。
利用maxL2=max(a1/a+b1/b)×50%或max(a1/a–b2/b)求出P值。
对于第i个人,若U1i+U2i+……+Umi>P,则判断此人为购买者,否则判断为非购买者。
可以求出属性A的重要程度=da/∑d。
其中,da=属性A中各水平赋值的标准差,∑d表示所有属性水平标准差之和。
此种方法比较简单,经济意义也比较明显。
但这种方法也有比较明显的缺陷:
各个属性(指标)之间不能有强的相关性,没有考虑到属性之间的交互影响,得到的解有可能不是最优解等。
利用不等式及定义对各水平进行比较精确的赋值
此种方法要求将每个属性的水平赋予合适的值,赋值的范围从-∞到+∞。
规则是若第i个人U1i+U2i+……+Umi>P
则判断此人为购买者,否则判断此人为非购买者。
利用以下目标求出每个属性各个水平以及P的值:
maxL2=max(a1/a+b1/b)×50%或max(a1/a–b2/b)
其中max(a1/a+b1/b)与max(a1/a–b2/b)是等价的。
为了提高算法的可行性,本文提出并证明以下两点结论:
(1)结论一
在一个属性中,给各个水平赋值,有意义的不是各个水平赋值的大小,而是要看各个水平之间差距的大小。
也就是说,在一个属性中,给每个水平同时加上一个常数,不改变分类结果。
可以证明以下结论:
假设U*(i,1),U*(i,2),……,U*(i,ki);P*是分类模型的最优解,其中i=1,2,……,m。
则对每个属性各水平的以下赋值:
U*(i,1)+ai,U*(i,2)+ai,……,U*(i,ki)+ai;P*+a1+a2+……+am,i=1,2,……,m也是分类的一个最优解,其中a1,a2,……,am是常数。
可以这样来证明:
对于任意第j个人根据第一种赋值方法即U*(i,1),U*(i,2),……,U*(i,ki);P*,其中i=1,2,……,m来判断是购买者(如果是非购买者结论也是一样的),则
U*1j+U*2j+……+U*mj>P*
那么采用赋值方法:
U*(i,1)+ai,U*(i,2)+ai,……,U*(i,ki)+ai;P*+a1+a2+……+am,i=1,2,……,m,因为不等式两边同时加上一个常数不改变不等号方向,所以同样可以得到:
(U*1j+a1)+(U*2j+a2)+……+(U*mj+am)>P*+a1+a2+……+am
也就是说第二种赋值方法没有改变任何人的分类,所以若第一种赋值方法:
U*(i,1),U*(i,2),……,U*(i,ki);P*,其中i=1,2,……,m能够使L2达到最大,L2=max(a1/a+b1/b)×50%,或使模型的识别能力达到最大:
max(a1/a–b2/b),则第二种赋值方法:
U*(i,1)+ai,U*(i,2)+ai,……,U*(i,ki)+ai;P*+a1+a2+……+am,i=1,2,……,m也能够使L2或模型的识别能力达到最大。
所以说,若U*(i,1),U*(i,2),……,U*(i,ki);P*,其中i=1,2,……,m是分类模型的一个最优解;则第二种分类方法:
U*(i,1)+ai,U*(i,2)+ai,……,U*(i,ki)+ai;P*+a1+a2+……+am,i=1,2,……,m,并且a1,a2,……,am是常数,也是分类模型的一个最优解,第一个最优解与第二个最优解是等价的。
利用第一个结论,可以令每个属性中的其中一个水平为零,这样做并不改变模型的识别能力。
在实际应用中,一般可以令每个属性中购买倾向最小的水平赋予的值为0,因为在模型中,是大于临界值为购买者,因此,认为其它所有的水平值都大于0是比较合理的。
(2)、结论二
若U*(i,1),U*(i,2),……,U*(i,ki);P*是分类模型的最优解,其中i=1,2,……,m;则aU*(i,1),aU*(i,2),……,aU*(i,ki);aP*也是分类模型的一个最优解,其中a是不等于0的常数。
可分两种情况来证明:
第一种情况,a>0
对于任意第j个人,假设根据第一种赋值方法:
U*(i,1),U*(i,2),……,U*(i,ki);P*,其中i=1,2,……,m判断为购买者,即,根据第一种赋值方法可以得到
U*1j+U*2j+……+U*mj>P*
因为不等式两边同时乘以一个正数,不等号方向不变。
因此,有
aU*1j+aU*2j+……+aU*mj>aP*
也就是说利用第二种赋值方法对任何一个人的判断与第一种方法都相同。
因此,若第一种方法使模型的识别能力达到最大,则第二种方法也同样使模型的识别能力达到最大。
所以说,若U*(i,1),U*(i,2),……,U*(i,ki);P*,其中i=1,2,……,m是分类模型的一个最优解,则U*(i,2),……,aU*(i,ki);aP*,其中i=1,2,……,m也是分类模型的一个最优解。
第二种情况:
a<0
对于a<0的情况,只需改变一下判断规则(大于或等于临界值时为非购买者,小于临界值时为购买值),则利用类似的方法,同样可以证明,若U*(i,1),U*(i,2),……,U*(i,ki);P*,其中i=1,2,……,m是分类模型的一个最优解,则U*(i,2),……,aU*(i,ki);aP*,其中i=1,2,……,m也是分类模型的一个最优解。
一般情况下,可以限制a>0,这样判别规则就不用改了。
因为在结论一中,已经将各个水平限制在大于等于0的范围内,并且每个属性中购买倾向最小水平的赋值为零。
因此,一般来说,临界值必然大于0。
否则就会出现只要出现某种水平,就预测为购买者的情况。
因此,总可以在不等式的两边同时乘以一个常数,使临界值P为常数,这样并不改变模型的识别能力。
每个属性水平的取值可以限制在不超过P的范围内,否则会出现只要出现某个水平的值,就必须判断为购买者的情况。
可以取P=10,令每个属性中购买倾向最小水平的赋值为0,其它水平的值在0与P之间(这里P取10),然后确定一定的步长,利用叠代的方法求出最优解以及分类结果。
四、案例分析
A公司准备推出一款面向儿童的产品,采用的方式为一对一销售。
A公司购买了数量很大的一批名址,这些名址包含的属性有:
孩子的性别、孩子的年龄、孩子的爱好、孩子是否经常参加某种集体活动、父母的学历、父母的职业。
营销人员按照数据库中的名址与顾客(儿童的父母)进行沟通,经过一段时间的实践,发现沟通成本极大,与很多不可能购买的人的接触浪费了太多的精力。
A公司希望能够更准确的找到潜在消费者。
在这里,就可以利用分类模型。
A公司共接触了2500人,其中372人购买了产品,2128人没有购买产品。
我们采用计算机随机抽样的方法,将2500人分成两组,每组1250人,每组购买者的比例基本一样。
我们用第一组数据来估计模型的参数,第二组数据用来检验模型。
以下分别用上面提到的两种方法来求解分类模型。
1、利用统计的方法赋值
利用每个水平中购买者占的比重作为该水平的赋值。
可以得到以下赋值结果:
属性
水平
孩子性别
男
女
赋值
0.233
0.115
孩子年龄
1-3
4-6
7-9
10-12
13-14
15岁及以上
赋值
0.0129
0.0736
0.1073
0.4795
0.4375
0.5192
父母职业
第一类职业
第二类职业
赋值
0.2493
0.0596
父母学历
硕士及以上
本科或大专
高中
初中
赋值
0.5
0.234
0.08411
0.08242
孩子爱好
无
第一类爱好
第二类兴爱好
赋值
0.0936
0.0814
0.2574
孩子是否经常参加集体活动
否
是
赋值
0.1156
0.2199
按照以上赋值方法,可以得到每个人的得分在0.46与1.88之间。
为了找到最合适的临界值,从而使L2=(a1/a+b1/b)×50%或a1/a–b2/b的值最大。
可以在0.46与1.88之间计算出在不同的P值下,模型拟合优度L2=(a1/a+b1/b)×50%与模型识别能力a1/a–b2/b的值。
可以得到下图:
从图中可以看出,在P*=1.14时,模型拟合优度与模型识别能力同时达到最大。
模型拟合优度L2=0.794,模型识别能力=0.587,因此,取临界值P*=1.14。
按照以上赋值方法,当某个人得分大于1.14时,就判断该人为潜在购买者;而当得分小于或等于1.14时,就判断该人为非潜在购买者。
可以求出,a1/(a1+b2)=37%,也就是说在利用上述分类模型选出的人中,将来可能会有37%的人购买产品,与不利用模型时相比(14.88%),精确度有了很大的提高。
但是,也有一部分购买者被误判为非购买者,从而损失了一部分市场,这部分人占全部可能购买者的比例为:
a2/a=33%,这属于利用模型获得高精确度的代价。
可以求出各个属性对于判别是否是购买者的归一化重要程度:
孩子
性别
孩子
年龄
父母
职业
父母
学历
孩子
爱好
孩子是否经常参加集体活动
归一化的重要程度
7.9%
21.8%
12.7%
18.6%
9.3%
29.7%
利用得到的模型在第二组数据中进行预测,可以得到:
L2=(a1/a+b1/b)×50%=0.786,
a1/a–b2/b=0.572
因此,第一种方法得到的模型预测能力还是比较好的,可以用来预测。
2、利用不等式及定义对各水平进行比较精确的赋值
利用第二种方法,可以得到各水平比较精确的赋值。
令临界值P*=10,每个属性购买倾向最小的水平赋值为0。
利用叠代的方法,可以得到最优解时的赋值。
属性
水平
孩子性别
男
女
赋值
1.1
0
孩子年龄
1-3
4-6
7-9
10-12
13-14
15岁及以上
赋值
0
0.498
0.774
3.826
3.482
4.152
父母职业
第一类职业
第二类职业
赋值
1.69
0
父母学历
硕士及以上
本科或大专
高中
初中
赋值
3.79
1.34
0.015
0
孩子爱好
无
第一类爱好
第二类兴爱好
赋值
0.174
0
2.31
孩子是否经常
参加集体活动
否
是
赋值
0
0.85
按照以上赋值,当某个人的得分大于10时,就判断为购买者,当得分小于或等于10时,就判断为非购买者。
模型拟合优度L2=0.81,模型识别能力=0.62,与第一种方法略好一些。
但预测能力略差一些。
利用得到的模型,在第二组数据中进行预测,结果为:
L2=(a1/a+b1/b)×50%=0.759
a1/a–b2/b=0.518
不如第一种方法的预测。
因此,利用第一种比较简单的方法基本可以满足一般的分类要求(但第一种方法在选属性时要注意属性之间不能有强的相关性)。