离散选择模型在市场研究中的应用.docx
《离散选择模型在市场研究中的应用.docx》由会员分享,可在线阅读,更多相关《离散选择模型在市场研究中的应用.docx(17页珍藏版)》请在冰豆网上搜索。
离散选择模型在市场研究中的应用
离散选择模型在市场研究中的应用
黄晓兰沈浩
北京广播学院,北京100024
摘要:
离散选择模型是一种复杂、非线性的多元统计分析方法和市场研究技术,主要基于消费者对产品/服务的选择来模拟消费者的购买行为。
本文通过手机话费价格研究介绍了离散选择模型的基本原理和操作步骤,以及采用MultinomialLogitModel计算属性效用值、选择概率和模拟市场占有率,获得价格弹性曲线的方法。
关键词:
属性;水平;正交实验设计、选择集、效用值、选择概率、MultinomialLogitModel
离散选择模型(DiscreteChoiceModel),也叫做基于选择的结合分析模型(Choice-BasedConjointAnalysis),是一种非常有效且实用的市场研究技术。
该模型是在实验设计的基础上,通过模拟所要研究产品/服务的市场竞争环境,来测量消费者的购买行为,从而获知消费者如何在不同产品/服务属性水平和价格条件下进行选择。
这种技术可广泛应用于新产品开发、市场占有率分析、品牌竞争分析、市场细分和价格策略等市场营销领域。
同时离散选择模型也是一种处理离散的、非线性的定性数据的复杂高级多元统计分析技术,它采用MultinomialLogitModel进行数据统计分析。
目前,国内在采用该模型进行市场研究方面还是一项空白,本文主要介绍了离散选择模型的基本原理,选择集实验设计、问卷设计、数据收集和处理、模型分析和结果解释等主要操作步骤,并给出了一个手机市场价格研究的应用案例。
1离散选择模型的基本概念和原理
离散选择模型主要用于测量消费者在实际或模拟的市场竞争环境下如何在不同产品/服务中进行选择。
通常是在正交实验设计的基础上,构造一定数量的产品/服务选择集(ChoiceSet),每个选择集包括多个产品/服务的轮廓(Profile),每一个轮廓是由能够描述产品/服务重要特征的属性(Attributes)以及赋予每一个属性的不同水平(Level)组合构成。
例如消费者购买手机的重要属性和水平可能包括:
品牌(A,B,C)、价格(1500元,1750万元,2000元)、功能(短信,短信语音,图片短信)等,离散选择模型是测量消费者在给出不同的产品价格、功能条件下是选择购买品牌A,还是品牌B或者品牌C,还是什么都不选择。
离散选择模型的一个重要的假定是:
消费者是根据构成产品/服务的多个属性来进行理解和作选择判断;另一个基本假定是:
消费者的选择行为要比偏好行为更接近现实情况。
它与传统的全轮廓结合分析(FullProfilesConjointAnalysis)都是在全轮廓的基础上采用分解的方法测量消费者对某一轮廓(产品)的选择与偏好,对构成该轮廓的多个属性和水平的选择与偏好,用效用值(Utilities)来描述。
但是,它与传统的结合分析的最大区别在于:
离散选择模型不是测量消费者的偏好,而是获知消费者如何在不同竞争产品选择集中进行选择。
因此,离散选择模型在价格研究中是一种更为实际、更有效、也更复杂的技术。
具体表现在:
●将消费者的选择置于模拟的竞争市场环境,“选择”更接近消费者的实际购买行为;消费者的选择行为要比偏好态度更能反映产品不同属性和水平的价值,也更具有针对性;
●消费者只需做出“买”或“不买”的回答,数据获得更容易,也更准确;
●消费者可以做出“任何产品都不购买”的决策,这与现实是一致的;
●实验设计可以排除不合理的产品组合,同时可以分析产品属性水平存在交互作用的情况;
●离散选择集能够较好地处理产品属性水平个数(大于4)较多的情况;
●统计分析模型和数据结构更为复杂,但可以模拟更广泛的市场竞争环境;
●模型分析是在消费者群体层面,而非个体层面。
离散选择模型主要采用离散的、非线性的MultinomialLogit统计分析技术,其因变量是消费者在多个可选产品中,选择购买哪一种产品;而自变量是构成选择集的不同产品属性。
例如,一项简单的手机市场研究中,假定产品包括3个属性,每个属性有2个水平,属性水平分别是:
网络类型(GSM,CDMA)、增值服务(语音和基本数据,语音和高端数据)、手机类型(低辐射环保,普通非环保),共有2×2×2=23种可能的产品组合,构成一个选择集。
调查了10位消费者,要求每一位消费者在给出的8种可能产品组合中选择他们最可能购买的一种手机产品。
MultinomialLogitModel假定每个消费者是从包含m个可选产品的选择集C中选择一个产品
,其选择概率等于:
其中:
是被选中产品的属性向量,
是未知参数向量。
是选择
产品的效用值,它是该产品属性的线性函数;因此,消费者选择某个产品的概率等于该产品效用值的指数函数除以所有产品效用值的指数函数的和。
在这个例子中,消费者是从m=8个候选产品的选择集C中选择一个,共有8个产品属性向量,记作:
x=(GSM/CDMA,语音和基本数据/语音和高端数据,低辐射环保/普通非环保),其中:
网络=(GSM=1,CDMA=0),话费价格=(语音和基本数据=1,语音和高端数据=0),手机类型=(低辐射环保=1,普通非环保=0);则8个属性向量分别是:
x1=(000)(CDMA,语音和高端数据,普通非环保)
x2=(001)(CDMA,语音和高端数据,低辐射环保)
x3=(010)(CDMA,语音和基本数据,普通非环保)
x4=(011)(CDMA,语音和基本数据,低辐射环保)
x5=(100)(GSM,语音和高端数据,普通非环保)
x6=(101)(GSM,语音和高端数据,低辐射环保)
x7=(110)(GSM,语音和基本数据,普通非环保)
x8=(111)(GSM,语音和基本数据,低辐射环保)
MultinomialLogitModel采用极大似然函数估计未知参数向量
,
似然函数为:
其中:
N=消费者人数,m=选择集中可选产品个数,
如果第k个消费者选择了第j个产品,则
,否则
假定例子中10个消费者分别选择了x5,x6,x7,x5,x2,x6,x2,x6,x6,x6产品。
那么,在8种产品中:
x2被选择了2次,x5被选择了2次,x6被选择了5次,x7被选择了1次。
则极大似然函数为:
最后MultinomialLogit模型估计得到未知参数向量估计值
,表明GSM的属性水平效用值为1.39,语音和基本数据的属性水平效用值为-2.20,低辐射环保的属性水平效用值为0.85。
由此可以计算8种产品的选择概率,计算结果如下:
表1选择概率计算
属性向量
效用值
指数函数
选择概率
排名
x1=(000)
0
1
5.4%
5
x2=(001)
0.85
2.339647
12.6%
3
x3=(010)
-2.20
0.110803
0.6%
8
x4=(011)
-1.35
0.25924
1.4%
7
x5=(100)
1.39
4.01485
21.6%
2
x6=(101)
2.24
9.393331
50.5%
1
x7=(110)
-0.81
0.444858
2.4%
6
x8=(111)
0.04
1.040811
5.6%
4
β’=(1.39 –2.20 0.85)
合计=18.60354
100%
从表中我们可以看出,被调查消费者最喜欢购买低辐射环保、语音和高端数据增值服务的GSM手机,选择概率为50.5%。
表中个别产品组合的效用值为负值或零,但其选择概率却不为零。
所以,选择概率是效用值的非线性的递增函数。
图1给出了效用值指数函数与选择概率的关系图。
图1表明,效用值的指数函数取值从
到
,选择概率在[01]。
效用值在最小值-2处概率取值接近零,随着效用值的增加,概率随之增长,当效用值等于2时,选择概率开始快速增长。
图1效用值指数函数与选择概率分析
离散选择模型采用MultinomialLogitModel估计未知参数
是一个比较复杂的统计分析过程。
目前统计分析软件主要有SAS/STAT统计过程和SASMarket模块,二者均采用SAS/STATProcPHREG过程—比例风险回归(ProportionalHazardsRegression)分析。
另外,Sawtooth软件公司开发了专用的CBC市场研究分析软件(Choice-BasedConjointAnalysis),该软件集成了从选择集实验设计、问卷生成、数据收集到统计分析,市场模拟等离散选择模型的市场研究全过程。
2离散选择模型的主要步骤
任何一项采用离散选择模型进行的市场研究,都包括从确定研究目的、实验设计、数据收集、数据整理、分析和计算、检验与应用、模拟市场、撰写研究报告等全过程,必须借助专用的分析软件来实现。
采用离散选择模型的主要步骤如下:
2.1属性和水平的确定
离散选择模型最重要的一步就是决定能描述产品/服务特征的重要属性。
针对不同的研究目的,影响消费者选择购买或使用产品/服务的因素都要考虑。
当属性决定之后,还要选择每个属性的水平,各属性水平范围可以比实际范围低一些或高一些,但不能设定得太离谱,以免脱离消费者对现实市场环境的真实理解。
由于离散选择模型数据的复杂性和占用大量的空间,属性和水平的个数不能太多,一般限制属性要少于6个,每个属性水平在8个以内最好,尤其是考虑不同属性水平之间存在交互作用时,这一点尤为重要。
2.2选择集实验设计
当产品/服务的属性和水平数目不太多时可以将所有的产品/服务组合展现给消费者,即采用全因子实验设计(Full-FactorialDesign),这种设计可以估计属性间的主效应(MainEffect),以及估计交互作用。
但是当属性和水平数目较多,例如:
有5个属性,其中2个属性有4个水平,3个属性有5个水平,将会有4⨯4⨯5⨯5⨯5=2000个不同产品组合,就会超出消费者的理性判断范围。
构造适当的组合产品,使之既有代表性又在消费者评估能力范围内,就变得格外重要。
一般采用部分因子实验设计(Fractional-FactorialDesigns)来减少产品组合数目,实验设计常用正交排列法(OrthogonalArrays)估计主效应的线性模型(LinearModel),以期获得正交的、平衡的产品组合,也就是选择所有的属性水平在产品组合中的一个子集。
SPSS和SAS软件都有特定的模块可以生成部分因子的正交排列。
传统的全轮廓结合分析在进行实验设计时,因变量是消费者对产品/服务轮廓的总体评价偏好得分,自变量是构成产品/服务的属性水平因子。
但是,在离散选择模型中,实验设计的因变量是消费者对产品的选择,从m种产品选择一种(选择=1,未选择=0),而自变量是产品/服务的属性。
假定价格研究涉及到3个品牌(品牌1,品牌2,品牌3)和2种价格(1.99,2.99),全轮廓结合分析是将品牌水平和价格水平都作为自变量因子,但离散选择模型并不将品牌单作为属性因子(自变量),而是将“品牌价格”作为含有3个水平(品牌1价格,品牌2价格,品牌3价格)的属性因子,即三个“品牌价格”属性因子分别有三种不同价格水平。
例如:
表2全轮廓结合设计表3离散选择集线性模型设计
品牌
价格
1
1.99
1
2.99
2
1.99
2
2.99
3
1.99
3
2.99
选择集
品牌1
价格
品牌2
价格
品牌3
价格
1
1.99
1.99
1.99
2
1.99
2.99
2.99
3
2.99
1.99
2.99
4
2.99
2.99
1.99
在实际应用中,有时候往往无法获得正交、平衡的部分因子组合,例如:
存在着市场无法接受的组合,要求的正交排列、平衡的轮廓数不存在,部分属性之间存在着交互作用。
这时候研究人员必须做出一定的选择,考虑采用非正交的实验设计方法,SAS8.1forWindows的宏:
%MKTRUNS()和%MKTDES()可以用来帮助实现正交或非正交实验设计并估计线性模型实验设计效果。
2.3问卷设计和数据收集
离散选择模型是将产品/服务轮廓的属性水平组合成m种不同产品/服务,构造一个选择集,同时展现给消费者,从中选择一个最可能购买的产品/服务。
也可以让消费者评价多个选择集,每个选择集可以包括“在该选择集中,任何产品都不购买”的选择,这样更接近现实情况。
每一个选择集中的产品可以完全用文字描述,也可以辅助于图片或实物模型,一般需要将选择集制作成卡片。
例如,移动话费价格研究包括了5家移动通讯服务商品牌和4种不同话费价格。
在离散选择模型中,5个品牌分别有4种不同价格水平,部分因子正交实验设计构造了16个选择集,其中某个选择集卡片如下所示:
移动通讯服务商价格研究——选择集5
如果您选择移动通讯服务,您最可能选择下面使用哪一种?
服务商
移动
全球通
移动
神州行
联通
130
联通
如意行
联通
CDMA
任何服务
都不选择
价格/分钟
0.50元
0.60元
0.40元
0.30元
0.60元
(选中划勾)
ð
ð
ð
ð
ð
ð
离散选择模型的数据收集通常采用纸笔或者计算机辅助调查方法,后者一般借助专用的模型分析软件,例如Sawtooth公司的CBC软件。
可以采用调查员面访,也可以采用中心地点调查的形式收集资料。
2.4数据编码和整理
离散选择模型对选择集的数据格式有特殊的要求,在进行数据分析之前必须将所有选择集进行重新编码,并与被访者的“选择”结果合并数据。
例如,前面表3给出了品牌价格研究的4个选择集,一行代表一个选择集,重新编码整合数据后,需要三行代表一个选择集,并将线性选择结构转换为离散选择结构,最后将被访者的“选择”整合在离散选择数据结构中,表4、表5给出了假定的某个被访者的选择数据编码。
表4线性结构编码表5离散结构编码
品
牌
价
格
被访者
选择集
选择结果
品牌
1
品牌
2
品牌
3
品牌1
价格
品牌2
价格
品牌3
价格
Brand
Price
ID
Set
Choice
1
1.99
1
1
1
1
0
0
1.99
0.00
0.00
2
1.99
1
1
2
0
1
0
0.00
1.99
0.00
3
1.99
1
1
2
0
0
1
0.00
0.00
1.99
1
1.99
1
2
2
1
0
0
1.99
0.00
0.00
2
2.99
1
2
1
0
1
0
0.00
2.99
0.00
3
2.99
1
2
2
0
0
1
0.00
0.00
2.99
1
2.99
1
3
2
1
0
0
2.99
0.00
0.00
2
1.99
1
3
2
0
1
0
0.00
1.99
0.00
3
2.99
1
3
1
0
0
1
0.00
0.00
2.99
1
2.99
1
4
1
1
0
0
2.99
0.00
0.00
2
2.99
1
4
2
0
1
0
0.00
2.99
0.00
3
1.99
1
4
2
0
0
1
0.00
0.00
1.99
表5给出了满足离散选择模型的数据结构,第1列表示每个被访者的编号,第2列表示每个选择集编号,第3列表示每个被访者从含3个产品的一个选择集中选择产品的结果(选择=1,不选择=2)。
假定我们调查了100位消费者,最终的数据集将含有100×4×3=1200行数据。
随着被访者人数、选择集个数和每个选择集含有的可选产品数目的增加,数据集将会非常庞大。
由于离散选择模型是在群体层面上进行分析,习惯上可以将被访者编号列设置为所有被访者的选择频次,作为加权变量,从而简化数据集。
2.5数据分析
离散选择模型是在消费者群体层面上进行分析,它主要包括两个方面,
(1)选择频次分析:
通过分析所有被访者对选择集中可选产品的选择频次,得到各属性水平的选择比率,也可以计算不同属性水平二维交互作用的选择比率,一般用百分比表示。
(2)Logit模型选择概率分析:
当选择数据经过编码整合后,就可以利用MultinomialLogitModel进行数据分析。
该模型是一种复杂的多元统计分析过程,前面提到的SAS/STAT和Market模块的PrcoPHREG过程可以用来估计未知参数向量
,并计算不同选择集中每个产品的选择概率。
2.6结果检验和解释
离散选择模型的MultinomialLogit选择概率分析,主要是获得未知参数
估计值。
参数估计值表明各属性的不同水平影响消费者选择某种产品/服务特征的价值或优先选择的程度,一般用“效用值”表示。
效用值越大表明消费者越会首选具有该水平的产品/服务。
离散选择模型的结果必须加以检验和评估,目的是为了评价在消费者群体层面上,模型拟合的正确性,以及评估模型能否正确预测消费者选择的能力。
首先要观察数据结构汇总表,用以判断选择集数据结构是否正确,以及极大似然估计的迭代算法是否收敛。
然后考察整个模型的拟合程度,一般在显著性水平α=0.05或0.01下,利用-2LogL统计量和似然比统计量的卡方值(Chi-Square)作显著性检验。
整个模型的零假设:
“
”,如果接受零假设,表明属性与选择没有关系;如果拒绝零假设,则表明不同属性影响消费者对产品的选择;最后要检验每个未知参数的估计值,考察估计值的概值(P-Value)的显著性程度,越显著的属性对消费者选择产品的影响程度就越大。
2.7应用结果和模拟市场
离散选择模型可以在群体层面上得到影响消费者选择购买或使用产品/服务的属性水平的效用值,进而可以模拟市场竞争环境,构造不同选择集,计算选择频次比率和选择概率,获得消费者在不同产品/服务属性水平下的选择行为。
可广泛应用于新产品开发、市场占有率分析、品牌竞争分析、市场细分和价格策略等市场营销领域。
离散选择模型最主要的应用在于价格研究,通过模拟不同的产品属性和不同价格水平的竞争环境,计算不同价格的选择概率,得到价格弹性曲线,从而制定有效的价格策略。
为了说明离散选择模型的应用,本文给出了移动通讯话费价格研究的一个实际应用案例。
3离散选择模型——价格研究案例
随着移动通讯市场竞争的日趋激烈,移动和联通两大服务商在原有全球通和130手机用户的基础上,分别推出了预付话费的神州行和如意通,同时联通在GSM网络基础上又推出了CDMA网络。
但是,话费价格始终是影响消费者选择供应商的重要因素。
为了制定价格竞争策略,可以采用离散选择模型进行品牌优势和价格研究。
本项研究包括5种服务品牌和4种不同价格,分别是:
品牌(移动全球通、移动神州行、联通130、联通如意通、联通CDMA)和价格(0.30元/分钟,0.40元/分钟,0.50元/分钟,0.60元/分钟)。
在离散选择模型中,因变量是消费者在若干个可选品牌构成的选择集中的选择,而自变量是影响消费者选择的属性。
因此,离散选择集应该设计为5种品牌(属性)分别有4种不同价格水平,如果采用全因子实验设计,应该有4×4×4×4×4=1024种可能选择集,远远超过消费者的理性判断范围,必须采用部分因子正交排列法来减少选择集。
可以用SAS8.2宏%MKTRUNS()和%MKTDES()生成选择集子集和评估实验设计效果。
本项研究的实验设计结果给出了16,32,48,64等均可满足正交和平衡的选择集个数,考虑到被访者的承受能力,确定16个选择集是适当的。
当确定了选择集个数后,根据实际情况加上“不选择任何服务”选项,则每个选择集含有6种可能的服务方式,将每个选择集制作成16张类似前面问卷设计给出的选择集卡片,按顺序或随机的方式让被访者依次从每张卡片选择一种最可能使用的服务。
如何确定离散选择模型样本量的大小?
首先我们要考虑采用概率抽样还是非概率抽样,概率抽样除了要考虑非常简单随机抽样样本量确定因素:
置信度和误差(精度)之外,还要考虑离散选择模型的影响因素,主要包括:
属性和水平的个数,估计主效应和交互作用,每个选择集包含的可选产品数,选择集个数;研究表明:
随着每个被访者需要选择的选择集个数增加将等同于增加了样本量。
一般情况下,离散选择模型的样本量在300-600个样本之间,如果需要估计不同的消费者细分市场,样本量还需要增大;另外,离散选择模型的被访者同质性程度越高,估计的效果会越好。
本项研究作为模拟案例,调查了50位在未来半年内可能选择使用移动通讯服务的消费者,获得了选择数据结果。
我们采用离散选择模型的MultinomialLogitModel进行分析,用SAS8.2统计软件将选择集重新编码与调查选择数据整合后,投入到ProcPHREG过程得到模型拟合统计量和未知参数值估计值。
在模型中,价格属性直接作为数量型变量,用实际测试话费价格赋值,“不选任何产品”的价格水平设定为测试价格的平均值=0.45元/分钟。
表6,表7分别给出了模型的拟合统计量。
表6模型拟合统计表7总模型零假设检验:
BETA=0
Criterion
Without
Covariates
With
Covariates
Chi-
Square
DF
Pr>ChiSq
-2LOGL
573.363
491.8
LikelihoodRatio
81.5625
6
<.0001
AIC
573.363
503.8
Score
80.0738
6
<.0001
SBC
573.363
522.252
Wald
60.2024
6
<.0001
从表中可以看出,离散选择模型的LikelihoodRatio卡方检验是显著的,说明消费者的选择与品牌和价格属性有关系,也就是说在移动通讯服务选择中,品牌和价格影响消费者的选择行为。
表8给出了未知参数估计值和显著性检验。
表8MultinomialLogit模型PHREG过程参数估计
DF
Parameter
Estimate
Standard
Error
Chi-Square
Pr>ChiSq
移动全球通
1
4.68386
0.5918
25.7639
<.0001
移动神州行
1
2.90759
0.62685
7.4206
0.0064
联通130
1
3.57995
0.60611
14.1497
0.0002
联通如意通
1
2.14624
0.60705
13.6919
0.0002
联通CDMA
1
1.26679
0.6199
9.0688
0.0026
不选服务
0
0
.
.
.
价格
1
-3.44654
0.84498
8.3832
0.0038
从表8可以看出,未知参数估计值在0.05显著性水平下均显著不为零。
被访者最偏好使用的品牌是移动全球通,其次是联通130、神州行、如意通,联通CDMA的品牌偏好最低。
价格参数估计值为负,说明消费者更偏好较低话费价格