1、是当反映事物特征的变量很多时,根据所研究的问题选择部分变量对事物的某一方面进行研究的聚类方法。,聚类分析的统计量(Statistics of Clustering Analysis),设x1x2xn为n个分类特征指标,xik表示第i个样品的第k个指标值。为了将样品(或变量)进行分类,首先需要引进表示样品之间相似程度的度量,称为聚类统计量。,常用的聚类统计量,匹配系数,距离,相似系数,1匹配系数,当分类指标 为类别标度量时,通常采用匹配系数 作为聚类统计量。第 个样品与第 个样品的匹配系数 其中匹配系数越大,说明两样品越相似,越应该划为同一类。,2距离,当指标中有间隔标度变量时,匹配系数已不再适
2、用,此时采用距离来进行度量,距离越小,相似程度越高,两样品越应该划为一类.,在实际问题中,对样品分类常用距离,对变量分类常用相似系数。相似系数可以分为夹角余弦与相关系数。,3相似系数,聚类分析的方法(Method of Cluster Analysis),聚类分析的方法中应用最广泛的有两类:层次聚类法和迭代聚类法。层次聚类法又可分为两种:聚集法和分解法,层次聚类法,迭代聚类法,聚集法,分解法,层次聚类法,聚集法的步骤,把每个案例各自看成一类,把距离最近的两类合并,重新计算类与类之间的距离,再把距离最近的两类合并,重复此过程直到所有案例归为一类,分解法和聚集法的过程相反,首先把所有的案例归为一类
3、,然后把最不相似的案例分为两类,每一步增加一类,直到每个案例都自成一类为止。,迭代聚类法,层次聚类法在聚类过程中,当样本量很大时需要占用的计算机内存空间较大,并且耗时较长。迭代聚类法克服了层次聚类法的这两个缺点它具有占计算机内存空间小、速度快的优点,适用于大样本的聚类分析。,迭代聚类法的优点,占计算机内存空间小,速度快,迭代聚类法的聚类过程的基本思路,首先指定聚类数,对样本进行初始分类并计算每一类的中心,然后计算每个样本点到各类中心的距离,调整样本点的分类,把每个样本点归入与中心距离最近的那一类,重复计算每一类的中心,调整分类直到所有样本点调整完毕为止。,聚类分析的基本步骤(Basic Ste
4、ps of Cluster Analysis),相似性测度,选择聚类变量,聚类,聚类结果的解释和证实,偏好图展示,首先要解决的是判断哪些因素是决定分类的关键因素,主要有两种指标来测度:距离和相似系数,主要解决两个问题:选定聚类方法;确定形成的类数,对结果进行验证和解释,以保证聚类解是可信的,以聚类结果和聚类变量为轴做出研究对象的偏好图,聚类分析的假设条件和局限性(Assumptions and Limitations of Cluster Analysis),要进行聚类分析必须满足两个假设条件:第一,作为聚类依据的相似性指标是衡量对象间相似性的正确指标;第二,可以从理论上证明把对象合并成一类是
5、有道理的。其局限性主要在于要评价聚类分析的质量比较难。由于没有标准统计检验可用,因此无法保证输出结果不是完全偶然事件。聚类准则指标值、输出结果的合理性和分割样本的可靠性检验都能提供有用的检验信息,但是要确切了解哪些类别非常相似、哪些对象难以分配到类别里去还是很难。,案例15.1,欲按价格、质量将不同品牌的电脑分类,其中质量的以百分制进行度量,用质量衡量值表示,看哪些电脑属于物美价廉型,哪些电脑属于性能差、价格昂贵型,以便消费者做出购买决策。下面是对某几个大型商场的13种不同品牌的电脑做了价格质量测定,得到的平均数据如表15-1所示:,表15-1 各品牌电脑的价格质量数据,利用统计软件SPSS作
6、Q型聚类分析,可得到谱系图 如果将13个品牌的不同电脑分为四类,那么由谱系图可见:第一类为6,9,3,12,属于性价比适中的电脑;第二类为1,8,4,属于价格较高,质量很好的电脑;第三类为2,7,10,属于价格高,质量差的电脑;第四类为5,13,11,属于价格低,质量差的电脑。,因子分析(Factor Analysis),因子分析的基本思想(The basic idea of factor analysis),其核心思想是将观测的变量分类,将相关性较高即联系比较紧密的变量分在同一类中。因子分析就是研究如何以最少的信息丢失把众多的观测变量浓缩为少数几个因子。在市场研究中,研究人员会面对大量的变量
7、以及复杂的、多维度的关系结构,要进行进一步的研究分析就离不开对数据的简化,研究人员就可以利用因子分析来定义、解释包含在众多原始变量之中的潜在结构或者关系,并且使用一组少量的、有代表性的因子来表示,这样不但降低了分析难度,而且能够比较好地代表原始结构,并透视数据,进而提高分析的准确性。,因子分析的基本模型(Basic Model of Factor Analysis),设有n个观测变量,分别为,其中 为具有零均值、单位方差的标准化变量,则因子模型的一般表达式形式为:,(1),叫做公因子是各个观测变量所共有的因子,解释了变量之间的相关系数。(2)成为特殊因子,它是每个观测变量所特有的因子,相当于多
8、元回归中的残差项,表示该变量不能被公因子所解释的部分(3)称为因子负荷,它是第 个观测变量在第 个公因子上的负荷,相当于多元回归分析中的标准回归系数。,因子分析的基本步骤(Basic Steps of Factor Analysis),定义问题,初步研究设计,构造相关矩阵,确定因子分析方法,确定因子数,因子旋转,因子分析的有效性评价,因子分析结果的进一步运用,因子分析的假设条件和局限性(Assumptions and Limitations of Factor Analysis),因子分析的假设条件是变量背后存在一些潜藏因子,并且这些变量能完整、充分地代表这些因子。因子分析最大的局限性在于因子
9、分析的过程主观性很强。因子数目的确定、对它们意义的解释和要选择的旋转方法都要用到分析人员的主观判断。,对应分析(Correspondence Analysis),对应分析的基本思想 对应分析法是在R型和Q型因子分析基础上发展起来的多元统计方法,又称R-Q型因子分析。它是通过对由定性变量构成的二维交互汇总表的频数分析来揭示变量及其类别之间的联系。,对应分析的基本步骤,确定研究的内容,获取数据,对列联表作对应分析,解释分析结果,评价分析结果,多维偏好分析(Multidimensional Preference analysis),多维偏好分析的基本思想(The basic idea of mult
10、idimensional preference analysis)在市场研究中,多维偏好分析是运用多元统计理论中的主成分分析方法对消费者的品牌偏好、细分市场和厂商的产品定位等问题做出数量预测,因此我们首先简要介绍下主成分分析法。,主成分分析方法 主成分分析是将众多彼此相关的指标化为少数几个彼此不相关综合指标的一种统计分析方法。其基本思想和方法是根据指标间的相关信息从众多的指标中抽取若干综合成分以代表原来众多的指标。具体来说,就是将各个主成分用各个原来指标的线性组合来表示,使这些主成分既能尽可能地反映原指标的信息量,又使各个主成分彼此不相关,达到消减指标间信息重叠的目的。,多维偏好分析的基本步骤
11、(Basic Steps of Multidimensional Preference Analysis),进行主成分分析,收集数据,作偏好图并解释结果的意义,确定研究的问题,评价分析结果,联合分析(Joint Analysis),联合分析的基本思想(The basic idea of joint analysis),其基本思想是:根据若干现实产品的属性及每一属性的具体水平,组成多种假定产品,然后要求消费者对这些产品排序或评分,运用统计技术对排序或评分结果进行处理,估计每一属性水平的“效用值”,从而对每一属性以及属性水平的重要程度做出量化评价的方法。,联合分析的基本模型(The basic m
12、odel of joint analysis),其中,y是全轮廓的偏好得分;a为截距;bij是第i个属性第j个水平的效用值或贡献;ki表示第i个属性的水平;m表示属性数;xij表示不同属性水平的哑变量,如果第i个属性的第j个水平出现,xij的取值为1,其他情况xij的取值为0;u(x)是全轮廓的总效用。,联合分析的基本步骤(Basic Steps of Joint Analysis),产品模拟,确定产品或服务的属性和属性水平,数据的收集,确定研究对象,计算属性的效用,评价分析的结果,市场预测,联合分析的假设条件和局限性(Assumptions and Limitations of Joint Analysis),联合分析的基本假设条件是:消费者是通过加总他们对产品概念各个属性的效用值对该产品概念做出评价并做出选择。联合分析法假设每个属性都不冗余,并且属性之间不存在相互作用。局限性在于,当品牌形象和名称很重要时,消费者可能不根据属性对品牌或名称进行评价,即使消费者考虑产品属性,取舍模型可能也不能很好地代表选择过程;另一个局限性是数据收集可能非常复杂,尤其是当涉及大量的属性或必须在个体水平下对模型进行估算时。,
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1