市场调研中的相关分析与回归分析.docx-资源下载

市场调研中的相关分析与回归分析.docx

1、市场调研中的相关分析与回归分析在研究具有相互关联的事件上，我们通常借助于相关分析和回归分析这两种统计方法，度量变量之间关联程度的方法叫相关分析。如果考虑的是两个变量之间关系时，称为简单相关；如果讨论一个变量与两个或多个其他变量的关系时，就称为复相关或偏相关，而回归分析则是根据已知的一个或一个以上变量(自变量)的值来估计另一个变量(因变量)的值，并且算出估计的误差。尽管这两种方法在现实使用时可以互相替代，但仍然存在不同，相关分析只是测定变量之间的相关程度。它考虑的是随机变量之间的共同变动，而不必区分自变量和因变量，而回归分析是希望得出一个有关各个变量之间联系的数字表达式，其中只有目标变量因变量

2、假设为随机变动，而自变量均为已知常数，正如探讨变量之间关联度不必推导出一个方程，我们也可以在不考虑变量关联度情况下做回归分析。一般而言，两种方法是混合使用的，统称为相关回归分析，下面我们将分别介绍这两种方法。（一）相关分析(1) 1简单相关探讨变量Xi，Yi间的相关关系时，可以先做出散点图(ScatterDiagram)，以数标轴上的点代表Xi，Yi的一对观察值，这可以直观地考察变量之间联系程度，且有助于选择合适的估计模型。对两个变量X，Y之间的简单相关，需要事先作出如下假设：两个变量均为随机变量，一个样本观察值同时包括X，Y的值。两个变量为联合正态分布。即在任何其中一个变量的观察值

3、不变时另一个变量呈正态分布。如果两个变量X，Y的测定值为(X1,Y1)，(X2,Y2)(Xn,Yn)，变量X，Y的平均数以，来表示，即： (i=1,2n) 经计算r在-1与+1之间变化。若X，Y完全正相关，一单位X的增加引得Y增加一单位，此时r=+1，反之，若X增加一单位导致Y减少一单位，两者完全负相关时，r=-1，有关情况如下表(9-1)。表9-1 R=1完全正相关 0R1 正相关 R=0不相关 -1R0 负相关 R=-1完全负相关如果数据较多，可把X与Y分别分组，用组的组中值为代表值，由于各组皆有不同的次数f,则X1，X2XiXk与Y1，Y2YjYe可作为两个变量的相关表(Cor

4、relationtable)。见表(9-2)。 XY X1 X2 Xi Xk 合计 Y1 F11 F21 Fi1 Fk1 F1 Y2 F12 F22 Fi2 Fk2 F2 Fkj Fj Yj F1j F2j Fij Ye F1e F2e Fie Fke F1 合计 F1 F2 FiFk N 表中，F1，F2FiFk表示与Y无关的X的分布，F1，F2FjFe表示与X无关的Y的分布，这些分布都称为X，Y的边际分布(MarginalDistribution)，其中有关符号是：有关相关分析或回归分析的说明可以通过实例来表达，也方便我们作进一步的探讨，现在有一个生产宝珠笔的全国性生产商家“Click”

5、，正准备对本公司在市场营销方面的策略效率进行调查。该公司借助地区代理商来分销“Click”笔，同时通过派驻公司销售代表和播放电视广告来辅助代理商进行销售。现确定以每年地区销售额作为效率的评价尺度，而且有关各地区销售代表的信息和数据可直接从公司记录中获取，比较而言其它他们认为与销售额有关的特征因素电视广告和代理商的绩效的判断就相对困难一些。为获得某一地区电视广告的情况必须对广告的时段和电视频道所覆盖的范围进行分析。代理商的效绩则要求按照一定的标准对代理商进行等级评分并以最后的加总分来进行判断，如4=优秀；3=不错；2=一般；1=差劲，考虑到获取这些信息所要花费的时间和费用，最后“Click”公司

6、决定对销售地区进行样本调查。这次随机抽取40个地区的调查结果见表9-3。首先做散点图(9-3)，表a表示销售额随每月电视广告时数增加时增加，而表b则显示当该地区销售代表人数变多时，销售额也随之上升，最后表C显示某一地区的销售额与该地区代理商的绩效没有太大的关联。表a和表b进一步表示销售额与各变量之间的关系呈直线关系，以Y表示销售额，X1表示电视广告，X2表示销售代表，现计算Y与X1的相关系数以及Y与X2的相关系数分别为0.87、，表明两者之间存在显著的相关性。表9-3 Click宝珠笔的地区调查结果地区销售额（千美元）广告（电视时段/月）X1 销售代表人数X2 005 260.3

7、53 019 286.175 033 279.463 039 410.894 061 438.2126 082 315.3 83 091 565.1117 101 570.0168 115 426.1134 118 315.0 73 133 403.6106 149 220.5 44 162 343.6 94 164 644.6178 178 520.4197 187 329.5 93 189 426.0116 205 343.2 83 222 450.4135 237 421.8145 242 245.6 74 251 503.3166 260 375.7 95 266 265.5 52 2

8、79 620.6186 298 450.5185 306 270.1 53 332 368.0 76 347 556.1127 358 570.0136 362 318.5 84 370 260.2 63 391 667.0168 408 618.3198 412 525.3177 430 332.2104 442 393.2125 467 283.5 83 471 376.2105 488 481.8125 图9-2 销售Y销售Y （千美元）（千美元）在讨论相关系数时，我们更常使用另外一个概念可决系数R2，相关系数的平方。通过一系列代数运算，R2的公式可表示如下：正如在统计上要考虑样本

9、值与总体值之间的差异，这里我们也必须测定可信程度的大小在我们接受样本值r值为整个销售地区的调查结果，这需要对r的显著性作假设检验。假设p表示相应未知的总体相关系数，我们计算以下的t统计量：因为置信度=0.05，自由度为38，则临界值r=2.02或r=-2.02判别的标准为：如果r2.02或r-2.02，则拒绝假设，由此可知，无论是Y与X1还是Y与X2都应拒绝假设H。尽管在判断联合变化的相关度时，简单相关系数很有用，但仍有二点有关它的运用需要说明。首先，样本相关系数低或未能通过t-值显著性检验并不意味着两个变量一定没有联系，这只能说明它们缺乏线性联系，如图9-4所示，该散点图清楚地表示变量X

10、与Y之间存在强的U-型线变化关系。然而在这种情况下得出的简单相关系数却可能接近于0，仅仅由于当将这些样本点联系起来考虑时呈现不出直线性联系。所以，即使简单相关系数非常少或不具备统计意义上的显著性，我们仍可以进一步对可能存在的非线性联系(曲线相关)作探究，尤其是有关经验或理论显示两者应该存在联系。也许研究曲线相关最简单的方法就是进行描点作散点图分析。图9-3 其次，正如有关统计书上指出的，简单相关系数本身的存在并不足以推断变量之关联变动。例如，销售额与电视广告时数之间的相关系数为0.87并不保证当广告时段数上升会导致销售额的上升，尽管它试图得出这个结论，相关所说明的唯一的事是在所调查的40个地

11、区中有关这个两个变量数据变化的模式是相近的，但这很有可能源于销售额与电视广告时数间的偶然性联系。比如，对于各个地区销售额的水平的预期会在一定程度上决定各地区广告时数高低水平，因此除非其它相关因素保持不变或其影响已计算在内，否则仅依靠简单相关系数来推断变量间的联系是十分危险的。（一）相关分析(2) 2复相关与偏相关引入更多的因素变量是我们减少判断偏差提高准确度的方法之一，这就涉及到复相关和偏相关。为了方便后面的说明，这里我们先简单引入一下回归分析，借助回归方程来解释复相关系数和偏相关系数。有关回归分析的具体内容我们将在第二节作详细的介绍。如前面所提到的，在利用相关系数说明销售额Y与电视广告

12、时数X之间联系，我们还可以借助直线方程式来说明。建立模型(在散点图基础上) 如果一方程中所包含自变量个数超过二个，我们该回归为复回归，该方程为复回归方程。即为复相关系数(MultipleCorrelationCoefficient) 为复相关可决系数，在对于销售额，电视广告和销售代表人数之间关系的调查中这意味着销售额中87.4%的变动差异与电视广告时数及销售代表人数变化有关，销售代表的引入提高了变量间的相关度，因为87.4%的变动可以用这两个因素说明而电视广告时数的不同只能说明77.5%的变动。同时，说明三者之间存在强的关联度。所谓偏相关(PastialCorelation)是在测定n

13、个独立变量对一个因变量的影响时，在排除其他变量的影响后，指定一个独立变量对这个因变量计算得的相关系数，称为偏相关系数，也可称为纯相关系数(NetConelationCoefficient)，回忆在简单相关分析中有关销售额Y与电视广告X之间简单可决系数可以表示如下：这意味着在销售变动中有42.4%与电视广告无关的变动可以从销售代表数目变化中得出。相应的，在估计销售额与电视广告相关性时所犯的偏差减少了42.4%是源于销售代表数目作为增加项的引入。同样，偏相关可决系数的平方根即(一般只取正平方根)为偏相关系数。在这个例子中存在二个自变量X1，X2，因此我们可以定义有关于销售代表数目X2的偏相关系

14、数为，我们可以类似的方法推算出有关电视广告的偏相关系数。它表示在充分考虑X2与Y相关度后加入因素X1对于Y整个变动差异的影响或增加的边际贡献之所以我们要借回归方程来解释复相关和偏相关系数是想说明各系数所代表的经济意义，并不是求相关系数非要得出回线方程不可。但从计算简便以及经济含义角度，我们经常选择两种方法一起使用。样本相关系数的分布和测验在假定两变量(x,y)的组合总体适合于正态分布（三度空间的立体正态曲面）的条件下，x与y的相关系数r的抽样分布是随着两个因素样本单位数n与总体相关系数P的不同而变化着，不过总的说来，r分布的形态是属于各种各样的。如把总体相关系数p分成三类：P=0,

15、P=0.50以及P=0.90，在不同的n条件下，r的分布形态是：图9-3 图9-4 图9-5 由于r分布的偏态形态，作实际测验的计算时，比较困难，英国著名统计学家埃爱费煦为了补救这种复杂计算的缺陷，用变量E代替r，替代公式为：其中ln表示以e为底的自然对数，对E的变量来说，它的分布接近于正态分布，因此，就可利用正态分布表作出测验。另外，费煦已经作出了r与E间的变换表格，所以计算就大大地简化了。关于相关系数r的虚无假设的测验以及可信任界限的计算可举例如下：例如：样本为35对数据时，求出r为0.80，试用5%的显著标准来作出总体相关系数=0.90的虚无假设测验。先假定以虚无假设出发，r=0

16、.80可能从总体=0.90中抽出，如果概率超过5%，就接受这个假设，否则，就推翻这个假设。从附表我们查出r=0.80时，Z=1.099，并从同一附表中，找出=0.90时，MZ=1.472，我们知道这里，Mz是在0.31与0.87之间，因此，P是在0.30与0.70之间，这个指标是以附表中0.31与0.87的正数值而获得的。一、相关分析（3） 3等级相关(RankConelation) 有些时候，对现象或事物无法以精密数量确定其大小，轻重，只能以等级或次序排列出。例如，才智高低，事态轻重，色泽深浅，效率大小以及味道的好坏等，一般只能以等级排列。即使是精密的数据，有时也采用等级来测定它们之间

17、的相互关系，这种关系一般是以等级相关系数来表示的,而在这些等级相关系数中，以司庇而曼(C.Spearman)的等级相关运用最为普遍。其公式为：其中：d=各对数据的等级差异 n=样本的数据总数司庇而曼相关系数是针对于两个序数变量的，其中每个变量的数据已按一定标准划分成1至n个等级，如果的和为0，那么rs=1。也就是说此时两个变量的等级是等价的。rs值由+1(完全正相关)变化到-1(完全负相关)，其中若rs=0意味着彼此不相关。现有一个案例：在过去的几年间一家工业品营销公司一直从其总部附近地区的10所商科学校毕业生中招募销售人员，现在想确定这十所学校的相对名气与它的毕业生表现业绩之间是否存

18、在关联。该公司的销售经理自己对这10所学校的声誉以及各自毕业生在本公司的表现进行了分级，这些等级评定情况见表9-4的第二列以及第三列。现在问题是各学校的名气与来自于各学校学生的销售业绩之间究竟有多大的联系呢? 借助于司庇而曼相关等级系数公式，我们可知： rs的值为0.661表明两个等级排名之间至少存在一定的联系，那么这种联系在统计上显著吗?回答这个问题我们可以假定这10所学校是以商科学校总体中抽出的随机样本调查，然后检验以下检验： H0：PS=0 H1：PS0 PS为两个等级集总体相关等级系数，当n10时，以下的检验数据将是满足自由度为n-2的t-值分布：因为t2.31，所以我们拒绝H0并认

19、为各商科学校的名气与其毕业生的工作表现存在真实的相关性。换而言之，样本中0.661的相关性不大可能由于偶然性而导致的。值得一提的是我们是根据不同等级对之间的等级差距来计算rs的，这种作法与认为构成序数尺度的数字之间的差距是没有什么意义的观点不同，事实上，在计算rs时我们已假设两个变量同等级的差距是具有可比意义的，如果这个假设前提不成立，那么司庇而曼等级相关系数也就没什么意义了。二）回归分析(1) 由一个或一组非随机变量来估计或预测某一个随机变量的观察值时，所建立的数学模型及所进行的统计分析，称为回归分析。如果这个模型是线性的就称为线性回归分析；如果模型是曲线的就称为曲线回归分析。这种方法是

20、处理变量间相关关系的有力工具。它不仅告诉人们怎样建立变量间的数学表达式，即经验公式，而且还利用概率统计知识进行分析讨论，判断出所建立的经验公式的有效性，从而可以进行预测式估计。这在实际中的运用是十分普遍的。线性方程是比较容易求出的，即使是曲线方程也多半会转换成线性方程进行求解。我们就从线性方程回归开始，而线性回归中最简单的就是两个变量，或者称为简单线性回归，借助第一节我们所举的“Click”公司有关销售额，电视广告以及销售代表的案例，对于销售额Y与电视广告时数X1我们可以建立模型(在散点图基础上)这是一种确定性方程，因为当、给定，一旦x1的值确定时有且仅有一个Y值与其对应值。然而在对社会现象

21、进行调查时，不可能存在等于零的误差。考虑到这一点我们会在上述方程式上添加一个误差变量，以可能性模型来替代确定方程，即：这正是我们第一节中所提到的方程，误差项是该模型不可缺少的一部分，它暗示着模型可能有未包含进去的变量、一种人类行为中不可预测的因素以及偏差的度量。可能性模型在给定，值情况下，Yi与Xi不是一一对应的关系；由给Xi值所能确定的只是这种情况Yi分布的平均值，而Yi真实值则围绕其上下波动。我们最终确定的回归方程是一种确定模型，因而我们希望能找到一条“最能代表真实可能性情况的方程或者说两者偏离最小。最常见的方法是最小二乘法。而该方法又以随机误差符合一定假设为前提的，这些假设条件具体如

22、下：参看表9-3销售额Y和每月电视广告时数X1的有关数据，可以得到： 25.3意味着电视广告时段每增长一个单位则销售额会增加25，300美元。正如前面所提到的，这是建立在40个地区的抽样调查基础上得出的对真实总体值的估算值，不同的样本多半会导出不同的样本值。而且，我们还不知道这个值是否具有统计上的显著性或者它是否是由偶然性引发的。然而，这是一个比较重要的方程因为它有助于我们决定广告费用的回报是否值得。截距参数值字=135.4;这表明当自变量为0时，该回归直线穿过y轴的距离。二)回归分析（2）估计标准差对图9-7的仔细检查发现，尽管直线拟合数据拟合得很好，但仍存在若干点对于直线的偏离，从

23、而实际上这些偏差的大小代表了回归方程直线拟合的优劣，成为判断方程好坏的一个指标。同样我们可以利用统计中的有关知识计算出这个指标。（二）回归分析(3) 有关斜率系数的分析前面计算有关斜率系数值为25.3，但我们并不知道这个结果是否源于偶然性，是否具有意义，这就需要对其进显著性检验，根据著名的Gauss-Markov理论，如果我们要对回归系数进行统计检验我们要假设该变量的离差为随机分布，这与前面我们所提到的矩状型分布是有所出处的，此外，我们还需要设定由最小二乘法所估计出的总体参数是符合有效，无偏，最大拟然估计原则的估计值。如果H0不能被拒绝，情况又会怎么样呢?正如我们所指出的，代表样本

24、回归直线的斜率，为变动一单位Y所相应变化的数额，如果不能证明 =0的虚无假设不存在，这也不能完全否定Y与X1之间没有联系，可能是我们在检验中犯了第二类错误，没有拒绝不成立的假设。另外一种可能就是Y与X之间的关联是以某种曲线型方式存在，而我们运用了错误的模式去推算。对Y值的预测如果所求出的回归方程并非为偶然联系，那么我们就可以利用它来对给定的电视广告时下的销售额进行预测，需要考虑两种情况： 1.预测给定情况下的Y的平均值。 2.预测给定情况下的Y的一个单值。让我们依次来讨论这两种情况。给定的的值记为，由回归方程得出的Y值即为所求的平均值，记为则对于一个每月电视广告时数为10的

25、地区，预计平均销售为：以上告诉我们的是如何计算当电视广告时数每月为10时整个地区的平均销售额水平，但有时候我们希望能对某些特别的地区的销售进行预测。这样预测中包含了一个附加的误差项，其数值等于一个特别值可能造成的偏差。因此预测单个销售能所存在的错误率要比预测整个销售额平均水平时的大。相应地，它所满足的公式为：读者可比较一下两种预测情况下的置信区间的范围，即两者偏差的大小。（二）回归分析(4) 对于使用回归分析需要注意的事项：回归分析方法的普遍性和借助计算机运算的快捷性使得许多研究人员不问该方程与研究现象适合与否或不考虑回归分析的缺陷就盲目使用，其实使用回归分析法是需要许多假设前提的，

26、如果忽略这些前提，就会导出错误甚至是荒谬的结论，这里我们集中讨论一下有关简单回归的缺陷，这些缺陷也同样适用于我们稍后将要提到的多元回归分析。首先，如同在相关分析中看到的，回归分折局限于揭示变量之间的线值关系。如果散点图中所揭示变量之间的规律显著不呈直线变化，那么此时运用回归分析就是非常不适合的（除非通过变量转换变成线性关系）。所以一般只要可能，都要求事先根据数据划出散点图以判断变量之间的联系。其次，通过了显著性检验或佣有较高R2值的回归方程并不一定保证解释变量与被解释变量之间的因果关系，这一点是特别值得注意的；因变量与自变量的设定可能会让粗心的研究者习惯地认为如果回归方程是显著性相关的前者

27、肯定可由后者推导出，但事实上两个变量之间是否有在联系必须从以前的经验和有关的知识理论推导出，而不是由对数据运用的数学方法得出，它只是一个验证。因此谁是因变量，谁是自变量要由研究者自己决定，而不足依赖统计工具。设想有人把经过某一地点各女士裙边离地高度与当时太阳黑子变动的数据合在一起进行分析，如果由此得到的回归方程有0.9的可决系数，是不是就要肯定后者导致了前者的变化呢?这显然是荒谬的。第三,回归方程对于超过给定范围的自变量对应下因变量的预测也就是我们常说的“外推预测”上可信度不高，举一个例子，在研究电视广告与销售额之间关联时电视广告时数变化范围为419，对于超过19或低于4的广告时数对应的销售额进行预测时，我们就面临很大的风险。因为我们并不知道当增加新的数据点后散点图是否仍遵循原来的直线。事实上，甚至在原来的范围内，随首X0值对的偏离，所得到预测的误差都在不断加大(见图9-8) 图9-8 A.B预测值的上下边界 C对于点，yi预测值的偏离 D最小的预测值的偏离(此时 ) 第四，建立在小规模样本上的回归方程是不可靠的，极端化而言，仅由两个点推出的简单回归值线方程的可决系数为1，而不论这两点怎样分

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？