市场调研方法与数据分析Word格式.docx

资源描述

市场调研方法与数据分析Word格式.docx

《市场调研方法与数据分析Word格式.docx》由会员分享，可在线阅读，更多相关《市场调研方法与数据分析Word格式.docx（9页珍藏版）》请在冰豆网上搜索。

市场调研方法与数据分析Word格式.docx

问卷的模式说明调查员（被访者）没有理解或者遵循访问指南回答等；

问卷的答案几乎没有什么变化，如在态度的选项上全部选择第ｘ项的情况；

问卷的被访者不符合抽样要求；

问卷的回收日期超过了的访问的时限等。

问卷的校订

　　为了加强问卷的准确性，对那些初步接受的问卷还要进行进一步的检查和校订，在校订的过程中，通常会发现问卷中存在有字迹模糊、问题漏选的、前后回答不一致的、答案模棱两可的和跳答错误的问题。

　　问卷的某些问题答案可能出现字迹模糊的情况，特别是碰上无结构的开放式的问题时，因为调查员记录的不好，答案不容易识别。

如果发现这样的问题，必须对受访者进行追访，将积极不清楚的地方填写清楚。

　　对于漏选的问题处理方法也是一样，出现漏选的题目因为各种原因，无法进行补充访问事后，普通的问题，而且数目不大的情况，通常作为缺失值处理；

如果涉及到是受访对象的个人特征的问题，通常只能作为废卷处理。

　　问卷中有些问题的答案会出现不容易理解的模棱两可的情况，或者是使用了不是通用的缩写方式或词语，或者在该单选一项的问题中，圈选了两项等，都必须通过追访进行补救。

另外就是回答时可能出现跳答错误的情况，这可能是因为被访对象没有很好的理解问题。

如果出现这种情况，首先要核实被访对象是否符合抽样调查的条件（跳答题目往往是筛选条件），如果符合，进行追问补充，如果不符合条件，问卷只能作废，重新补充样本。

　　问卷的回收、检查与校订可能是非常繁琐、且工作时间很长的工作，但是却是保证数据处理过程中较少误差的重要的步骤。

问卷的编码

　　编码是指对一个问题的不同答案进行分组和确定数字代码的过程。

大多数问卷的大多数问题都是封闭式的，在调查之前就已经完成了编码的过程，即每一组问题的不同答案的数字编码已经确定。

　　而开放式问题，因为不知道会得到什么答案，或者是希望得到比列出的封闭式的选项更详尽的答案，所以在调查结束后，必须对这些开放式的问题进行事后编码。

开放题的事后编码的工作量很大，无法预知会出现多少个新的代码和答案，而且有些答案是非常类似的，必须决定是否合并成一类呢，还是分成不同的代码。

具体地说明编码需要以下几个步骤：

（1）每个需要编码的项目都必须有一份编码表，将问题和项目的代码详细的标注在编码表的顶端位置，由于事先不知道会有多少新的代码或答案出现，所以一定要预备足够的空间。

（2）如果编码的工作由一个编码员完成，出现错误的可能性相对较小。

但实际上，因为需要编码的问题可能很多，一个认识没有办法按时完成的，这就需要多个编码员。

在这样的情况下，一定要注意多个编码员工作的协调。

应该安排编码员在不同的时间，或者相同的时间相同的地点，使用同一个编码表。

这样可以避免编码重复的情况。

　　（3）研究人员应详细制定编码的守则，指导编码员如何识别答案，并且将其归类，以及如何分配编码等等，并同时对编码的过程进行监督和检查。

编码员在编码的过程中可能有两种倾向：

一种是事无巨细将出现的每一种答案够给与新的代码，结果代码的数量比预料的要多出很多；

另一种情况是对答案的归类过于粗糙，可能丢弃了数据中有意义的差异。

对于这两种情况都必须通过守则的规定，尽量避免。

碰到无法确认的分类的时候，通常的做法是付与一个新的代码，如果需要合并，可以在将来的数据处理过程中完成。

　　（4）可以对“不知道”、“无所谓”、“不清楚”、“缺失”事先规定，但是一定要注意规定的编码与实现对该问题的最大编码的预计的数量一致。

　　（5）编码的字迹必须清楚，如果可能的话，及时的进行计算机的录入管理。

　　　见图15-1问卷的编码

第二调查资料的录入和整理

数据录入

　　数据录入是指将问卷或编码表中的每一个项目对应的代码转化成计算机能够识别的形式的过程。

这个过程需要数据录入装置（计算机）和一个存储介质（数据库软件、磁盘）。

市场调研发达的国家在数据的采集中使用CATI、CAPI的方式很普遍，因此键盘录入的过程已在访问的时候就已经完成了。

而且对于简单的问卷调查，使用调查卡进行光学扫描录入也能从时间上约不少成本。

但是国内目前主要还是纸面问卷调查的形式居多，所以在问卷完成后，还需要对问卷进行录入的操作。

　　大多数问卷信息通过智能录入系统进行，即使用相关的数据库软件包。

数据库软件不仅可以存储数据，而且在录入过程中，通过事先的数据库结构的编辑，可以对录入员录入的过程进行逻辑检查，避免数据录入过程中出现某种类型的错误，如录入无效的编码或者是太广的编码，同时对于跳答问题的录入也能进行很好的控制，减少错误的条约模式。

　　数据库软件的录入检查的范围，限制在最常见的逻辑错误上，对于在选项范围内，因为录入员的疏忽而出错的信息，往往是不能察觉，而录入员在问卷的输入过程中，因为速度非常快，即使是非常老练的录入员，也会出现录入错误的情况。

　　为了保证数据录入的准确性，有必要对录入的结果进行核查，核查的方式主要有双机录入或三机录入。

所谓双机录入的方式，是将同一份问卷分别由两个录入员进行两次录入，将两次的结果进行逐个比较，相同的部分是被认为没有错误的，如果出现不同的部分，检查问卷，及时修正。

所谓三机录入，即将同一份问卷由不同的录入员录入3次，将3次的结果通过计算机进行比较，采用“2排1”的选择，如果2个结果是相同的，排除那个不同的答案。

三机录入的方式可以减少翻阅问卷的人工。

　　无论是双机录入还是三机录入，都会增加调查的时间和费用成本，而且是成倍地增加。

但是为求得数据的收集录入各个环的准确性，越来越多的企业和市场调研公司要求数据的正确录入的操作。

　　如将在图15-1问卷的编码中出现的问题进行录入，问卷编号，城市编码，调查员编号，Q1、Q2、Q3LLQ12-1、Q12-2、Q12-3、Q13、Q14，对应的数据库结构见图15-2。

这样，输入时每份问卷按数据库中指定的位置输入相应变量的取值，一行数字就是一份问卷。

结果所有问卷依次输入完毕就形成一个数据库。

（1）问卷编码是001号，城市是北京市，12号调查员完成的问卷，圈选的结果是：

Q1男性；

Q230岁；

Q3大学专科；

LLQ12圈选的235；

Q13非常同意；

Q14不同意；

（2）问卷编码是005号，城市是上海市，2号调查员完成的问卷，圈选的结果是：

Q1女性；

Q222岁；

Q3大学本科；

LLQ12圈选的13；

Q13不同意；

Q14非常同意；

　　对应的数据库1）0011121304……23552；

2）0052022225……13045

数据的整理

　　如果在录入过程中，没有实行双机录入（三机录入）的措施，在录入完成之后，有必要对数据进行全面的整理检查。

数据整理主要是尽可能的处理错误或不合理的信息以及进行一致性的检查。

虽然经过回收问卷、编码过程以及录入的重重检查，但是数据的整理过程是使用计算机进行的，对数据的矫正将更为彻底。

　　数据整理可使用SPSS或SAS统计软件进行，可以很方便的寻找出超出选项范围、极端值或逻辑上不一样的数据。

通常的做法是首先对所有变量进行频数的计算，对连续性的变量进行均值、标准差、最小值、最大值等统计分析，超出范围的数据和极端的数值很容易检查出来。

例如，图15-1问卷的编码的调查中，关于年龄的填写，假定缺失值为“0”，如果出现小于16，或者大于60的数值就是超出范围的。

根据对应的问卷编号，变量编码找出问卷，进行核实。

　　数据整理是对数据进行的最后一道检查程序，这一步完成后，数据应该是“整齐、干净的”，然后进入下一步，对数据进行统计处理分析。

本章小结

1．回收问卷：

数据资料的处理过程是从回收第一份问卷开始的，按照事先调查方案的计划，尽量确保每份问卷都是有效问卷（所谓“有效”问卷，指的是在调查过程中按照正确的方式执行完成的问卷）。

2．问卷编码：

编码是指对一个问题的不同答案进行分组和确定数字代码的过程。

3．数据录入：

数据录入是指将问卷或编码表中的每一个项目对应的代码转化成计算机能够识别的形式的过程。

为了保证数据录入的准确性，有必要对录入的结果进行核查，核查的方式主要有双机录入或三机录入。

第十六章数据分析

第一常用的统计方法

变量类型

在编码时我们已经提到过，问卷的每一个题目都可以看做是一个变量，由于所提问题的性质不同，对应的变量类别就不一样，变量的类别由低到高依次为：

定类变量、定序变量、定距变量（定比变量）。

（1）定类变量：

变量的不同取值仅仅代表了不同类的事物，这样的变量叫定类变量。

问卷的人口特征中最常使用的问题，而调查被访对象的“性别”，就是定类变量。

对于定类变量，加减乘除等运算是没有实际意义的。

（2）定序变量：

变量的值不仅能够代表事物的分类，还能代表事物按某种特性的排序，这样的变量叫定序变量。

问卷的人口特征中最常使用的问题“教育程度”，以及态度量表题目等都是定序变量，定序变量的值之间可以比较大小，或者有强弱顺序，但两个值的差一般没有什么实际意义。

　　（3）定距变量：

变量的值之间可以比较大小，两个值的差有实际意义，这样的变量叫定距变量。

有时问卷在调查被访者的“年龄”和“每月平均收入”，都是定距变量。

　　定比变量与定距变量在市场调研中一般不加以区分，它们的差别在于，定距变量取值为“0”时，不表示“没有”，仅仅是取值为0。

定比变量取值为“0”时，则表示“没有”。

上面举的“年龄”、“每月平均收入”也是定比变量，因为它们的“0”值都表示“没有”。

而像“温度”这样的变量中的“0”值并不表示“没有”，而是表示“0℃”这一特定温度，这样的变量是定距变量，但不是定比变量。

　　在统计分析时，对不同类型的变量要选用不同的方法。

一般的原则是适于较低类别变量的统计方法也可用于较高类别的变量，反之则不行。

比如适用于定类变量的分析方法，同时也可用于其他类别的变量，反过来适于定距变量的分析方法，一般不能用于其他类别的变量。

　　由于市场调研中的定类、定序变量较多，为了能够使用更多的统计方法，常常将有些定类和定序变量通过某些转换变成定距变量或近似看成定距变量，这样只适用于定距变量的统计方法，就可以用于这些定类和定序变量了。

对于缺失值的处理

　　在数据整理中，经常会碰到缺失值的问题，缺失值的数量过多的话，说明数据收集过程中存在着严重的问题。

可以接受的标准是，缺失值的数量在10%以下。

处理缺失值的方法有下面4种：

（1）用一个样本统计量的值代替缺失值

　　缺失值可以使用一个样本的统计量去代替，最典型的做法就是使用该变量的样本平均值。

由于该变量的平均值保持不变，其他的统计量如标准差、相关系数等都不会受到影响。

如在收入或者年龄问题中出现缺失值，可以使用收入、年龄的平均值代替缺失值。

（2）用从一个统计模型计算出来的值去代替缺失值

　　另一种缺失值的处理方法就是利用由某些统计模型计算得到的比较合理的值代替，常使用的模型有回归模型、判别模型等等。

如“个人收入”、“年龄”与“品牌的选择”可能存在关系，利用这三个问题的被访者问答数据，可能构造出一个回归方程。

根据这个回归方程，对于没有回答“品牌选择”的被访者，可以根据“个人收入”和“年龄”的选项，利用回归方程式，计算出品牌选择的值。

　　（3）将有缺失值的个案删除

　　将有缺失值的个鞍删除的方法，结果可能会导致样本量的减少，如果调查在收集过程中控制得不是很好，被访对象多多少少都会出现一些问题没有回答的情况，删除个案的方法，会导致大量的样本减少。

　　（4）将有缺失值的个案保留，仅在相应的分析中做必要的删除

　　将有缺失值的个案保留，仅在相应的分析中做必要的排除的方法，会使分析中不同计算的样本量不同，也有可能导致不适宜的结果。

调查的样本量比较大，缺失值的数量又不是很多，而且变量之间也不存在高度的相关的情况下，市场研究者经常采用这种方式处理缺失值。

统计方法

　　根据研究的目的与要求，要选择不同的统计方法。

如果是对一个变量取值的归纳整理及对其分布形态的研究，用频数分析（计算百分比等）、众数、中位数、均值和标准差等方法或统计量来描述；

对两个变量的相关性分析，可以用卡方分析、单因素方差分析、简单相关系数、一元线性回归分析等方法；

对多个变量间的相关性分析，可以用多元线性回归、判别分析、聚类分析、因子分析等方法。

　　在学习掌握这些统计方法的同时，还应该会熟练使用相关的统计软件，因为很多统计方法靠手工计算是难以完成的。

现在普遍使用的统计软件是SPSS、SAS。

　　下面我们分单变量的分析、两个变量的相关分析、多个变量的相关分析三部分，介绍一些常用的统计方法，主要介绍如何应用这些方法，并列举模拟的例子，给出相应的用SPSS统计软件分析的结果，使读者能够较快地学会使用这些方法。

第二单变量分析

频数和百分比

　　所谓频数（Frequencies），时变量某一个去值的个案数；

所谓百分比（Percentage），是表示该取值的个案数占总样本的比例，即频数/样本量×

100%。

将变量所有取值的频数和百分比列在一个表中，这种表叫频数表，从中可以看出变量各个取值的分布情况。

　　频数表分析方式一般适用于定序变量和定类变量，对定距变量，必须先将变量的取值进行分组，每一个分组作为一个新的选项，然后对这些新的选项进行频数表的计算。

（例1）

表中第一列是“变量标签”，是对变量取值的说明（现在使用的SPSS软件虽然是英文版，但是已经可以兼容中文，变量标签可以使用中文表示）。

　　第二列是“变量取值”，即：

“1”至“5”分别代表了“非常不好”到“非常好”，其中“.”代表缺失值，即有些人没有回答此题；

　　第三列是“频数”，对应的数值表示各个取值的个案数，这里认为“非常好”有16样本、认为“好”的有216个样本、认为“一般”的有193人、认为“不好”的有10个样本、认为“非常不好”的有1个人，而没回答此题约有65人。

　　第四列是“百分比”，是频数对样本量（501人）的比率。

　　第五列是“有效百分比”，是频数对有效个案数（所谓有效个案数，即样本量减去缺失个案数）的比例，这里有效个案数是436人。

　　第六列是“累计百分比”，是对有效百分比的逐行累加的结果。

　　从对该题的频数分析的结果来看，对A品牌广告的评价总的来说还是倾向于比较好的，所有的样本中，认为“不好”或者“非常不好”的比例合计只有2.5%，即占样本2.5%的人不喜欢A品牌的广告。

　　频数和百分比计算中，百分比大小比较是一个相对的概念，频数大小则是绝对的数值，在市场分析报告中，经常利用百分比来说明结果，但是有时也需要频数进一步的说明之间的差异。

在比较两个公司的营业额的增长幅度时，A公司和B公司的经营规模差异巨大的情况下，虽然A公司的增长幅度没有B公司快，这是因为A公司的实际规模可能是B公司的几十倍，在这种情况下，也需要比较增长的实际数额，才能全面的说明问题。

指数

指数（Index）的计算方法很多，最常用的一种方法是，将一些待比较的数字中的一个特定的数字定为基数100，计算其他数字相对于基数的百分数。

用各种指数来描述和比较一些特定的市场的问题，既方便又直观。

定义适当的指数不但可以进行横向（不同空间）的比较，还可以进行纵向（不同时间）的比较。

为了说明20多年来广告的发展情况，可以1978广告营业额作为基数，计算以后每年广告经营额与基数的百分比，如果小于100的指数表明广告经营额的负增长，如果大于100的指数，代表增长，而且还能够计算出来增长的幅度。

　　指数的使用和计算方法多种多样，在使用时要注意几个问题：

首先，自定义指数时，应以简便的、合理的描述研究结果为原则；

在自定义指数时，在考虑定义的合理性和科学性的基础上，还需要考虑其计算是否方便可行。

因此使用指数进行比较时，首先应该查阅和参考那些已经明确定义的、使用广泛的指数，避免重复制造。

　　其次，在应用这些指数的概念时，还必须详细了解其定义和计算方法，以便正确的使用。

目前国内的《中国统计年鉴》和各个省市的《统计年鉴》中，指数使用已经非常平常。

包括价格指数、消费指数、收入指数等，同时类似于房地产价格指数、股票价格指数等在相应的专业领域里使用的也是非常广泛。

最后，指数定义的基数一定要与研究目的紧密结合，根据调查的目的，确定是进行横向比较，还是进行纵向比较更为有效，从而确定基数的订立基准。

众数、中位数、均值和标准差

用于描述一组市场调研数据或资料的中心的常用的统计量有三种：

众数、中位数和平均数。

所谓众数（Mode），是表示一组数据中出现次数最多或最常见的数值。

在市场调研的数据中，众数代表了典型的个案，或者是分布的高峰所对应的变量取值。

变量的所有取值中频数最大的取值，如在消费者的教育程度问题里，初中学历程度选项最多，所以初中相对应的变量编码，就是众数。

众数适于描述定序和定类变量，对于定距变量，可先将数据分组，分组后频数最大的那一组的组中值，被近似的认为是该变量的众数。

　　中位数（Median）表示一组数据按照大小的顺序排列时，中间位置的那个数值，即针对某个变量，有50%的个案的取值在中位数以下。

通俗的讲，样本的所有观测值中，有一半数比中位数大，有一半数比中位数小。

中位数的计算时会面临两种情况：

当样本数（n）是奇数时，将样本的所有观测值按由小到大（或由大到小）的顺序排列，排在中间位置上的数值即为中位数；

当样本为偶数时，排在中间两个位置上的数值的平均值即为中位数。

中位数适用于定序变量，对于定距变量，还是首先对观测值进行分组，简单的方法就是用中间那一组的组中值作为变量的中位数。

平均数（Mean）也叫均值，等于样本的所有n个观测值之和除以样本量。

假设n个观测值用x1,x2,……xn表示，均值用x表示，均值的公式为：

　　这里公式

（2）是针对分组的数据而言，其中X表示某变量的取值，f表示变量落在某一组中的频数，∑表示对所有的值求和（或者对所有的组求和）。

　　平均数是最典型也是最常用的统计量，适用于定距变量和定比变量。

平均数也是最有“意义”的统计量，它可以看作是数据的“平衡点”或“重心”位置所在。

因为中位数在计算时，使用到了所有的数据，所以与众数和中位数相比，所包含的信息量最大。

但是平均数受受极端值的影响很大，个别的极端值会直接影响平均数的熟知的变化，不如中位数和众数稳定。

因此当调查的数据分布比较规则，不存在什么极端值，或数据对中心的偏离不是很大的情况下，平均数是很好的描述统计量；

如果存在极端值或分布步偏离比较大时，还必须使用众数和中位数的来补充描述。

　　众数、中位数、均值都是对变量分布中心的描述，其中均值最为常用。

对变量的分布形状的描述，最常用的统计量是方差或标准差。

　　所谓方差（Variance）或标准差（Standardvariance）是表示分布对平均数的偏离程度或伸展程度的度量。

计算公式是：

　　标准差

，标准差的大小反映了数据对均值的离散程度，标准差越小，表明数据越集中于均值附近，反之则越分散。

任何统计分析软件都有标准差的计算，标准差是描述分布的分散（伸展）程度的经常使用的统计量。

例2：

在表16-1是频数和百分比计算的结果，使用的变量是定序变量，也可以近似看成定距变量，所以众数、中位数、均值和标准差都是有意义的。

见表16-2。

使用图形表示分析的结果

　　使用图表的形式将更为直观的描述调查的结果，有助于客户更容易理解数据的内容。

在报告中使用的图形的格式非常多，最经常使用的包括直方图、面积图、折线图和雷达图等形式。

1．直方图

2．面积图

3．折线图

第三两个变量及多变量分析

本节重点

卡方分析

单因素方差分析

简单相关系数

因子分析

　　卡方分析是用来研究两个定类变量间是否独立即是否存在某种关联性的最常用的方法。

简单地说，卡方分析的方法是这样的：

假设两个变量是相互独立，互不关联的。

这在统计上称为原假设；

对于调查中得到的两个变量的数据，用一个表格的形式来表示它们的分布（频数和百分数），这里的频数叫观测频数，这种表格叫列联表见（例3）；

如果原假设成立，在这个前提下，可以计算出上面列联表中每个格子里的频数应该是多少，这叫期望频数；

比较观测频数与期望频数的差，如果两者的差越大，表明实际情况与原假设相去甚远；

差越小，表明实际情况与原假设越相近。

这种差值用一个卡方

统计量来表示；

对卡方值进行检验，如果卡方检验的结果不显著，则不能拒绝原假设，即两变量是相互独立、互不关联的，如果卡方检验的结果显著，则拒绝原假设，即两变量间存在某种关联，至于是如何关联的，这要看列联表中数据的分布形态。

　　要注意的是，卡方检验受样本量的影响很大，同样两个变量，不同的样本量，可能得出不同的结论。

解决这个问题的办法是对卡方值进行修正，最常用的是列联系数。

对较大样本，当卡方检验的的结果显著，并且列联系数也显著时（列联系数至少超过0.16），才可拒绝原假设；

当卡方检验的结果显著，列联系数不显著时，不能轻易下结论。

　　另外，对变量取值的不同分类会引起卡方值的改变，有可能得到不同的结论

展开阅读全文