如何对市场调研问卷的数据进行预处理Word文档下载推荐.docx-资源下载

如何对市场调研问卷的数据进行预处理Word文档下载推荐.docx

1、意义0.9信度非常好0.8信度可以接受0.7需要重大修订但是可以接受放弃2.信度分析示例操作过程下面介绍的是一个信度分析的案例，其操作过程为：首先打开信度分析文件，可以看到该文件的结构很简单，一共包含10个题目，问卷的份数是102份。然后进入SPSS的“分析”模块，找到“度量”下面的“可靠性分析”，将这十个题目都选进去。在接下来的统计量中，首先看平均值、方差和协方差等，为了消除这些变量的扰动，可以选择要或者不要这些相关的量，另外ANOVA（单音数方差分析）是分析两个变量之间有无关系的重要指标，一般选择要，但在这里可以不要，其他一些生僻的量值一般不要。描述性在多数情况下需要保留，因为模型的输出

2、结果会有一些描述，因此应当选中项、度量和描述性，然后“确定”，这时SPSS输出的结果就会比较清楚。结果解读案例处理汇总后，SPSS输出的结果如图1所示。图1信度分析结果由图1可知，案例中调查问卷的有效数据是102，已排除数是0，说明数据都是有效的，在这里如果某个问卷有缺失值，就会被模型自动删除，然后显示出已排除的问卷数。在信度分析中，可以看到Alpha值是0.881，根据前文的判定标准，这一数值接近0.9，可以通过。在图右下方部分有均值、方差、相关性等多个项目，这主要看最后的“项已删除的Alpha值”，该项目表示的是删除相应项目后整个问卷数据信度的变动情况，可以看出题目1、题目2和题目6对应的

3、数值高于0.881，表明删除这三个题目后整个问卷的Alpha值会上升，为了确保整个调查的严谨性，应当将这三个题目删除。二、剔除废卷删除废卷大致有三种方法：根据缺失值剔除、根据重复选项剔除、根据逻辑关系剔除。1.根据缺失值剔除缺失值的成因在市场调查中，即使有非常严格的质量控制，在问卷回收后仍然会出现缺项、漏项，这种情况在涉及敏感性问题的调查中尤其突出，缺失值的占比甚至会达到10%以上。之所以会出现这种现象，主要有以下原因：一是受访者对于疾病、收入等隐私问题选择跳过不答，二是受访者由于粗心大意而漏掉某些题目等。缺失值的处理在处理缺失值时，有些人会选择在SPSS或Excel中将其所在的行直接删除。事

4、实上，不能简单地删除缺失值所在的行，否则会影响整个问卷的质量。这是因为在该行中除了缺失的数据以外，其他数据仍旧是有效的，包含许多有用信息，将其全部删除就等于损失了这部分信息。在实际操作中，缺失值的处理主要有以下方式，如图2所示。图2缺失值的处理方式缺失值的处理忽略。在处理缺失值时，可以在“选项”中直接忽略，这样可以保留其他数据进行之后的运算、建模和输出。缺失值的处理填充。填充，指的是在缺失值的位置用各种技术手段和模型将值回填进去，比如用中间某段数据的平均值填充等。一般来说，主要有两种填充方式：第一，在“转换”模块中，替换缺失值；第二，在“分析”模块中，采用EM模型或者回归模型进行填充，这两种模

5、型都可以有效地完成填充，相对来说EM模型更高效一些。缺失值处理示例填充值的回归。首先打开该文件，如图3所示，发现其中有三列数据，分别是体重组、年龄和胆固醇。可以看到，胆固醇的某些数据中有一些点，这就是SPSS设定的缺失值。对此第一种处理缺失值的方式是做一个回归，操作过程为：进入SPSS的“回归”，然后选择“线性回归”界面。这时需要分析的目标就是应变量，其他对应变量有影响的因素就是自变量，如示例中的胆固醇是应变量，而体重和年龄则是自变量，表示随着体重的上升和年龄的增长，总体来说胆固醇水平也会上升。因此要将胆固醇选为应变量，将体重和年龄选为自变量，其他因素选择默认，然后点击“确定”，系统就会输出相

6、应的结果，如图3上方的表格所示。图3缺失值的填充示例在输出结果中可以看到有一个“sig.”值，也就是前文讲过的检验P值，即检验概率值，如前所述，这一概率值应当与0.05（5%）进行对比，如果小于0.05，说明这一模式的解释是可接受的，反之则说明模型解释的结果不能接受。图中的检验P值有三个，分别对应常量、体重组和年龄，其中对常量的检验P值一般可以不予计较，主要关注后两个项目对应的检验P值。在此可以用下面的回归方程进行分析：P值常量（0.135）0.895体重0.094年龄这一函数公式表示的是体重和年龄对胆固醇的影响大小，可以看出体重对胆固醇的影响系数接近1，而年龄对胆固醇的影响系数则接近0.1。

7、因此，可以得出结论：对胆固醇产生影响的最重要因素是体重，要想控制胆固醇水平，首先应当控制体重。有无缺失值的比较。这时再回到“回归”选项，选择“按照列表来排除个案”，该选项的意思是系统在处理胆固醇的缺失值时跳过去不做处理，接着再进行一遍之前的操作：“分析”“回归”“线性回归”将胆固醇选为应变量，将体重和年龄选为自变量确定，可以看出输出的结果中（图4下方的表格）常量是0.062，而体重组因为跳过缺失值，所以对胆固醇的影响系数变大为1.137，相应地年龄的影响系数则减小为0.081。这就说明，直接跳过缺失值会对分析结果产生较大影响。缺失值的“转换”处理。由上述分析可知，当数据有缺失值时应当进行相应的

8、处理，SPSS在“转换”模块中有一个专门的“替换缺失值”模块，点击进入后可以看到SPSS提供了五种填充值，包括序列均值、临近值的均值、临近值的中位数、线性插值和线性趋势。根据专家的经验和建议，在进行销售预测时一般应选择“线性趋势”，这是因为当数据在上升或下降的过程中有缺失值时，“线性趋势”会模拟销售数据上涨或下降的波动态势，能够最大限度地接近实际情况。点击线性趋势后，系统就会自动生成一个变量，将这个变量填入缺失值的位置就可以完成数据的填充。EM模型填充。“分析”模块是SPSS的精华和核心部分，大部分基本分析模型都在这一模块，其中“缺失值分析”被当作一个独立模块放在其中，这说明对缺失值的分析处理

9、是一项非常重要的工作。点击进入这一模块后，首先将胆固醇选到变量中，然后在“估计”中选EM模块，选择“保存完成的数据”，点击“继续”，然后点击“确定”，这时SPSS就会生成一列新数据，这就是采用EM模块填充缺失值后的数据。回归模型填充。在运用回归模型填充缺失值时，有两种方式可供选择：一种是比较简单的回归法，即生成的填充值不再变动；另一种是为生成的填充值加上一个残差，这个残差是一个任意值，随机性很强。然后在保存数据里面选择“回归”，点击“确定”，这时SPSS就会完成一个回归填充。EM和回归模型的填充效果对比。图4是EM模型和回归模型的散点图对比，左侧是回归模型的填充效果，右侧是EM模型的填充效果。

10、其中横轴表示胆固醇原值，而纵轴则是两种填充方式的数值；蓝色的圆圈代表正常值，红色的圆圈表示缺失值。可以看出，右侧EM的填充值与原值的差距较小，也就是EM模型的缺失值填充效果比回归模型的填充效果更好一些。图4 EM和回归模型的填充效果对比EM和回归模型的回归效果对比。在图5、图6和图7中分别显示了原值、EM填充以及回归填充的回归效果，可以看出EM填充的数值更接近于原值填充。图5原值图6 EM填充图7回归填充通过以上分析可以看出：第一，严谨的数据分析一定要有一个准确、完整的框架，对于缺失值一定要进行科学处理，否则可能会出现严重后果，许多大公司都非常注意这一点；第二，在问卷数据量大，缺失数据较多时，

11、用EM模型填充的效果比线性回归更好，EM模型比回归模型处理起来更加精巧，可以直接使用EM模型填充。要点提示缺失值处理的认识要点：缺失值所在的数据行不能直接删除；直接忽略缺失值会影响最终的分析结果；缺失值一定要进行科学的填充处理；缺失值较多时优先选用EM模型填充。2.根据重复选项剔除一般来说，对于一定题量的问卷，很少有两份问卷答得完全一样，因此有必要标志重复值，将重复的选项剔除。在将几百份或者更多问卷数据录入后，只靠肉眼很难判断里面是否有重复值，这时可以运用SPSS进行处理。例如，根据重复值删除个案示例，首先打开文件，在进入SPSS的“数据”模块后，双击“标识重复个案”，并将所有的选项一并选中将

12、其放到里面。这时不需要进行任何操作，在稍后创建的变量中如果某个数据是唯一的就会显示“1”，如果有重复就是“0”，然后勾选将重复的个案移动到文件的最上端，点击“确定”，输出结果。这时可以看到，整个文件有27行数据，其中重复的个案是5个，重复的比例是18.5%。然后选择数据升序排列，将显示“0”的全部放到前面，将这5行选中，点击鼠标右键选择“剪切”将重复项删除即可。3.根据逻辑关系剔除根据逻辑关系可以剔除一些个案，例如年龄小于或等于23，而学历则选择为硕士或者博士，这些个案肯定是有问题的。再比如，受访者在前面选择没有使用某商品，后面却填写商品的使用体验，这显然不符合逻辑。在具体的操作中，工作人员可

13、以根据自身的业务将其中不合逻辑的选项删除。根据逻辑关系剔除个案示例：首先打开文件，可以看到学历分为6档，分别是1初中、2高中、3大学（包括专科）、4大学专科以上、5硕士以上、6博士级以上，然后通过“排列个案”将年龄和学历的数据全部升序排列，点击“确定”，这时就可以通过年龄和学历的对比寻找其中的问题，比如其中某个个案的年龄是20，学历却是5硕士以上或6博士级以上，就说明该个案有问题而应当剔除。如果问卷数据的数量太大，比如有600个数据，这时用肉眼就很难辨别其中的问题个案，这时就可以用SPSS进行有条件的数据甄选。首先可以通过点击“如果条件满足”选择个案，点击进入后可以用SPSS的计算器输入含义为

14、“非（年龄20与学历5硕士以上）”的公式，然后点击“继续”并将选出的数据输入新的数据集，也就是正常值，然后点击“确定”就能将正常值输出。这时为了确保删除的个案无误，可以回到另一个数据集中，检查删除的是否是有问题个案。通过以上操作可以看出，SPSS计算器的功能非常强大，可以进行各种分析运算，在数据分析中的使用率很高，而且其中的公式与Excel的公式基本相同。因此，市场调研数据分析人员应当注意SPSS计算器各项功能的学习和使用。三、数据管理和转换数据管理与转换主要包括分割与合并文件、重新编码、排序与分组、分类汇总、异常值检测等。如图8所示。图8数据管理与转换1.分割与合并文件在问卷回收后，有时由于份数很多，需要不同人员进行录入，这时就会形成多个文件，需要最后合并为一个大的文件，为此SPSS提供了合并文件功能。具体操作：进入SPSS的“数据”模块，在原有文件的基础上选择添加个案，将新文件添加进来，统一变量的值，然后选择“确定”，就可以将文件合并成功。2.重新编码重新编码是一项非常重要的功能，其中涉及一个“连续性变量的离散化”理论。例如：在统计啤酒的饮用量时，不同受访者的饮用量不等，但是数据统计并不关心单个受访者的具体饮用量，而是会设定不同的量级，比如1000毫升以下为

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？