spss实验课论文Word文档格式.docx
《spss实验课论文Word文档格式.docx》由会员分享,可在线阅读,更多相关《spss实验课论文Word文档格式.docx(23页珍藏版)》请在冰豆网上搜索。
第四章
1、问卷调查的一般步骤是什么
(1)市场调查
(2)问卷设计
(3)问卷代表性检验
(4)问卷的发放与回收
(5)问卷分析
2、问卷设计中需要注意哪些问题?
(1)考虑目标人群的划分,不同的调查人群对问题的理解会有差异,故明确目标人群对调查问题的设计有显著的影响。
(2)要根据不同的访谈类型设计问卷
(3)避免问卷问题的重复
(4)要避免不愿回答的问题,需要考虑调查对象需要付出的努力、情景、合理的目的、敏感信息等因素,增加调查对象的自愿性。
(5)确认问卷页面的形式和版面设计
(6)预调查
3、利用SPSS完成4-1折半信度系数的计算并进行解释
折半信度系数为0.355,基于标准的折半信度系数为0.579,信度系数偏小,需要修改
第五章
1、检验数据5-1.sav中,人均职工工资是否等于1500元。
a>
0.05,接受原假设。
人均职工工资等于1500元。
2、5-4.sav,是关于减肥饮茶前后的体重情况,请选择合适的假设检验方法说明减肥茶是否有效果。
前两个表给出了喝茶前后人体重的均值、标准差、均值标准误差以及培训前后成绩的相关系数。
从表中看出,喝茶前后体重发生显著的变化。
最后一个表给出了配对样本t检验结果,包括配对变量差值的均值、标准差、均值标准误差以及差值的95%置信度下的区间估计。
当然也给出了最为重要的t统计量和p值。
结果显示p=0.000<
0.05,所以,喝此减肥茶对人的体重具有显著效果。
第六章
1、参数方法和非参数方法有哪些不同?
区别:
第一:
从应用范围来看,非参数方法的应用范围要大于参数方法,因为对于随机变量而言,我们了解的永远是少数,许多非常见和非规则的分布是不宜用参数方法来研究的,甚至有些分布都不能写出分布函数或密度函数,只能靠计算机迭代推导其取值概率,而非参数分布不需要假定总体分布,直接从样本出发,因此,任何分布都可以用非参数的方法进行研究,这也决定了非参数方法的应用范围更广。
第二:
研究的对象和目标不同,由于参数方法假定了总体的分布,因此其研究目标就是总体的参数,一旦总体的参数全部确定了,总体的分布也就确定了;
而非参数的方法直接从样本推导总体的分布,因此非参数方法的目标是总体的分布或者两个总体的分布是否相同。
第三:
研究的统计量有所不同,非参数方法中常常采用秩、秩和等来构造统计量,而且通常要求样本数较大,而参数检验很少用到秩来构造统计量,无论样本数大小都能对总体进行推断。
第四:
两者的效率有差距,参数方法由于直接假定总体的分布,当总体真实分布就是假定分布或者与假定分布差异不大时,参数方法的准确性很好、效率较高;
而非参数方法由于从样本出发,推导出的总体分布可能与真实分布的总体分布有一定的差距,因而效率较低;
但是,当假定的分布不是总体的真实分布时,非参数方法效率要高于参数方法。
非参数方法的效能不断提高,有些方法的效能大约在参数方法的95%左右,因此,并非低到不能接受。
2、非参数检验的条件
第一:
检验样本是否服从某一分布;
第二:
对样本和总体比例的拟合优度进行检验;
第三:
当总体分布未知时,通过样本比较两个总体的分布是否相同;
样本数据不确定或样本是分类数据时。
参数检验的应用条件:
检验总体中的某一参数,不涉及总体的分布的检验。
参数检验既可以应用于大样本情况,也可以应用于小样本情况。
3、总结分类方法的应用背景和检验灵敏度情况
(1)单样本分布比例的卡方检验:
卡方检验是一个单总体的非参数检验,是检验样本频数和总体的理论比例是否有显著差异。
(2)单样本的二项分布检验:
单样本的二项分布检验主要用于检验一个总体中的比率是否等于待检验值p,通过检验样本是否服从一个参数为p的二项分布,即可得到总体的比例是否为p。
(3)单样本K-S检验:
单样本K-S检验,该方法能够利用样本数据推断总体是否服从某一理论分布,也是一种拟合优度的检验方法,适合探索连续性总体的分布。
(4)单样本独立性的游程检验
判断一种现象的发生与否是否随机,可以利用非参数检验的游程检验来完成。
游程检验通过对样本变量值的分析,实现对总体的变量值出现是否随机进行检验。
(5)两独立样本和两配对样本的非参数检验
两独立样本非参数检验是在总体分布不太了解的情况下,通过对两组独立样本的分析来判断两个总体的分布是否存在显著差异的统计方法。
两配对样本的McNemar检验:
是一种变化显著性检验,它将研究对象自身作为对照者检验其“前后”的变化是否显著。
两配对样本的符号检验:
符号检验也是用来检验两配对样本所来自的总体的分布是否存在显著差异的非参数方法。
两配对样本的Wilcoxon符号秩检验:
Wilcoxon符号秩检验也是通过分析两配对样本,对样本来自的两总体的分布是否存在差异进行判断。
(6)多独立样本和多配对样本非参数检验
多独立样本中位数检验:
中位数检验通过对多组独立样本的分析,检验它们来自的总体的中位数是否存在显著差异。
多独立样本Kruskal-Wallis检验:
Kruskal-Wallis检验实质是两独立样本的曼-惠特尼U检验在多个样本下的推广,也用于检验多个总体的分布是否存在显著差异。
多独立样本的Jonckheere-Terpstra检验:
Jonckheere-Terpstra检验也是用于检验多个独立样本来自的多个总体的分布是否存在显著差异的非参数检验方法。
SPSS中的多配对样本的非参数检验方法主要包括Friedman检验、CochranQ检验、Kendall协同系数检验等。
Friedman检验:
Friedman检验是利用秩实现对多个总体分布是否存在显著差异的非参数检验方法
CochranQ检验:
通过对多个配对样本的分析,推断样本来自的多个总体的分布是否存在显著差异。
Kendall协同系数检验:
它也是一种对多配对样本进行检验的非参数检验方法,与第一种检验方法向结合,可方便地实现对评判者的评判标准是否一致的分析
4、3.6-8数据,选择合适的检验方法,检验产品的合格率是否在90%以上?
第七章
光盘数据文件7-2.sav是某大学讲座满意度的市场调查问卷数据集,请对此问卷中的多选项问题Q2、Q18、Q20、Q22等定义多选项集
第八章
8-4.sav,分别以广告方式和销售地区作为控制变量进行单因素方差分析
第九章
1、三个相关系数适用的条件是什么,它们各有什么特点,在应用中如果有极端值,应该采用哪种?
(1)Person简单相关系数:
特点:
x与y对称,x、y变量互换位置,r不变;
无量纲数,r是标准化后计算的;
简单相关系数只能刻画线性相关关系,不能很好刻画非线性关系。
(2)Spearman等级相关系数
Spearman等级相关系数的特点:
如果两变量正相关性较强,他们秩变化同步,则D值较小,等级相关系数趋于1;
如果两变量负相关性较强,他们秩变化相反,则D值较大,等级相关系数趋于-1;
如果两变量相关性较弱,他们秩变化互不影响,则D值趋于中间值,等级相关系数趋于0。
(3)kendallτ相关系数:
性质:
如果两变量正相关性强,秩同步变化,U应该比较大,V应该比较小,τ趋于1;
如果两变量负相关性强,秩变化相反,U比较小,V比较大,τ趋于-1;
如果相关关系弱,则U、V大致相等,τ趋于0.
2、偏相关分析和简单相关分析有什么差异,中间变量对相关性的影响如何体现?
进行偏相关分析的变量必须是正态分布,各因素之间应该有关联。
只有除去其他变量的影响后再计算相关系数,才能真正反映他们之间的相关关系。
3、计算数据12-1.sav中各变量两两之间的三种相关系数,并说明三者的差异。
4、仍用12-1.sav数据,在扣除食品消费这个中间变量因素后,计算杂项商品和服务消费与家庭设备用品与服务两变量的偏相关系数,并进行解释。
描述性统计量
均值
标准差
N
杂项商品和服务
243.0442
88.05712
31
家庭设备用品与服务
395.9865
179.92764
食品
1980.6603
586.88616
结果解释:
在扣除食品消费这个中间变量因素后,杂项商品和服务消费与家庭设备用品与服务的相关性是0.161,相关性非常不明显。
显著性是0.392,大于0.05的置信区间。
所以,杂项商品和服务消费与家庭设备用品与服务不存在显著的线性相关关系。
第十章
1、10-5.sav,进行一元回归和多元逐步回归,并解释结果。
一元线性回归分析:
输入/移去的变量a
模型
输入的变量
移去的变量
方法
1
投入高级职称的人年数b
.
输入
a.因变量:
投入人年数
b.已输入所有请求的变量。
模型汇总b
R
R方
调整R方
标准估计的误差
Durbin-Watson
.988a
.976
.975
257.3208
1.703
a.预测变量:
(常量),投入高级职称的人年数。
b.因变量:
Anovaa
平方和
df
均方
F
Sig.
回归
78215429.780
1181.252
.000b
残差
1920205.575
29
66213.985
总计
80135635.355
30
b.预测变量:
系数a
非标准化系数
标准系数
t
B
标准误差
试用版
(常量)
136.326
74.495
1.830
.078
投入高级职称的人年数
1.940
.056
.988
34.369
.000
残差统计量a
极小值
极大值
标准偏差
预测值
182.888
7386.461
2144.387
1614.6767
-591.4615
617.6022
.0000
252.9958
标准预测值
-1.215
3.247
1.000
标准残差
-2.299
2.400
.983
在模型汇总中,数据R方为0.976,R接近1,说明Y与X之间的线性相关关系程度很高,也说明模型的拟合优度很好。
Durbin-Watson为1.703,接近2。
在Anova分析中,显著性水平接近0,说明模型拟合优度很好。
在系数中,常量为136.326,投入高级职称的人年数系数为1.940。
即,投入高级职称的人年数增加1.940个单位,因变量投入人年数可以增加1个单位。
多元线性回归分析:
模型汇总c
2
1.000b
1.552
(常量),投入高级职称的人年数,UnstandardizedResidual。
c.因变量:
40067817.677
.c
28
c.预测变量:
16572223.762
311244009.095
UnstandardizedResidual
.155
48767292.627
结果分析:
在模型汇总中,模型2的调整R方为1,大于模型1的调整R方为0.975。
说明模型可解释变异占总变异的比例越来越大,引入方程的变量轴距是显著的。
根据模型1建立多元线性回归方程为投入人年数=136.326+1.940*投入高级职称的人年数+轴距。
第十二章
Logistic回归的应用条件是什么?
误差独立,且同分布于二项分布,因为误差不再服从正态分布,不再使用最小二乘法而采用极大似然估计回归参数;
误差与自变量独立;
自变量之间相互独立,即不存在多重共线性;
模型需要较大的样本量,模型能解释的自变量个数与样本量有关,因变量中样本量较小的分类的样本数除以10,就是大概的模型最多能解释的自变量个数
Logistic回归的结果解释时应该注意什么问题?
块0表示给出的模型是不含任何自变量、自变量取值为0、只有常数项时的输出结果。
块1开始输出模型中引入自变量的结果,采用的是进入方法。
Step:
该统计量为每一步与前一步的似然比检验结果;
Block:
该统计量为块1和块0的似然比检验结果;
Model:
该统计量是上一模型中的变量拟合效果和现在模型中变量拟合效果的似然比检验结果、
第十三章
1.距离和相关系数在描述相似性方面有哪些不同?
距离:
每个样本都有p个变量值,因此每个样本可以看成p维空间中的点,两个样本就是空间中的两个点,根据空间的性质就可以定义距离,距离小时,说明两个点接近,在聚类时应该分在同一类;
相反,距离大时,说明两个点差异明显,不相似,分类时应该分在不同的类。
归纳起来就是距离越小,样本越相似。
相关系数:
在对变量进行聚类时,一般不采用距离,而是用相似系数度量变量相似性。
变量之间的相似性度量,一般看相似系数的绝对值大小,绝对值越大,相似性越高;
反之,绝对值越小,则相似性越弱。
聚类时,要求相似性高的变量分为一类,而相似性弱的变量分到不同的类。
2.动态聚类的基本思想和流程是什么?
算法思想分析
输入:
聚类个数k,以及包含n个数据对象的彩色图片。
输出:
满足方差最小标准的k个聚类。
处理流程:
(1)从n个数据对象任意选择k个对象作为初始聚类中心;
(2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;
并根据最小距离重新对相应对象进行划分;
(3)重新计算每个(有变化)聚类的均值(中心对象);
(4)循环
(2)到(3)直到每个聚类不再发生变化为止。
3.多种层次聚类方法聚类流程是否相同?
层次聚类方法的差异体现在何处?
不相同,最短距离:
两类样品两两之间的距离最小值作为两类的距离。
最长距离:
两类样品两两之间的距离最大值作为两类的距离。
组间平均连接:
两类间样品距离的平均距离作为两类间的距离。
组内平均连接法:
两类所有样品(包括组内与组间)距离的平均距离作为两类间的距离。
重心法:
两类均值点间的距离作为两类间的距离。
离差平方和法(Wald):
两类合并所产生的离差平方和的增量作为两类间的距离。
第十五章
用因子分析法分析我国部分省市城市发展情况
第一行为检验变量间偏相关程度的KMO统计量,其值为0.604在0.6以上,所以适合做因子分析。
下面三行是球形检验结果,原假设是变量不相关,Sig=0.005<
0.05,拒绝原假设,所以适合做因子分析。
由公因子方差可知,每个变量的共同度都比较高说明因子分析的结果比较好。
前两个因子的累计贡献率达到85%,满足因子个数对累计贡献率的要求,因此,可以选择两个因子。
同时在表中还注意到,旋转以前和旋转以后虽然因子总方差贡献没变,但是单个因子方差贡献率发生了很大变化。
第一个因子的贡献率由58%减少到50%,而第二个因子贡献率由26%增加到35%。
未旋转的因子载荷矩阵
旋转以后的因子载荷矩阵,归纳如下:
因子1上载荷较大的变量:
经济、教育、健康;
因子2上载荷较大的变量:
居住环境。
因此建立因子分析模型:
求得因子得分函数为:
由此计算15个城市的主因子得分:
因此北京、上海等地发展水平较高,贵州、青海等地则发展水平较低。
功能介绍:
数据管理功能和完善的结果报告功能
1、数据管理
1)超长变量名:
变量名最多可以为64个字符长度,可能还要大大放宽这一限制,以达到对当今各种复杂数据仓库更好的兼容性。
2)改进的Autorecode过程:
该过程将可以使用自动编码模版,从而用户可以按自定义的顺序,而不是默认的ASCII码顺序进行变量值的重编码。
另外,Autorecode过程将可以同时对多个变量进行重编码,以提高分析效率。
3)改进的日期/时间函数:
本次的改进将集中在使得两个日期/时间差值的计算,以及对日期变量值的增减更为容易上。
2.完善的结果报告功能
对数据和结果的图表呈现功能一直是SPSS改进的重点。
SPSS推出了全新的常规图功能,报表功能也达到了比较完善的地步。
将针对使用中出现的一些问题,以及用户的需求对图表功能作进一步的改善。
1)统计图:
在经过一年的使用后,新的常规图操作界面已基本完善,本次的改进除使得操作更为便捷外,还突出了两个重点。
首先在常规图中引入更多的交互图功能,如图组(Paneledcharts),带误差线的分类图形如误差线条图和线图,三维效果的简单、堆积和分段饼图等。
其次是引入几种新的图形,目前已知的有人口金字塔和点密度图两种。
2)统计表:
几乎全部过程的输出都将会弃用文本,改为更美观的枢轴表。
而且枢轴表的表现和易用性会得到进一步的提高,并加入了一些新的功能,如可以对统计量进行排序、在表格中合并/省略若干小类的输出等。
此外,枢轴表将可以被直接导出到PowerPoint中,这些无疑都方便了用户的使用。