SPSS大作业文档格式.docx
《SPSS大作业文档格式.docx》由会员分享,可在线阅读,更多相关《SPSS大作业文档格式.docx(12页珍藏版)》请在冰豆网上搜索。
利用商品房购买意向调查数据,从中随机选取78%的样本,进行分析,实现以下目标:
1.分别分析被访者的户籍状况和未来购房预期的基本情况(输出频数分布图并进行分析);
2.分析对“是否需要政府提供保障性住房”问题持“需要”和“非常需要”态度的被访者的月住房开销是否存在不均衡现象;
3.分析不同买房需求的被访者选择的付款方式。
基本解题思路:
1.先随机抽样,再用频数分析户籍状况与购房预期的基本情况,所输出的户籍状况是名义型数据,应输出饼图,购房预期是有序型数据,则应输出条形图。
2.A将数据按照“是否需要政府提供保障性住房”进行拆分,再计算月与住房有关开销的基本描述统计量;
B分析月与住房有关的开销是否存在不均衡现象,可以分析金额是否有大量异常值。
3.首先定义多选项变量集,然后将付款方式分解并设置成多个变量后进行后续多选项频数分析。
操作步骤
1.步骤a随机抽样:
数据→选择个案→随机个案样本(D)→样本→大约78%的个案→继续→确定
b频数分析:
对“户籍状况”:
分析→描述统计→频率→选择“户籍状况”到[变量(V)]中→在[图表(C)]中勾选“饼图”→继续→在[格式(F)]中勾选“按计数的降序排序”→继续→勾选“显示频率表格”→确定;
c对“购房预期”:
分析→描述统计→频率→选择“未来购房预期”到[变量(V)]中→在[图表(C)]中勾选“条形图”→继续→确定
2.步骤a拆分:
数据→拆分文件→勾选“比较组”→将“是否需要政府干预”添加到[分组方式(G)]→确定
b基本描述统计:
分析→描述统计→分析→添加“月与住房有关的开销”到[变量(V)]中→[选项(O)]→在[分布]中勾选“峰度”,“偏度”→继续→在左侧勾选“将标准化得分另存为变量”→确定
c重抽样:
分析→描述统计→分析→在[Bootstrap(B)]勾选“执行bootstrap”→继续→确定
Zt10分组:
转换→重新编码为不同变量→值→标签→如果→输入分组数据→继续→确认
3.步骤a定义多项选择变量集:
分析→多重响应→定义变量集→将几种付款方式添加到[集合中的变量(V)],勾选“类别”范围1到5,名称f1,标签为fenz→[添加(A)]到多响应集→关闭
b多选项频数分析:
分析→多重响应→频率→将f1添加到[表格(T)]→确定
c交叉分组分析:
分析→多重响应→交叉表→将“买房需求”添加到[行(W)],定义最小值1,最大值3→继续→将$f1添加到列[N]→选项(O)→勾选“行”“列”“响应”→继续→确定
d因为第2步中对数据进行了拆分,所以在分析不同买房需求的被访者选择的付款方式应该先还原:
数据→拆分文件→勾选“分析所有个案,不创建组”→确定
结果1:
4—1
(1)频数分布表
(一)4—1
(2)频数分布表
(二)
图4—1频数分析统计图
结果2:
表4—2是否需要政府提供保障性住房的基本描述统计量
表4—3是否需要政府提供保障性住房的重抽样自举结果
结果3:
表4—4多选项频数表
表4—5多选项交叉列联表(a)
表4—5多选项交叉列联表(b)
结论1
(1)由表4—1可知本次调查的人数为235人,本市户籍与非本市户籍各占60%和40%,由于“户籍状况”缺失值为0,故有效百分比和百分比相同;
(2)由图4—1可知有63%的人认为其未来的购房预期不会变,只有16.6%的人认为未来购房预期会减弱。
结论2
(1)从表4—2中可知非常需要政府干预的标准差和均值最大,三者均成尖峰分布,且非常需要的尖峰程度最大,不需要的最小。
同时非常需要右偏程度最大,其均值存在高估现象。
(2)表4—3显示,重抽结果中,不需要和需要平均值低于原始样本数据,非常需要平均值高于原始样本,支持原分析结果。
(3)参考数据中新生成一列的标准化值Zt10,存在Z分数值的绝对值大于3的样本。
首先进行分组,Zt10<
=-3为低金额组,-3<
Zt10<
3是中组,Zt10>
3为高金额组(图略)。
其中低金额组比例为0,高金额组为0.8%,高于0.3%,因此,月与住房有关的开销存在一定的不均衡。
结论3
(1)由表4—4可知,235个被访者的总应答次数为705次,公积金贷款是最受欢迎的,其次是按揭付款和分期付款,一次性付款是最低的。
(2)由表4—5可知,无论是哪个买房需求段的人群,公积金贷款均是选择比例最高的付款方式,一次性付款的选择比例是最低的。
实验2
第8题:
方差分析4
某电影公司想知道其推出电影的票房与电影推广方式及电影放映时段是否有关,根据近2年的情况得到下表的数据,以0.05的显著性水平进行检验:
(1)给出SPSS数据集的格式(截图前4个样本即可);
(2)销售方式对销售量的影响,并进行多重比较检验(只选用1个检验指标);
(3)电影推广方式和放映时段以及它们的交互作用对销售量的影响。
基本解题思路
1.按照题目内容设置3个变量分别为A(放映时间),B(推广方式),P(票房收入),并录入相关数据。
2.利用单因素方差分析将推广方式对票房收入量的影响做分析,利用两两比较功能分析不同的推广方式对票房收入量的影响。
3.利用多因素分析将放映时段、推广方式对票房收入量的影响做分析,并采用饱和模型分析交互作用。
1.设置A,B,P三个变量,并录入相关数据。
2.分析→比较均值→单因素ANOVA→将“票房收入”添加到[因变量列差表(E)],将“推广方式”添加到[因子(F)]→在“两两比较”中勾选LSD(L)→继续→在[选项(O)]中勾选描述性和方差同质性检验→继续→确定
3.分析→一般线性模型→单变量→将“票房收入”添加到[因变量(D)],将“推广方式”和“放映时间”添加到[固定因子(F)]→在模型中勾选“全因子”→继续→在[绘制(T)]将B添加到水平轴,将A添加到单图→添加→继续→确定
结果1
图8—1
结果2
表8—1推广方式对票房收入的单因素方差分析结果
表8—2推广方式的多重比较检验
结果3
表8—3票房收入多因素方差分析的饱和模型图8—2票房收入的估算边际值
结论1输出结果如图8—1。
结论2
(1)推广方式的单因素方差分析的零假设为:
不同推广方式与票房收入不存在显著性影响。
由表8—1可知,显著性P值=0.291>
0.05,因此不应拒绝原假设,认为推广方式对票房收入不具有显著影响,但存在较弱影响。
(2)由表8—2多重比较的结果可知,不同的推广方式对票房的影响较小。
互联网对其他取值的均值差全部为正值,因此利用互联网方式推广票房收入最好,其次为电视推广、杂志推广、广播推广、报纸推广,这四种方式两两之间影响的均差值都只是个位数,影响较小。
由表8—3可知,放映时段和推广方式交互的P值为0.092>
0.05,不应拒绝原假设,二者对票房收入不存在交互作用;
由图8—2可知,折线走势有三条线基本一致,纵轴的坐标跨度局限在80—100之间,变化幅度不大,因此二者交互对销售量的影响较弱。
实验3
第10题:
线性回归2
以高校科研研究数据为例,建立回归方程研究
以课题总数X5为被解释变量,解释变量为投入人年数X2、投入科研事业费X4、专著数X6、论文数X7、获奖数X8。
解释变量采用逐步筛选策略,并做多重共线性。
首先运用多元线性回归分析筛选变量,并勾选所需的复选框,输出数据分析多重共线性、残差的正态性和方差齐性。
分析→回归→线性→将课题总数X5添加到[因变量(D)],将其余的X2,X4,X6,X7,X8添加到[自变量(I)]→在[方法(M)]中勾选“逐步”→在[统计量(S)]中勾选“共线性诊断”→继续→确定
结果
表10—1立项课题数多元线性回归分析结果(逐步筛选策略)
(一)
表10—2立项课题数多元线性回归分析结果(逐步筛选策略)
(二)
表10—3立项课题数多元线性回归分析结果(逐步筛选策略)(三)
表10—4立项课题数多元线性回归分析结果(逐步筛选策略)(四)
表10—5立项课题数多元线性回归分析结果(逐步筛选策略)(五)
结论:
(1)由表10—1可知,调整的判定系数为0.917,较接近于1,拟合优度较高,被解释变量可以被模型解释的部分较多,未能被解释的部分较少。
(2)由表10—2可知,如果显著性水平为0.05,由于概率P值小于显著性水平α,应拒绝回归方程显著性检验的零假设,认为各回归系数不同时为0,被解释变量与解释变量全体的线性关系是显著的。
(3)由表10—3可知,X2(投入人年数)和被解释变量X5(课题总数)的线性相关性最高,其他几个变量与X5的线性相关性不明显。
所以回归方程是:
课题总数=-94.524+0.492*X2,投入人年数的容差为1,VIF也为1,说明它的多重共线性非常弱。
(4)10—4可知,除投入人年数外,其他变量的回归系数显著性t检验的概率P值都大于显著性水平α,因此不应拒绝零假设,认为这些偏回归系数与0无显著差异,它们与被解释变量的线性关系是不显著的,不应该保留在方程中。
实验4
第12题:
曲线回归2
根据收集的1978年至2002年的数据,分析住房人均使用面积受年人均可支配收入的影响。
(提示:
首先绘制两者的散点图,再尝试选择二次、三次曲线、复合函数和幂函数模型,利用曲线估计进行本质线性模型分析。
)
主要考察曲线回归的内容,先绘制两者散点图,再用二次、立方、复合、幂函数模型,以判定系数为依据选择最优模型,并进行分析预测。
1.图形→旧对话框→散点图→简单分布→定义→将人均使用面积添加到Y轴,将年人均可支配收入添加到X轴→确定
2.分析→回归→曲线估计→将人均使用面积添加到[因变量(D)],将年人均可支配收入添加到[变量(V)]→在模型中勾选二次项、立方、幂、复合→确定
图12—1人均使用面积和年人均可支配收入的散点图
表12—1人均使用面积的曲线估计结果
结论1
由图12—1可知,人均使用面积和年人均可支配收入之间呈非线性关系,因此可尝试选择二次、三次曲线、复合函数和幂函数模型,利用曲线估计进行本质线性模型分析。
由表12—2可知,四个模型的拟合优度都较接近于1,均较高,在二次、三次、复合、幂函数的模型中三次函数的R方是最大、最接近1的。
所以应用三次函数来表示年人均可支配收入与人均使用面积的函数关系。
根据函数图象12—2看出,人均使用面积是随年人均可支配收入增长而增长的,说明随着人们可支配收入增加,对人均使用面积关注更多,投入更多。