可视化整理spss统计分析实例分析PPT课件下载推荐.ppt

资源描述

可视化整理spss统计分析实例分析PPT课件下载推荐.ppt

《可视化整理spss统计分析实例分析PPT课件下载推荐.ppt》由会员分享，可在线阅读，更多相关《可视化整理spss统计分析实例分析PPT课件下载推荐.ppt（90页珍藏版）》请在冰豆网上搜索。

可视化整理spss统计分析实例分析PPT课件下载推荐.ppt

利用频数分布表及图形条件：

都是分类变量，直接分析步骤：

调用命令：

AnalyzeDescriptiveStatisticsFrequencies选择分析变量选择图形选择分布表输出格式,1.1频数分析例1分析结果,分布表中累计百分比基本没有意义，应该删除。

1.1频数分析扩展功能,分位数（PencentileValues）计算分位数:

适用于定距数据数据按升序排序后，找到若干个分位点上的变量值quartiles:

计算四分位数25%（QL）、50%（中位数）、75%（QU）cutpointsfornequalgroups:

n等份percentile:

自定义百分位点,其他基本统计量集中趋势（CentralTendency）离散趋势（Dispersion）分布形态（Distribution）,1.1频数分析扩展功能例,案例12分析人均住房面积的分布，并对本市户口和外地户口家庭的人均住房面积分布情况进行比较。

特点：

“人均住房面积”是定距型变量步骤：

根据“人均住房面积”建立分组变量；

调用命令频数分析命令Frequencies选择分组变量作为分析变量再一次使用频数分析命令Frequencies选择“人均住房面积”作为分析变量不选择生成频数表，选择不生成图形选择计算四分位数根据“户口状况”对数据进行拆分（SplitFile）再重复上一步的工作（计算分类的四分位数）,案例12分析结果1,案例12分析结果2,频数分析,例：

测量100名健康成人的血清蛋白总含量，形成数据serum（克/升），使用频数分析了解这一数据的统计特征。

SPSS的操作步骤,1、菜单中点分析/描述统计/频率，进入频率对话框,频数分析,SPSS的操作步骤,2、将变量选入变量窗口，再点击统计量，进行设置，完成后点继续返回,SPSS的操作步骤,2、在频率主对话框中分别进入图表和格式进行设置，完成后点继续返回，最后点确定,SPSS的输出结果,该教学案例数据解析,均值（平均值、平均数）表示的是某变量所有取值的集中趋势或平均水平。

例如，学生某门学科的平均成绩、公司员工的平均收入、某班级学生的平均身高等。

中值是在一组数据中居于中间的数（特别注意的地方是：

这组数据之前已经经过升序排列！

），即在这组数据中，有一半的数据比它大，有一半的数据比它小。

如果这组数据包含偶数个数字，中值是位于中间的两个数的平均值。

1020405070102030405060,百分位数分析：

比如，假设某个考生在入学考试中的语文部分的原始分数为54分。

相对于参加同一考试的其他学生来说，他的成绩如何并不容易知道。

但是如果原始分数54分恰好对应的是第70百分位数，我们就能知道大约70的学生的考分比他低，而约30的学生考分比他高。

众数（Mode）统计学名词，在统计分布上具有明显集中趋势点的数值，代表数据的一般水平（众数可以不存在或多于一个）。

修正定义：

是一组数据中出现次数最多的数值，叫众数，有时众数在一组数中有好几个。

用M表示。

理性理解：

简单的说，就是一组数据中占比例最多的那个数。

全距也称为极差，是数据的最大值与最小值之间的绝对差。

在相同样本容量情况下的两组数据，全距大的一组数据要比全距小的一组数据更为分散。

计算公式：

最大值最小值。

1.2描述分析,描述分析目的：

获取数据的均值、标准差、峰度等数据，进一步把握数据的集中趋势、离散程度和分布形状。

基本描述统计量刻画集中趋势的统计量刻画离散程度的统计量刻画分布形态的统计量,1.2描述分析,刻画集中趋势的统计量集中趋势指一组数据向某一中心值靠拢的倾向。

计算刻画集中趋势的统计量正是要寻找能够反应数据一般水平的“代表值”或“中心值”。

常用统计量：

均值、中位数、众数,1.2描述分析,刻画离散程度的统计量离散程度是指一组数据远离其“中心值”的程度。

如果数据都紧密地集中在“中心值”的周围，数据的离散程度较小，说明这个“中心值”对数据的代表性好；

相反，如果数据仅是比较松散地分布在“中心值”的周围，数据的离散程度较大，则此“中心值”说明数据特征是不具有代表性的。

全距、方差、标准差,标准差（standarddeviation-StdDev）:

表示某变量的所有变量值离散程度的统计量。

SPSS中计算的是样本标准差。

方差（variance）:

标准差的平方。

SPSS中计算的是样本方差。

极差（range）:

（maximum）（minimum）,1.2描述分析,刻画分布形态的描述统计量数据分布形态主要指数据分布是否对称，偏斜程度如何，分布陡峭程度等。

偏度、峰度偏度：

描述变量取值分布形态对称性的统计量。

当分布为对称分布时，正负总偏差相等，偏度值等于0；

当分布为不对称分布时，正负总偏差不相等，偏度值大于0或小于0。

偏度值大于0表示正偏差值大，称为正偏或右偏；

偏度值小于0表示负偏差值大，称为负偏或左偏。

偏度绝对值越大，表示数据分布形态的偏斜程度越大。

峰度：

描述变量取值分布形态陡峭程度的统计量。

当数据分布与标准正态分布的陡峭程度相同时，峰度值等于0；

峰度大于0表示数据的分布比标准正态分布更陡峭，为尖峰分布；

峰度小于0表示数据的分布比标准正态分布平缓，为平峰分布。

扁平分布,尖峰分布,峰态,左偏分布,右偏分布,与标准正态分布比较！

偏态,扁平分布,尖峰分布,扁平分布,尖峰分布,左偏分布,扁平分布,尖峰分布,右偏分布,左偏分布,扁平分布,尖峰分布,1.2描述分析,计算基本描述统计量的操作,

（1）分析描述统计描述

（2）将分析变量选择到变量框中（3）单击选项按钮指定基本统计量,1.2描述分析,1.2.2应用例一,案例13：

计算人均住房面积的基本描述统计量，并对本市户口和外地户口家庭的情况进行比较。

操作步骤：

调用命令AnalyzeDescriptiveStatisticsDescriptives选择“人均面积”作为分析变量选择必要的分析指标根据户口状况对数据进行拆分（SplitFile）重新调用命令Descriptives计算不同户口状况的指标值,1.2.2应用例一分析结果,全部数据分析结果,分组数据分析结果,1.2描述性分析,描述性分析主要用于输出变量的各类描述性统计量的值，通过上一节的学习可知，频数分析同样可以做到，都是以计算数值型单变量的统计量为主。

描述性统计分析没有图形功能，也不能生成频数表，但描述性分析可以将原始数据转换成标准正态评分值，并以变量形式存入数据文件中，以便后续分析时应用。

在多元统计分析中，对均值差异较大的变量，采用变量标准化后的数据进行分析，可以消除均值差异带来的影响。

描述统计量,例：

调查记录了130名正常男性血液中的红细胞数（RBC，万/mm）,用描述统计量查看该数据的统计特征。

SPSS的操作步骤,1、菜单中点分析/描述统计/描述，进入描述对话框,2、将变量算入变量窗口，进入选项对话框进行设置，完成后点继续，并确定,SPSS的输出结果,数据编辑窗口中，在原变量右侧多了一列由原变量标准化产生的“Z+原变量名”的列,1.3交叉分组下的频数分析,目的了解不同变量在不同水平下的数据分布情况例：

学习成绩与性别有关联吗？

（两变量）例：

职业、性别、爱逛商店有关联吗？

（三变量）分析的主要步骤产生交叉列联表分析列联表中变量间的关系,列联表,列联表分析过程，可通过Crosstabs对话框实现（AnalyzeDescriptiveStatisticsCrosstabs）。

定义变量（形成数据集3）,指定freq为加权变量,Crosstabs对话框,Crosstabs对话框,本例中选择chi-square,列联表中的卡方独立性检验,H0：

行变量与列变量独立显著性水平=0.05,Crosstabs对话框,本例中选择频数及频率输出项,输出结果,输出结果：

显著值为0.4300.05接受零假设，态度与公司没有关系,2、方差分析,方差分析概述背景案例统计学原理相关统计量SPSS操作SPSS结果解读方差分析案例,2.1方差分析概述,2.1.1背景案例影响农作物产量的因素可能有多个，如品种、施肥量、地域特征等。

在众多的因素中，有些因素会对产量有明显的影响，有些因素的影响不大。

因此，找到中影响因素中起重要的和关键作用的因素是非常重要的。

进一步，在掌握了关键因素后，如品种、施肥量等，还需要对不同品种、不同施肥量的产量进行比较，研究究竟哪个品种的产量高，施肥量究竟多少最为合适。

在制定广告宣传策略时，不同方案所获得的广告效果可能是不一样的。

广告效果可能会受到广告形式、地区规模、播放时间段、播放频率等因素的影响。

需要研究在影响广告效果的众多因素中，哪些因素是主要的，哪些是次要的，哪些因素水平是最合理的。

对这种类似问题的研究可以通过方差分析来实现。

2.1方差分析概述,2.1.2方差分析相关概念观测变量：

农作物产量、广告效果因素（控制变量）：

品种、施肥量、播放时间段等因素水平：

因素的不同类别，如甲品种、乙品种就是品种这一变量的两个水平。

单因素方差分析、多因素方差分析,2.1方差分析概述,2.1.3方差分析统计学原理观测变量取值变化原因：

1、控制变量；

2、随机变量如果相对于随机变量引起的观测值差异，控制变量引起的观测值差异较大，则说明控制变量对观测变量有显著影响。

在统计学中，控制变量和随机变量引起的差异可以分别用一个统计量来表示。

单因素方差分析中，分别用SSA、SSE来表示。

SSA：

组间差异（组间离差平方和），主要是由控制变量的不同水平造成的差异；

SSE：

组内差异（组内离差平方和），主要是由随机变量引起的差异。

SSA+SSE=SSTSST:

总差异（总离差平方和）方差分析任务：

判定SSA相对于SST（或SSE）的大小。

SSA相对较大，则表明控制变量起到了显著影响，若相对较小，则表明控制变量没有显著影响。

2.1方差分析概述,2.1.3单因素方差分析统计学原理假设控制变量会对观测值不会产生显著影响，将总离差（SST）分解为组间离差平方和（SSA）和组内离差平方和（SSE）。

比较SSA与SST的相对大小。

SSA与SST的相对大小要受到样本规模、控制变量水平数的影响，为消除这些因素的影响对SSA、SST要进行一定的处理（分别除以自由度），用统计量F来表示SSA的相对大小,方差分析-从观测变量的部分取值推测观测变量总体取值与随机变量的关系。

部分是否能够代表总体情况？

由于存在随机抽样和样本数量较少等原因，通过分析样本的出的结论不能直接用于总体。

要进行假设检验。

F是随机变量，服从一定的分布，其取值会因为具体的样本的不同而不同。

计算研究样本的F值，即F的观测值，并计算该F观测值对应概率p值，如果p值很小（一般是小于0.05），说明F取到该观测值的概率很小，是不可能发生的。

则认为假设“控制变量对观测值没有显著影响”是不对的，也就是，控制变量会对观测变量产生显著影响。

2.1方差分析概述,2.1.4单因素方差分析基本假设

展开阅读全文