第4章-SPSS基本统计分析.ppt
《第4章-SPSS基本统计分析.ppt》由会员分享,可在线阅读,更多相关《第4章-SPSS基本统计分析.ppt(74页珍藏版)》请在冰豆网上搜索。
第4章SPSS基本统计分析l4.1频数分析l4.2计算基本描述统计量l4.3交叉分组下的频数分析l4.4多选项分析l4.5比率分析对数据的基本统计分析通常包括:
l编制单个变量的频数分布表l计算单个变量的描述统计量以及不同分组下的描述统计量l编制多变量的交叉频数分布表,并以此分析变量之间的关系l数据的多选项分析l其他探索性分析采用两种方式实现上述分析:
采用两种方式实现上述分析:
第一,数值计算,即计算常见的基本统计量的值,第一,数值计算,即计算常见的基本统计量的值,通过数值来准确反映数据的基本统计特征通过数值来准确反映数据的基本统计特征第二,图形绘制,通过图形来直观展示数据的分第二,图形绘制,通过图形来直观展示数据的分布特点布特点4.1频数分析表频数分析表l目的目的频数分析:
对数据按组进行归类整理,形成变量不频数分析:
对数据按组进行归类整理,形成变量不同水平的频数分布表和图形,对数据的分布趋势进同水平的频数分布表和图形,对数据的分布趋势进行初步分析。
行初步分析。
通过频数分析,了解变量取值的状况,把握分布特通过频数分析,了解变量取值的状况,把握分布特征。
征。
通过频数分析,能够在一定程度上反映出样本是否通过频数分析,能够在一定程度上反映出样本是否具有总体代表性,抽样是否存在系统偏差等,并以具有总体代表性,抽样是否存在系统偏差等,并以此证明以后相关问题分析的代表性和可信性。
此证明以后相关问题分析的代表性和可信性。
某班学生按性别分组性别人数(人)男女3020合计50某班学生按性别和年龄分组(交叉式复合分组)某班学生按性别和年龄分组(交叉式复合分组)某班学生按性别和年龄分组(交叉式复合分组)某班学生按性别和年龄分组(交叉式复合分组)性别年龄合计20以下202222以上男女132515423020合计440650l频数分析的任务:
频数分析的任务:
编制频数分布表编制频数分布表各组的名称各组的名称频数(频数(Frequency)百分比(百分比(Percent)有效百分比(有效百分比(ValidPercent)累计百分比(累计百分比(CumulativePercent)绘制统计图绘制统计图柱形图或条形图(柱形图或条形图(BarChart)饼图(饼图(PieChart)直方图直方图(Histograms)频数分析表频数分析表如果有缺省值,那如果有缺省值,那么有效百分比能更么有效百分比能更加准确地反映取值加准确地反映取值分布状况分布状况用宽度相同的条形的高度或长短来表示频数分布变化的图用宽度相同的条形的高度或长短来表示频数分布变化的图形。
使用于定序和定类变量的分析形。
使用于定序和定类变量的分析用圆形及圆内扇形的面积来表示频数百分比变化的图形。
用圆形及圆内扇形的面积来表示频数百分比变化的图形。
用矩形的面积来表示频数变化的图形。
使用于定距型变量用矩形的面积来表示频数变化的图形。
使用于定距型变量的分析。
的分析。
频数分析中的扩展功能:
频数分析中的扩展功能:
l计算分位数计算分位数。
分位数从一个侧面刻画了变量的取。
分位数从一个侧面刻画了变量的取值分布形态。
分位数差可描述离散程度。
适用于值分布形态。
分位数差可描述离散程度。
适用于定序、定距数据。
定序、定距数据。
数据按升序排序后,找到若干个分位点上的数据按升序排序后,找到若干个分位点上的变量值变量值quartiles:
计算计算四分位数四分位数25%(QL)、50%(中位中位数数)、75%(QU)cutpointsfornequalgroups:
n等份等份percentile:
自定义百分位点自定义百分位点l计算计算其他基本描述统计量。
描述集中趋势、离散其他基本描述统计量。
描述集中趋势、离散程度、分布形态的统计量。
程度、分布形态的统计量。
输出百分位数:
输出四分位数,显示25%、50%、75%的百分位数;将数据平均分为所设定的相等等份,可输入2100的整数,如键入4则输出第25、50、75百分位数自定义百分位数,可输入0100的整数。
输入值后按Add添加百分位数,可反复操作键入多个百分位数;按Remove:
删除已键入的数值按Change:
重新输入新数离散趋势栏分布形态栏集中趋势栏在计算百分位数值和中位数时,假设数据已分组,且用各组的组中值代替各组数据输出统计量对话框频数分析表频数分析表频数分析频数分析中的其他分析频数分析中的其他分析分位数的应用分位数的应用从从一个侧面刻画了变量的取值分布状况一个侧面刻画了变量的取值分布状况例:
例:
(QL=50,QU=75)在排除极端值影响的条件下,通过计算分位数差,在排除极端值影响的条件下,通过计算分位数差,比较两组样本数据的离散程度比较两组样本数据的离散程度例例:
(QL=50,QU=75)和和(QL=70,QU=75)的比较的比较分位数、中位数、众数的应用举例分位数、中位数、众数的应用举例不同类型的移动客户月话费比较(数据拆分)不同类型的移动客户月话费比较(数据拆分)利用分位数(不显示频数分布表)利用分位数(不显示频数分布表)Chart对话框对话框不输出任何图形,为默认不输出任何图形,为默认输出柱形图或条形图,各条高度代表变量各分类的频数或百输出柱形图或条形图,各条高度代表变量各分类的频数或百分比。
分比。
输出饼图,各块的数值表示各分类变量的频数输出饼图,各块的数值表示各分类变量的频数或百分比或百分比输出直方图,此图仅适用于区间型数值变量。
选择此项后,输出直方图,此图仅适用于区间型数值变量。
选择此项后,还可选择还可选择Withnormalcurve,画出的直方图带有正态曲线,画出的直方图带有正态曲线只有选择了条形图和饼图项只有选择了条形图和饼图项才有效,决定纵轴表示的统才有效,决定纵轴表示的统计量计量纵轴或横轴表示频数纵轴或横轴表示频数纵轴或横轴纵轴或横轴表示百分比表示百分比频数分析表频数分析表Format对话框对话框控制频数表输出的分类数量。
默认为10多变量框中可设定多变量表格输出的格式设置频数表输出的格式设置频数表输出的格式选择频数表中排列顺序按变量值升序排列,此为默认按变量值降序排列按变量各种取值发生的频数的升序排列按变量各种取值发生的频数的降序排列频数分析表频数分析表案例l利用“大学生职业生涯规划数据”,进行以下分析1.分析被调查者的专业分布状况,以及学生对职业规划相关知识的了解程度;2.分析专业和职业认知得分的分布,并比较男女生的得分差异。
频数分析表频数分析表l应用举例应用举例以以“居民储蓄调查数据居民储蓄调查数据”为例,进行频数分析。
有为例,进行频数分析。
有两个分析目标:
两个分析目标:
目标一:
分析储户的目标一:
分析储户的户口和职业户口和职业的的基本情况基本情况。
目标二:
分析储户一次存目标二:
分析储户一次存(取取)款金额的分布,并对款金额的分布,并对城城镇储户和农村储户进行比较镇储户和农村储户进行比较频数分析表频数分析表目标一目标一:
分析储户的分析储户的户口和职业户口和职业的的基本情况基本情况。
分析特点分析特点:
涉及的两个变量都是涉及的两个变量都是分类变量分类变量。
户口、职业户口、职业分析方法:
分析方法:
通过基本频数分析实现通过基本频数分析实现频数分析表频数分析表目标二目标二:
分析储户一次存分析储户一次存(取取)款金额的分布,款金额的分布,并对并对城镇储户和农村储户进行比较城镇储户和农村储户进行比较.分析特点分析特点:
1、涉及的变量是涉及的变量是定距型变量定距型变量。
2、需要分别对城镇和农村户口的储户进行分析,、需要分别对城镇和农村户口的储户进行分析,以便比较。
以便比较。
分析方法:
分析方法:
1、对定距变量不能直接采用频数分析;对定距变量不能直接采用频数分析;2、应对、应对数据分组数据分组后,再编制频数分布表后,再编制频数分布表分析方法:
分析方法:
1、进行进行数据拆分数据拆分;2、利用四分位数等标志变异指标比较城镇和农、利用四分位数等标志变异指标比较城镇和农村储户的一次存款金额分布上的差异村储户的一次存款金额分布上的差异操作:
analyzedescriptivestatisticsfrequencies。
选择待分析的变量到variable(s)框。
按Chart按钮,选择所需要绘制的图形。
在ChartValues框中选择柱形图纵坐标或条形图横坐标的含义。
按Format按钮,调整频数分布表中数据的输出顺序:
按变量值的升(降)序排列,按频数的升(降)序排列。
Frequences主对话框频数分析表频数分析表选择一个或多个变量右移入Variable(s)框。
按Statistics按钮,打开Statistics对话框按Chart按钮,打开Chart对话框按Format按钮,打开Format对话框显示频数分布表4.2计算描述统计量计算描述统计量l目的目的精确把握变量的总体分布状况,了解数精确把握变量的总体分布状况,了解数据的据的集中趋势、离散趋势、对称程度、集中趋势、离散趋势、对称程度、陡峭程度陡峭程度。
l基本方法基本方法计算基本描述统计量计算基本描述统计量基本描述统计量基本描述统计量描述描述集中趋势集中趋势的统计量的统计量均值均值(mean):
表示某变量所有变量值集中趋势或平均水平的统计量。
表示某变量所有变量值集中趋势或平均水平的统计量。
适用于定距数据。
利用了全部数据,易受极端值影响。
适用于定距数据。
利用了全部数据,易受极端值影响。
中位数(中位数(Median)排序排序后处于中间位置的那个变量值。
后处于中间位置的那个变量值。
不适用于定类数据。
不适用于定类数据。
众数众数一个统计总体或分布数列中出现的频数最多、频率最高的变量值变量值。
既适用于定距数据,也适用于定序和定类数据。
2022/11/621注意:
对于定距数据l一般情况下都采用均值;l当数据中存在着较大的误差或者有一些极端数值的话,就要使用中位数;l当变量的次数分布的偏斜程度十分严重时,就应该使用众数来说明总体的一般水平。
基本描述统计量基本描述统计量描述描述离散程度离散程度的统计量的统计量离散程度:
指一组数据远离离散程度:
指一组数据远离“中心值中心值”的程度。
的程度。
即考查所有数据相对于即考查所有数据相对于“中心值中心值”分布的分布的疏密程度。
疏密程度。
如果数据都紧密地集中在如果数据都紧密地集中在“中心值中心值”的周围,数的周围,数据的离散程度较小,则说明据的离散程度较小,则说明“中心值中心值”对数据的对数据的代表性就好;代表性就好;如果数据比较松散地分布在如果数据比较松散地分布在“中心值中心值”的周围,的周围,数据的离散程度较大,则数据的离散程度较大,则“中心值中心值”说明数据特说明数据特征是不具有代表性的。
征是不具有代表性的。
标准差标准差(standarddeviation-StdDev):
表示某变量的所有变量值离散趋势的统计量。
表示某变量的所有变量值离散趋势的统计量。
lSPSS中计算的是样本标准差。
中计算的是样本标准差。
方差方差(variance):
标准差的平方。
标准差的平方。
lSPSS中计算的是样本方差。
中计算的是样本方差。
极差极差(range):
最大值最大值(maximum)最小值最小值(minimum)基本描述统计量基本描述统计量描述描述对称程度对称程度的统计量的统计量偏度偏度(skewness):
描述某变量所有变量值分布形态的偏斜程描述某变量所有变量值分布形态的偏斜程度和方向的统计量度和方向的统计量.l偏度为偏度为0表示表示对称对称;l大于大于0表示正偏差大,称为正偏或右偏,众数小于均值表示正偏差大,称为正偏或右偏,众数小于均值;l小于小于0表示负偏差大,称为负偏或左偏,众数大于均值。
表示负偏差大,称为负偏或左偏,众数大于均值。
l偏度的绝对值越大,表示数据分布形态的偏斜程度越大。
偏度的绝对值越大,表示数据分布形态的偏斜程度越大。
基本描述统计量基本描述统计量l描述描述陡峭程度陡峭程度的统计量的统计量峰度峰度(kurtosis):
描述某变量取值分布形态陡缓程描述某变量取值分布形态陡缓程度的统计量。
度的统计量。
l峰度为峰度为0表示与正