第二课基本统计描述与数据转换11.docx

上传人:b****4 文档编号:12033522 上传时间:2023-04-16 格式:DOCX 页数:15 大小:311.22KB
下载 相关 举报
第二课基本统计描述与数据转换11.docx_第1页
第1页 / 共15页
第二课基本统计描述与数据转换11.docx_第2页
第2页 / 共15页
第二课基本统计描述与数据转换11.docx_第3页
第3页 / 共15页
第二课基本统计描述与数据转换11.docx_第4页
第4页 / 共15页
第二课基本统计描述与数据转换11.docx_第5页
第5页 / 共15页
点击查看更多>>
下载资源
资源描述

第二课基本统计描述与数据转换11.docx

《第二课基本统计描述与数据转换11.docx》由会员分享,可在线阅读,更多相关《第二课基本统计描述与数据转换11.docx(15页珍藏版)》请在冰豆网上搜索。

第二课基本统计描述与数据转换11.docx

第二课基本统计描述与数据转换11

第二课基本统计描述与数据转换

描述统计分析

引:

统计分析的目的是研究总体特征。

而往往由于客观条件的限制,我们只能够得到从总体中随机抽取的一部分观察对象,称之为样本,只有通过对样本的描述和研究,才有可能对总体进行某种可能的推断。

描述统计分析是推断统计分析的基础。

一、描述统计分析的基本内容包括:

集中趋势分析:

众数:

出现频率最高的数 

中位数:

将数据排序后位于正中间的数值。

适合于所有分布类型的数据

分位数:

四分位数、中位数、百分位数。

理解分位数的含义。

均值:

一组数据的简单算术平均数或加权算术平均数。

适合于正态分布或对成分布资料。

几何平均数:

算术平均数的变形,专门用来处理特殊数据的平均数,如发展速度

调和平均数:

算术平均数的一种变形。

离散趋势分析

极差:

数据最大值减去最小值,最简单的离散程度测度值

标准差、方差:

最常用的离散程度测侧度值,一般适合于正态分布资料

最小值、最大值

标准误:

样本平均数的标准差

偏度、峰度测量

偏度系数:

Skewness,当分布对称时,偏度系数为0。

当偏度系数为正值,可以判断为右偏(正偏),反之,判断为左偏(负偏)。

峰度系数:

Kurtosis,是对数据分布平峰或尖峰程度的测度。

峰度是针对标准正态分布而言的。

峰度系数为0,表明数据为标准正态分布。

若峰度系数大于0,则数据为尖峰分布;反之为平峰分布。

统计图形分析:

直方图、PP图、茎叶图、箱线图等

  上述三种图形是描述统计分析过程中常用的几种图形,是用于观察数据的分布形态的辅助工具。

二、菜单介绍:

1、frequencies过程:

生成频数分布表,适合于定性资料,以及部分定量资料。

2、descriptive:

进行一般的描述统计统计分析,包括集中趋势值,离散趋势值,偏度系数,峰度系数等。

适合服从正态分布的定量资料。

使用频率最高。

3、Explore:

适合于数据分布状况不清时的探索性数据分析。

4、ratio:

对连个连续性变量计算相对指标。

三、frequencies过程。

四、descriptive过程

主要针对连续性资料,可以计算一系列描述统计量。

并且可以将变量的原始数据标准化并以变量的形式保存。

五、explore过程

适用于对资料的性质、分布特点完全不清楚时,称之为探索性分析。

能计算常用描述统计量,并绘制统计图形,包括茎叶图、箱线图。

箱线图:

首先找出一组数据的五个特征值,包括最小值、最大值、中位数、两个四分位数(上四分位数和下四分位数),然后,连接两个四分位数构成箱子,最后连接两个极值点与箱子,形成箱式图。

可观察数据呈正态分布、左偏分布、右偏分布还是其他类型的分布,如U型分布。

例:

某班学生英语成绩如下:

7690977170938683788581绘制箱线图如下:

茎叶图:

将数据分成茎和叶两部分,通常以数据的高位数值为茎,低位为叶,树叶上一般保留数据的最后一个数字,树叶长在树茎上。

通过茎叶图,也可以看出数据的分布形状及数据的离散状况。

实际上是横放的直方图。

适合于数据量较少的情况。

该图形的优势,既保留原始数据的信息,又能看出数据的分布状况。

这是比直方图优越的地方。

【例】某生产车间50名工人日加工零件数如下(单位:

个)。

试绘茎叶图观察分布特征。

117122124129139107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121

M-estimators:

用于对集中趋势进行最大稳健估计。

  当数据中存在异常值较多时,适合于用该估计值代替平均值来反映数据的集中趋势。

通常有四种统计量:

Huber、Andrew、Hampel、Tukey。

若这四个统计量的结果较为接近,且与均数相差不大,则说明数据分布不太偏,也就说明均值可以代表数据的集中趋势。

Levene:

方差齐性检验。

适合于对分组数据检验各组间数据是否方差齐。

Shapirowilk检验:

正态性检验的方法之一。

当检验一组数据是否服从正态分布,可以运用该检验方法。

一般适合于小样本场合。

K-S检验:

正态性检验的方法之一。

当检验一组数据是否服从正态分布,可以运用该检验方法。

一般适合于连续性数据,大样本场合。

Transform/Data菜单详解

本章主要介绍数据管理的基本内容,包括数据的合并、拆分、转置、编码等内容,是进行正式统计分析前的重要一步。

Transform菜单主要针对数据中变量的变换,如根据已知变量产生一个新的变量,Data菜单主要针对数据库的维护,如数据文件的合并、拆分、汇总等。

3.1SPSS对话框元素介绍

下面所介绍的是在SPSS所有的统计分析中都会出现的典型的对话框,了解对话框的基本结构有助于更好的掌握SPSS。

一、一级对话框元素介绍

1、候选变量列表框2、选入变量列表框3、变量移动钮4、五个标准按钮5、其他按钮

二、二级对话框元素介绍

1、单选框2、复选框3、下拉列表框4、文本框

以回归分析(Analyze——Regression)

3.2Transform菜单详解

本菜单功能丰富,主要针对数据文件中的变量进行各种转换。

一、Compute过程(重点掌握)

Compute过程是Transform菜单中最常用的一个过程,功能是用于给变量赋值。

方法一:

第一步:

产生一个新变量“new”,并给该变量赋值1;

第二步:

对该新变量进行修改,修改条件:

当血磷值超过1的时候,令“new”的取值为2

方法二:

用逻辑函数any

例2:

打开cars.sav文件,对产地为欧洲的汽车的数据进行转换,将“马力”增加20

函数介绍:

1、Arithmetic函数——数学函数

Abs(?

)——返回变量的绝对值

Arsin(?

)——返回变量的反三角函数值

Mod(?

?

)——返回数值表达式除以模数后的余数,要求模数不能为0

Rnd(?

)——返回数值表达式四舍五入后得到的整数值

Trunc(?

)——返回数值表达式截尾以后得到的整数值

2、CDF

返回累积分布函数的累积概率值

如:

CDF.Normal(X1,0,1)=X2

X1

X2

-2

0.02

-1

0.16

0

0.5

1

0.84

2

0.98

3、日期和时间函数(略)

4、随机变量函数(Randomnumbers)

RV.Normal(mean,stddev)

——返回来自指定均值和标准离差的正态分布的随机数

RV.EXP(shape)

——返回服从指定参数的指数分布随机数

RV.Possion(mean)

——返回服从指定均值的泊松分布的随机数

RV.Uniform(min,max)

——返回指定最小值和最大值的均匀分布的随机数

(1)产生一系列随机数(操作讲解)

(2)应用:

如有100个case,想打乱它们的顺序,该如何解决?

方法:

首先产生一个均匀分布的随机数,然后按随机数进行排序后即可。

如:

从编号为1~300的灯泡中随机抽20个进行检验,如何实现?

方法:

运用计算机产生20个1到600间的随机数,取出他们对应的灯泡进行检验即可。

5、统计函数

CFVAR(标准离差/均值);MAX/最大值;MIN/最小值;MEAN/均值;SD/标准差;SUM/求和;VARIANCE/方差

例:

运用产生随机数的方法产生一个数据文件,文件命名为chengji.sav,包含学号(x1),语文(x2)、数学(x3)、英语(x4)四个变量名,计算各门功课的平均成绩/总分。

6、逻辑函数

ANY

7、字符串函数

8、转换函数converse

主要用于字符型变量与数值型变量的转换

二、Count过程

该过程用于标示某个值或某些值在某个变量的取值中是否出现。

标示:

SPSS会自动用数字1来标注满足所需条件的记录。

如果想知道哪些记录的血磷脂在2~3之间,则可以通过count过程实现。

(操作)

例2:

在cars.sav文件中标出美国产的汽车马力在135以下的记录

注意:

Count在标示数据的过程中,不能对同时满足多个取值条件的记录进行标示,只能对满足某一个条件的变量进行标示。

三、Recode过程

该过程用于将原变量按照某种一一对应的关系生成新变量,可以将新值赋给原变量也可以生成一个新变量。

例2:

打开cars.sav,将美国产的汽车进行编码,马力在100以下的取值为0,马力在100~200的取值为10,马力在200以上的取值20,生成新变量temp

四、RankCases过程

该过程是专门履行排次序的功能的。

因为在非参数统计中,经常要用到秩次这个统计量。

例:

请分组计算血磷脂的秩次。

五、其他菜单

1、RandomNumberSeed

该过程用于随机种子的设定,可以保证随机数重复出现

操作:

固定随机种子,并产生20个随机数

不固定随机种子,并产生20个随机数

2、AutomaticRecode(与Rankcase过程相似,略)

3、ReplaceMissingValue与CreateTimesSeries均属于针对于时间序列数据,此处略。

3.3Data菜单详解

Transform倾向于对变量进行处理操作,而Data倾向于对整个数据文件进行处理操作

该菜单所履行的功能分为下列三类:

简单命令:

包括插入变量、插入记录和到达某条记录,直接用鼠标拖放就可以快速完成,无需调用菜单。

上述命令也可以通过优化工具栏,将上述命令设置在工具栏中直接调用。

方法:

单击工具栏,右键——toolbars——customize,然后按照需要进行设置。

简单过程:

包括排序、拆分文件、选择观测和加权观测,使用频繁。

专用过程:

包括定义日期变量、数据转置、文件的合并、数据汇总等。

一、SortCase过程

当我们调用该过程时,多半是针对多变量排序,如果仅对单变量排序,右键即可。

例1:

见书P37

例2:

请将chengji.sav按学号升序、总分成绩降序排列数据。

二、MergeFiles过程(重点掌握)

该过程用于合并多个来自SPSS的数据文件

1、纵向合并(记录合并)

从外部数据文件中增加记录到当前数据文件中,要求两文件具有相同的变量。

例1:

右侧列表框中显示的是合并后新数据文件中显示的变量,若不需要那么多变量,直接将其选入左侧列表框。

例2:

运用随机数产生服从均值为1,方差为2的正态分布的随机数(x1)10个,其中前5个为第一组,后5个为第二组。

令组别变量为group.将该数据文件合并到xuelin.sav中

2、横向合并(增加变量)

从外部文件中增加变量到当前数据文件,称为横向合并。

对数据要求较高:

默认按照相同记录号进行合并

如果按照一个一一对应的关键变量进行匹配合并,则记录要按照该变量进行升序排列

例2:

练习:

运用随机数产生两个SPSS数据文件,命名为merge1.sav和merge2.sav并将其合并。

其中第一个文件包含学号(x1,取值1-10),语文(x2),数学(x3);第二个文件包含学号(x1,取值为10~20),化学(x4),生物(x5)

三、Aggregate过程(重点掌握)

该过程主要用于对数据进行分类汇总,即对数据文件按照分组变量(如性别、宗教信仰等)进行分组,然后对给各组进行汇总统计,结果可以存入新的数据文件,也可以替换当前数据文件

例1:

见书

例2:

打开cars.sav,按照产地求出各个国家的汽车平均马力和重量。

四、SplitFile过程

该过程用于将数据文件进行分组处理

例1:

将cars.sav中按照产地进行拆分

五、SelectCases过程

当不需要对全部数据进行分析,而只需选择其中一部分进行分析时常常选用该过程。

六、Transpose过程

该过程用于对数据进行行列转置,变量便成记录,记录便成变量

七:

DefineDates

用于自动生成时间变量,适合于时间序列变量

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 文学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1