第二课基本统计描述与数据转换11.docx

资源描述

第二课基本统计描述与数据转换11.docx

《第二课基本统计描述与数据转换11.docx》由会员分享，可在线阅读，更多相关《第二课基本统计描述与数据转换11.docx（15页珍藏版）》请在冰豆网上搜索。

第二课基本统计描述与数据转换11.docx

第二课基本统计描述与数据转换11

第二课基本统计描述与数据转换

描述统计分析

引：

统计分析的目的是研究总体特征。

而往往由于客观条件的限制，我们只能够得到从总体中随机抽取的一部分观察对象，称之为样本，只有通过对样本的描述和研究，才有可能对总体进行某种可能的推断。

描述统计分析是推断统计分析的基础。

一、描述统计分析的基本内容包括：

集中趋势分析：

众数：

出现频率最高的数　

中位数：

将数据排序后位于正中间的数值。

适合于所有分布类型的数据

分位数：

四分位数、中位数、百分位数。

理解分位数的含义。

均值：

一组数据的简单算术平均数或加权算术平均数。

适合于正态分布或对成分布资料。

几何平均数：

算术平均数的变形，专门用来处理特殊数据的平均数，如发展速度

调和平均数：

算术平均数的一种变形。

离散趋势分析

极差：

数据最大值减去最小值，最简单的离散程度测度值

标准差、方差：

最常用的离散程度测侧度值，一般适合于正态分布资料

最小值、最大值

标准误：

样本平均数的标准差

偏度、峰度测量

偏度系数：

Skewness，当分布对称时，偏度系数为0。

当偏度系数为正值，可以判断为右偏（正偏），反之，判断为左偏（负偏）。

峰度系数：

Kurtosis，是对数据分布平峰或尖峰程度的测度。

峰度是针对标准正态分布而言的。

峰度系数为0，表明数据为标准正态分布。

若峰度系数大于0，则数据为尖峰分布；反之为平峰分布。

统计图形分析：

直方图、PP图、茎叶图、箱线图等

　　上述三种图形是描述统计分析过程中常用的几种图形，是用于观察数据的分布形态的辅助工具。

二、菜单介绍：

1、frequencies过程：

生成频数分布表，适合于定性资料，以及部分定量资料。

2、descriptive：

进行一般的描述统计统计分析，包括集中趋势值，离散趋势值，偏度系数，峰度系数等。

适合服从正态分布的定量资料。

使用频率最高。

3、Explore：

适合于数据分布状况不清时的探索性数据分析。

4、ratio：

对连个连续性变量计算相对指标。

三、frequencies过程。

四、descriptive过程

主要针对连续性资料，可以计算一系列描述统计量。

并且可以将变量的原始数据标准化并以变量的形式保存。

五、explore过程

适用于对资料的性质、分布特点完全不清楚时，称之为探索性分析。

能计算常用描述统计量，并绘制统计图形，包括茎叶图、箱线图。

箱线图：

首先找出一组数据的五个特征值，包括最小值、最大值、中位数、两个四分位数（上四分位数和下四分位数），然后，连接两个四分位数构成箱子，最后连接两个极值点与箱子，形成箱式图。

可观察数据呈正态分布、左偏分布、右偏分布还是其他类型的分布，如Ｕ型分布。

例：

某班学生英语成绩如下：

7690977170938683788581绘制箱线图如下：

茎叶图：

将数据分成茎和叶两部分，通常以数据的高位数值为茎，低位为叶，树叶上一般保留数据的最后一个数字，树叶长在树茎上。

通过茎叶图，也可以看出数据的分布形状及数据的离散状况。

实际上是横放的直方图。

适合于数据量较少的情况。

该图形的优势，既保留原始数据的信息，又能看出数据的分布状况。

这是比直方图优越的地方。

【例】某生产车间50名工人日加工零件数如下（单位：

个）。

试绘茎叶图观察分布特征。

117122124129139107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121

M-estimators:

用于对集中趋势进行最大稳健估计。

　　当数据中存在异常值较多时，适合于用该估计值代替平均值来反映数据的集中趋势。

通常有四种统计量：

Huber、Andrew、Hampel、Tukey。

若这四个统计量的结果较为接近，且与均数相差不大，则说明数据分布不太偏，也就说明均值可以代表数据的集中趋势。

Levene:

方差齐性检验。

适合于对分组数据检验各组间数据是否方差齐。

Shapirowilk检验：

正态性检验的方法之一。

当检验一组数据是否服从正态分布，可以运用该检验方法。

一般适合于小样本场合。

K-S检验：

正态性检验的方法之一。

当检验一组数据是否服从正态分布，可以运用该检验方法。

一般适合于连续性数据，大样本场合。

Transform/Data菜单详解

本章主要介绍数据管理的基本内容，包括数据的合并、拆分、转置、编码等内容，是进行正式统计分析前的重要一步。

Transform菜单主要针对数据中变量的变换，如根据已知变量产生一个新的变量，Data菜单主要针对数据库的维护，如数据文件的合并、拆分、汇总等。

3.1SPSS对话框元素介绍

下面所介绍的是在SPSS所有的统计分析中都会出现的典型的对话框，了解对话框的基本结构有助于更好的掌握SPSS。

一、一级对话框元素介绍

1、候选变量列表框2、选入变量列表框3、变量移动钮4、五个标准按钮5、其他按钮

二、二级对话框元素介绍

1、单选框2、复选框3、下拉列表框4、文本框

以回归分析（Analyze——Regression）

3.2Transform菜单详解

本菜单功能丰富，主要针对数据文件中的变量进行各种转换。

一、Compute过程（重点掌握）

Compute过程是Transform菜单中最常用的一个过程，功能是用于给变量赋值。

方法一：

第一步：

产生一个新变量“new”,并给该变量赋值1；

第二步：

对该新变量进行修改，修改条件：

当血磷值超过1的时候，令“new”的取值为2

方法二：

用逻辑函数any

例2：

打开cars.sav文件，对产地为欧洲的汽车的数据进行转换，将“马力”增加20

函数介绍：

1、Arithmetic函数——数学函数

Abs（?

）——返回变量的绝对值

Arsin（？

）——返回变量的反三角函数值

Mod（?

）——返回数值表达式除以模数后的余数，要求模数不能为0

Rnd（？

）——返回数值表达式四舍五入后得到的整数值

Trunc（?

）——返回数值表达式截尾以后得到的整数值

2、CDF

返回累积分布函数的累积概率值

如：

CDF.Normal（X1,0,1）=X2

-2

0.02

-1

0.16

0.5

0.84

0.98

3、日期和时间函数（略）

4、随机变量函数（Randomnumbers）

RV.Normal（mean,stddev）

——返回来自指定均值和标准离差的正态分布的随机数

RV.EXP（shape）

——返回服从指定参数的指数分布随机数

RV.Possion（mean）

——返回服从指定均值的泊松分布的随机数

RV.Uniform（min,max）

——返回指定最小值和最大值的均匀分布的随机数

（1）产生一系列随机数（操作讲解）

（2）应用：

如有100个case,想打乱它们的顺序，该如何解决？

方法：

首先产生一个均匀分布的随机数，然后按随机数进行排序后即可。

如：

从编号为1~300的灯泡中随机抽20个进行检验，如何实现？

方法：

运用计算机产生20个1到600间的随机数，取出他们对应的灯泡进行检验即可。

5、统计函数

CFVAR（标准离差/均值）；MAX/最大值；MIN/最小值；MEAN/均值；SD/标准差；SUM/求和；VARIANCE/方差

例:

运用产生随机数的方法产生一个数据文件，文件命名为chengji.sav,包含学号（x1），语文（x2）、数学（x3）、英语（x4）四个变量名，计算各门功课的平均成绩/总分。

6、逻辑函数

ANY

7、字符串函数

8、转换函数converse

主要用于字符型变量与数值型变量的转换

二、Count过程

该过程用于标示某个值或某些值在某个变量的取值中是否出现。

标示：

SPSS会自动用数字1来标注满足所需条件的记录。

如果想知道哪些记录的血磷脂在2~3之间，则可以通过count过程实现。

（操作）

例2：

在cars.sav文件中标出美国产的汽车马力在135以下的记录

注意：

Count在标示数据的过程中，不能对同时满足多个取值条件的记录进行标示，只能对满足某一个条件的变量进行标示。

三、Recode过程

该过程用于将原变量按照某种一一对应的关系生成新变量，可以将新值赋给原变量也可以生成一个新变量。

例2：

打开cars.sav，将美国产的汽车进行编码，马力在100以下的取值为0，马力在100~200的取值为10，马力在200以上的取值20，生成新变量temp

四、RankCases过程

该过程是专门履行排次序的功能的。

因为在非参数统计中，经常要用到秩次这个统计量。

例：

请分组计算血磷脂的秩次。

五、其他菜单

1、RandomNumberSeed

该过程用于随机种子的设定，可以保证随机数重复出现

操作：

固定随机种子，并产生20个随机数

不固定随机种子，并产生20个随机数

2、AutomaticRecode（与Rankcase过程相似，略）

3、ReplaceMissingValue与CreateTimesSeries均属于针对于时间序列数据，此处略。

3.3Data菜单详解

Transform倾向于对变量进行处理操作，而Data倾向于对整个数据文件进行处理操作

该菜单所履行的功能分为下列三类：

简单命令：

包括插入变量、插入记录和到达某条记录，直接用鼠标拖放就可以快速完成，无需调用菜单。

上述命令也可以通过优化工具栏，将上述命令设置在工具栏中直接调用。

方法：

单击工具栏，右键——toolbars——customize,然后按照需要进行设置。

简单过程：

包括排序、拆分文件、选择观测和加权观测，使用频繁。

专用过程：

包括定义日期变量、数据转置、文件的合并、数据汇总等。

一、SortCase过程

当我们调用该过程时，多半是针对多变量排序，如果仅对单变量排序，右键即可。

例1：

见书P37

例2：

请将chengji.sav按学号升序、总分成绩降序排列数据。

二、MergeFiles过程（重点掌握）

该过程用于合并多个来自SPSS的数据文件

1、纵向合并（记录合并）

从外部数据文件中增加记录到当前数据文件中，要求两文件具有相同的变量。

例1：

右侧列表框中显示的是合并后新数据文件中显示的变量，若不需要那么多变量，直接将其选入左侧列表框。

例2：

运用随机数产生服从均值为1，方差为2的正态分布的随机数（x1）10个，其中前5个为第一组，后5个为第二组。

令组别变量为group.将该数据文件合并到xuelin.sav中

2、横向合并（增加变量）

从外部文件中增加变量到当前数据文件，称为横向合并。

对数据要求较高：

默认按照相同记录号进行合并

如果按照一个一一对应的关键变量进行匹配合并，则记录要按照该变量进行升序排列

例2：

练习：

运用随机数产生两个SPSS数据文件，命名为merge1.sav和merge2.sav并将其合并。

其中第一个文件包含学号（x1，取值1-10）,语文（x2）,数学（x3）；第二个文件包含学号（x1,取值为10~20），化学（x4），生物（x5）

三、Aggregate过程（重点掌握）

该过程主要用于对数据进行分类汇总，即对数据文件按照分组变量（如性别、宗教信仰等）进行分组，然后对给各组进行汇总统计，结果可以存入新的数据文件，也可以替换当前数据文件

例1：

见书

例2：

打开cars.sav，按照产地求出各个国家的汽车平均马力和重量。

四、SplitFile过程

该过程用于将数据文件进行分组处理

例1：

将cars.sav中按照产地进行拆分

五、SelectCases过程

当不需要对全部数据进行分析，而只需选择其中一部分进行分析时常常选用该过程。

六、Transpose过程

该过程用于对数据进行行列转置，变量便成记录，记录便成变量

七：

DefineDates

用于自动生成时间变量，适合于时间序列变量

展开阅读全文