spss摘要性分析.docx

资源描述

spss摘要性分析.docx

《spss摘要性分析.docx》由会员分享，可在线阅读，更多相关《spss摘要性分析.docx（26页珍藏版）》请在冰豆网上搜索。

spss摘要性分析.docx

spss摘要性分析

第一节Frequencies过程

4.1.1主要功能

调用此过程可进行频数分布表的分析。

频数分布表是描述性统计中最常用的方法之一，此外还可对数据的分布趋势进行初步分析。

返回目录

返回全书目录

4.1.2实例操作

[例4-1]调查100名健康女大学生的血清总蛋白含量（g%）如下表，试作频数表分析。

7.437.886.887.807.048.056.977.127.358.05

7.957.567.507.887.207.207.207.437.127.20

7.507.357.887.437.586.507.437.126.976.80

7.357.507.206.437.588.036.977.437.357.35

7.587.586.887.657.047.128.127.507.046.80

7.047.207.657.437.657.766.737.207.507.43

7.357.957.357.476.507.658.167.547.277.27

6.727.657.277.047.726.886.736.736.737.27

7.587.357.507.277.357.357.278.167.037.43

7.357.957.047.657.277.728.437.507.657.04

4.1.2.1数据准备

激活数据管理窗口，定义血清总蛋白含量的变量名为X，然后输入血清总蛋白含量的原始数据，结果见图4.1。

图4.1输入血清总蛋白含量值

4.1.2.2统计分析

激活Statistics菜单，选Summarize中的Frequencies...命令项，弹出Frequencies对话框（图4.2）。

现欲对血清总蛋白含量值进行频数表分析，故在对话框左侧的变量列表中选x，点击钮使之进入Variable（s）框。

同时可点击Format...钮弹出Frequencies：

Format对话框，在Orderby栏中有四个选项：

Ascendingvalues为根据数值大小按升序从小到大作频数分布；Descendingvalues为根据数值大小按降序从大到小作频数分布；Ascendingcounts为根据频数多少按升序从少到多作频数分布；Descendingcounts为根据频数多少按降序从多到少作频数分布。

在PageFormal栏中可定义结果输出的格式。

本例选Ascendingvalues项后点击Continue钮返回Frequencies对话框。

图4.2频数表分析对话框

点击Statistics...钮，弹出Frequencies:

Statistics对话框（图4.3），可点击相应项目，要求系统在作频数表分析的基础上，附带作各种统计指标的描述，特别是可进行任何水平的百分位数计算。

本例要求计算四分位数（Quartiles）、均数（Mean）、中位数（Median）、众数（Mode）、总和（Sum）、标准差（Std.deviation）、方差（Variance）、全距（Range）、最小值（Minimum）、最大值（Maximum）、标准误（S.E.mean）、偏度系数（Skewness）和峰度系数（Kurtosis），选好后点击Continue钮返回Frequencies对话框。

图4.3频数表分析的统计指标对话框

点击Charts...钮，弹出Frequencies:

Charts对话框，用户可选两种图形，一是直条图（Barchart），适用于非连续性的变量；另一是直方图（Histogram），适用于连续性的变量。

本例要求对变量x绘制直方图，故选择Histogram项，并要求绘制正态曲线（Withnormalcurve），点击Continue钮返回Frequencies对话框，再点击OK钮即可。

4.1.2.3结果解释

在输出结果窗口中将看到如下统计数据：

系统对变量x的原始数据作频数分布表，Value为原始值、Frequency为频数、Percent为各组频数占总例数的百分比、Validpercent为各组频数占总例数的有效百分比、CumPercent为各组频数占总例数的累积百分比。

XValidCum

ValueLabelValueFrequencyPercentPercentPercent

6.4311.01.01.0

6.5022.02.03.0

6.7211.01.04.0

6.7344.04.08.0

6.8022.02.010.0

6.8833.03.013.0

6.9733.03.016.0

7.0311.01.017.0

7.0477.07.024.0

7.1244.04.028.0

7.2077.07.035.0

7.2777.07.042.0

7.351111.011.053.0

7.4388.08.061.0

7.4711.01.062.0

7.5077.07.069.0

7.5411.01.070.0

7.5611.01.071.0

7.5855.05.076.0

7.6577.07.083.0

7.7222.02.085.0

7.7611.01.086.0

7.8011.01.087.0

7.8833.03.090.0

7.9533.03.093.0

8.0311.01.094.0

8.0522.02.096.0

8.1211.01.097.0

8.1622.02.099.0

8.4311.01.0100.0

--------------------

Total100100.0100.0

接着输出各基本统计指标，其中均数为7.366,标准误为0.039,中位数为7.350,众数为7.350,标准差为0.394,方差为0.155,峰度系数为0.034,峰度系数的标准误为0.478,偏度系数为0.06,偏度系数的标准误为0.241,全距为2.000,最小值为6.430,最大值为8.430,25%位数为7.120,50%位数为7.350,75%位数为7.580，共100个观察值，无缺失值。

Mean7.366Stderr.039Median7.350

Mode7.350Stddev.394Variance.155

Kurtosis.034SEKurt.478Skewness.060

SESkew.241Range2.000Minimum6.430

Maximum8.430

PercentileValuePercentileValuePercentileValue

25.007.12050.007.35075.007.580

Validcases100Missingcases0

最后系统输出带有正态曲线的直方图（图4.4），由图中可见，数据基本呈现正态分布形状。

图4.4频数分布的直方图

从上述内容可知，系统在未特别指定的情形下，频数分布表是按照原始数值逐一作频数分布的，这与日常需要的等距分组、且组数保持在8～15组的要求不符。

为此，在调用Frequencies过程命令之前，可先对原始数据进行算术处理：

已知最小值为6.430，最大值为8.430，全距为2.000，故可要求分成10组，起点为6.4，组距为0.2。

选Transform菜单Recode项的IntoDifferentVariable...命令项，在弹出的RecodeIntoDifferentVariable对话框中选x点击钮使之进入NumericVariableOutputVariable框，在OutputVariable栏的Name处输入x1，点击Change钮表示新生成的变量名为x1。

点击OldandNewValues钮弹出RecodeIntoDifferentVariable:

OldandNewValues对话框，在Oldvalue栏内选Range项，输入第一个分组的数值范围：

6.4～6.599，在Newvalue栏内输入新值：

6.4，点击Add钮，依此将各组的范围及对应的新值逐一输入，最后点击Continue钮返回RecodeIntoDifferentVariable对话框，再点击OK钮即完成。

系统在原数据库中生成一新变量为x1，这时调用Frequencies过程命令将输出等距分组且组数为10的频数分布表。

ValidCum

ValueLabelValueFrequencyPercentPercentPercent

6.4033.03.03.0

6.6055.05.08.0

6.8088.08.016.0

7.001212.012.028.0

7.202525.025.053.0

7.402323.023.076.0

7.601010.010.086.0

7.8077.07.093.0

8.0066.06.099.0

8.4011.01.0100.0

---------------------

Total100100.0100.0

Validcases100Missingcases0

返回目录

返回全书目录

第二节Descriptives过程

4.2.1主要功能

调用此过程可对变量进行描述性统计分析，计算并列出一系列相应的统计指标，且可将原始数据转换成标准Z分值并存入数据库，所谓Z分值是指某原始数值比其均值高或低多少个标准差单位，高的为正值，低的为负值，相等的为零。

返回目录

返回全书目录

4.2.2实例操作

[例4-2]调查20名男婴的出生体重（克）资料如下，试作描述性统计。

2770291527952995286029703087312631254654

2272350334183921266942183707231025733881

4.2.2.1数据准备

激活数据管理窗口，定义男婴出生体重的变量名为X，然后输入男婴出生体重的原始数据。

4.2.2.2统计分析

激活Statistics菜单选Summarize中的Descriptives...命令项，弹出Descriptives对话框（图4.5）。

现欲对男婴出生体重进行描述性分析，故在对话框左侧的变量列表中选x,点击钮使之进入Variable（s）框；本例要求将原始数据转换成z分值，故选Savestandardizedvalueasvariables项。

图4.5描述性统计对话框

点击Options...钮，弹出Descriptives:

Options对话框（图4.6）。

框中各指标的意义请读者参阅本章第一节。

选好项目后点击Continue钮返回Descriptives对话框，再点击OK钮即可。

图4.6描述性统计指标对话框

4.2.2.3结果解释

在结果输出窗口中将看到如下统计数据：

均数为3188.450,标准误为140.681,标准差为629.146,方差为395824.997,峰度系数为0.118,峰度系数的标准误为0.992,偏度系数为0.732,偏度系数的标准误为0.512,全距为2382.000,最小值为2272,最大值为4654,有效例数为100，无缺失值。

Numberofvalidobservations（listwise）=20.00

VariableX

Mean3188.450S.E.Mean140.681

StdDev629.146Variance395824.997

Kurtosis.118S.E.Kurt.992

Skewness.732S.E.Skew.512

Range2382.000Minimum2272

Maximum4654Sum63769.000

Validobservations-20Missingobservations-0

此外，系统以zx为变量名将原始数据转换成标准z分值，存放在原数据库中（图4.7）。

例如，已知均数为3188.450，标准差为629.146，故原始值2770的Z分值为

=-0.66511；原始值2770的Z分值为

=1.10078。

新变量具有均值为0、标准差为1的特征，亦即变量的标准化过程。

图4.7原始数据及其标准Z分值

返回目录

返回全书目录

第三节Explore过程

4.3.1主要功能

调用此过程可对变量进行更为深入详尽的描述性统计分析，故称之为探索性统计。

它在一般描述性统计指标的基础上，增加有关数据其他特征的文字与图形描述，显得更加细致与全面，有助于用户思考对数据进行进一步分析的方案。

返回目录

返回全书目录

4.3.2实例操作

[例4-3]下表为30名10岁少儿的身高（cm）资料，试作探索性分析。

编号

身高

男孩

女孩

121.4

131.5

132.6

129.2

134.1

135.8

140.4

136.0

128.2

137.4

135.5

129.0

132.2

140.9

129.3

133.4

132.7

130.1

136.7

139.7

133.0

140.3

124.0

125.4

137.5

120.9

138.8

138.6

141.4

137.5

4.3.2.1数据准备

激活数据管理窗口，定义少儿身高的变量名为X，然后再定义一个变质为SEX，用于作性别分组。

顺序输入少儿身高的原始数据，在变量SEX中，男孩输入1、女孩输入2。

4.3.2.2统计分析

　激活Statistics菜单选Summarize中的Explore...项，弹出Explore对话框（如图4.8），现欲对少儿身高资料进行分组的探索性分析，故在对话框左侧的变量列表中选x点击钮使之进入DependentList框，再选sex点击钮使之进入FactorList框。

图4.8探索性分析对话框

点击Statistics...钮，弹出Explore:

Statistics对话框（图4.9），有如下选项：

1、Descriptives：

输出均数、中位数、众数、5%修正均数、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误；

2、M-estimators：

作中心趋势的粗略最大似然确定，输出四个不同权重的最大似然确定数；

3、Outliers：

输出五个最大值与五个最小值；

4、Percentiles：

输出第5%、10%、25%、50%、75%、90%、95%位数；

5、GroupedFrequencytables：

输出分组的例数与数值范围表。

本例全部选择，之后点击Continue钮返回Explore对话框。

图4.9探索性分析统计对话框

点击Plot...钮弹出Explore:

Plot对话框（图4.10），在Boxplot栏内选Factorlevelstogether项要求按组别进行箱图绘制；在Descriptive栏内选Stem-and-leaf项要求作茎叶情形描述。

之后点击Continue钮返回Explore对话框，再点击OK钮即可。

图4.10探索性分析绘图对话框

4.3.2.3结果解释

在结果输出窗口中将看到如下统计数据：

先输出男孩的数据。

共15例，无缺失值，其均数为132.9，中位数为132.6，5%修正均数为133.0944，均数的95%置信区间为130.0706～132.7294，标准误为1.3192，方差为26.1043，标准差为5.1092，最小值为121.4，最大值为140.9，全距为19.5，四分位全距为6.8，偏度系数为-0.4239，偏度系数的标准误为0.5801，峰度系数为0.4961，峰度系数的标准误为1.1209。

接着输出四个不同权重下作中心趋势的粗略最大似然确定数，对于伴有长拖尾的对称分布数据或带有个别极端数值的数据，用粗略最大似然确定数替代均数或中位数，结果更准确。

系统还进行数据的茎叶情形描述。

如系统指出男孩的身高资料中，有一个数值是茎为12，叶为1，其实该数值是121.4；有四个数值是茎为12，叶为8999，其实这些数值是129.2、128.2、190.0、129.3。

再接着输出百分位数：

第5%位数是121.4，第10%数是125.48，第25%位数是129.2，第50%位数是132.6，第75%位数是136，第90%位数是140.6。

并输出最大五个数和最小五个数：

最大五个数是140.9，140.4，137.4，136.0，135.8；最小五个数是121.4，128.2，129.0，129.2，129.3。

最后输出频数分布表。

BySEX1

Validcases:

15.0Missingcases:

.0Percentmissing:

Mean132.9000StdErr1.3192Min121.4000Skewness-.4239

Median132.6000Variance26.1043Max140.9000SESkew.5801

5%Trim133.0944StdDev5.1092Range19.5000Kurtosis.4961

95%CIforMean（130.0706,135.7294）IQR6.8000SEKurt1.1209

M-Estimators

------------

Huber（1.339）132.9127Tukey（4.685）133.0901

Hampel（1.700,3.400,8.500）133.0153Andrew（1.340*pi）133.0904

FrequencyStem&Leaf

1.0012*1

4.0012.8999

4.0013*1224

4.0013.5567

2.0014*00

Stemwidth:

10.0

Eachleaf:

1case（s）

Percentiles

-----------

Percentiles5.000010.000025.000050.000075.000090.000095.0000

Haverage121.4000125.4800129.2000132.6000136.0000140.6000

Tukey'sHinges129.2500132.6000135.9000

ExtremeValues

-------------

5HighestCase#5LowestCase#

140.9Case:

14121.4Case:

140.4Case:

7128.2Case:

137.4Case:

10129.0Case:

136.0Case:

8129.2Case:

135.8Case:

6129.3Case:

FrequencyTable

--------------

BinValidCum

CenterFreqPctPctPct

126.45.0033.3333.3333.33

136.410.0066.6766.67100.00

下一部分为系统输出的女孩资料分析结果，其意义同上述。

BySEX2

Validcases:

15.0Missingcases:

.0Percentmissing:

Mean134.0000StdErr1.6428Min120.9000Skewness-.8937

Median136.7000Variance40.4829Max141.4000SESkew.5801

5%Trim134.3167StdDev6.3626Range20.5000Kurtosis-.2747

95%CIforMean（130.4765,137.5235）IQR8.7000SEKurt1.1209

M-Estimators

------------

Huber（1.339）135.4183Tukey（4.685）136.2104

Hampel（1.700,3.400,8.500）135.1852Andrew（1.340*pi）136.2327

FrequencyStem&Leaf

2.0012*04

1.0012.5

4.0013*0233

6.0013.677889

2.0014*01

Stemwidth:

10.0

Eachleaf:

1case（s）

Percentiles

-----------

Percentiles5.000010.000025.000050.000075.000090.000095.0000

Haverage120.9000122.7600130.1000136.7000138.8000140.7400

Tukey'sHinges131.4000136.7000138.7000

ExtremeValues

-------------

5HighestCase#5LowestCase#

141.4Case:

29120.9C

展开阅读全文