SPSS学习笔记很全.docx

资源描述

SPSS学习笔记很全.docx

《SPSS学习笔记很全.docx》由会员分享，可在线阅读，更多相关《SPSS学习笔记很全.docx（32页珍藏版）》请在冰豆网上搜索。

SPSS学习笔记很全.docx

SPSS学习笔记很全

SPSS学习笔记

描述样本数据

一般的，一组数据拿出来，需要先有一个整体认识。

除了我们平时最常用的集中趋势外，还需要一些离散趋势的数据。

这方面EXCEL就

能一次性的给全了数据，但对于SPSS就需要用多个工具了，感觉上表格方面不如EXCEL好用。

个人感觉，通过描述需要了解整体数据的集中趋势和离散趋势，再借用各种图观察数据的分布形态。

对于SPSS提供的OLAFCubes（在线

分析处理表），CaseSummary（观察值摘要分析表），Descriptives（描述统计）不太常用，反喜欢用Frequencies（频率分析），BasicTable（基本报表），Crosstabs（列联表）这三个，另外再配合其它图来观察。

这个可以根据个人喜好来选择。

1.使用频率分析（Frequencies）观察数值的分布。

频率分布图与分析数据结合起来，可以更清楚的看到数据分布的整体情况。

以自带文件Trendschapter13.sav为例，选择Analyze->DescriptiveStatistics->Frequencies，把hstarts选入Variables，取消

在DisplayFrequencytable前的勾，在Chart里面histogram，在Statistics选项中如图1

图1

分别选好均数（Mean），中位数（Median），众数（Mode），总数（Sum），标准差（Std.deviation），方差（Variance），范围（range），最小值

（Minimum），最大值（Maximum），偏度系数（Skewness），峰度系数（Kutosis），按Continue返回，再按OK,出现结果如图2

Shitistics

hstarts

/and

132

Missing

Mean

7940616

Median

79.30500

Mode

927S2

Std.Deviation

21150190

Variance

535929

Skewne吕w

1S7

Std.ErrorofSkewtess

211

Kurtosis

-.368

Std.ErrorafKurtosis

419

Range

101004

Minimum

33363

Maximum

135.167

Sum

1048T613

图2

0,则数据基本接

表中，中位数与平均数接近，与众数相差不大，分布良好。

标准差大，即数据间的变化差异还还小。

峰度和偏度都接近

近于正态分布。

下面图3的频率分布图就更直观的观察到这样的情况

HiwB口R1IT1

2.采用各种图直观观察数据分布情况，如采用柱型图观察归类的比例等

同样以自带文件Trendschapter13.sav为例，我们可以观察一下各年的数据总和的对比：

「选择Graph->Bar->Simple，在“Datainchartare”一项选择Summaryofgroupsofcases，然后按Define，出现图4,

护亦HEI厂

FQRMA7MF

IOKiJE眄I目M**I

Qmi

■incSimpIbBnr:

SuuaiitrirforCro口o-fCiitbji

2.选择BarsRepresent->Otherstatistic（e.g.mean）,把hstarts一项选入Variable里面，把YEAR,Periodic—项选入CategoryAxis

项中，并按ChangeStatistic键，出现图5:

Meirtcivaiue?

'躍m・・u・mm・・H・rTraM“*

■''Med^nofvdues厂Mo^eo*values

Numtierolca^es

■'"5t』rtd炮ddavislicn广yartante

广Miaimuffiv^ue

'Mawnumv^lut

CuiTMjfaflivesym

「Nurmbeiilwve

'忖umber^ehw

「Percifliigeafcov^

Ptr^er^agebelowCPercentile

Percentogeinside

图5

3.在Statistic选项中选Sumofvalues一项，按Continue返回，按OK即可出现图6:

1400000-

12OTOT0-

100000C-

400000

200000-

OJOOO-

IKS1陳1«719&31S7019711S721&711»741975

YEAJR,notperiodic

sluBwllurn仍

通过列联表来观察，数据的交错关系。

来说明

以软件自带的文件UniversityofFloridagraduatesalaries.sav

1、选择Tables->BasicTable，在弹出对话框中，选择Graduate至USummaries栏，College至UDown，Gender到Across栏，如图7

2、选择Statistics按键，选取Count和layer%至UCellStatistics一栏，并按Continue键，如图8

SwtirigbyCeRCom*

■'*'Norte''Descending''Ascending

Ba^icTable?

Stat1stics

SratiJic:

Row%3當T4bte«M^nriumMewMedianMinimumMode

匸EFi：

&Flr|-^

ddddd

Famat

三、选择Layout按键，选择SummaryvariableLabels->lnseparatelabels（汇总的标签，如本例的Graduate,放在表外）,Statistics

Labels->Acrosstop（数据的标签横放在顶部，如本例的Count和Layer%），并在Labelgroupswithvaluelabelsonly前选择打勾（表

示只需要具体的标签名就可以，不需要汇总名，如本例Gender和College），如图9

图10

提示，需要什么表格形式可以根据要求来调整，但对输出按键都需要熟悉，多尝试几次就可以看出不同的区别。

图11为输出的表格

Female

Mala

GroupToJai

Count

Layer%

Count

Lay&r抵

Cduhl

La理r%

A^rfcuihiH

271

246%

131%

415

377%

Archltdtin

BuHdlnQ/Cofrifruction

46%

50%

Eutlfi峙営Adrriftl^iratiQn

u.t%

172%

322

293%

FMtiry

Education

11%

12%

EnginEenng

4.1%

河

215%

asi

FinsArts

GroupYOC»I

469

4們

S31

57忤

1100

iaoa%

图11

重要提示：

如果结果变成变量的汇总（SUM，则先选择Data->WeightCases，把Graduate的选项先选入WeightCasesby内，再选回

DonotweightCases，按OK即可。

对于其他带有编号的一项都可以这样做。

这一点不知为何，本人屡次试过总需要这样调整。

参考图

图12

几种常用的统计方法应用

一般来说，最最常用的统计分析有假设检验和回归分析，在SPSS中也有很好的对应工具来做这些分析，但对其基本思路和要求都必须了

解，这样才能更灵活的发挥。

下面抄录《EXCELS市场调查中的应用》一书中关于这方面的内容：

1.假设检验

目的：

是用来判断样本与样本，样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。

基本思想：

小概率反证法思想。

即P<0.01或P<0.05在一次试验中基本不会生发。

反证法思想是先提出假设（检验假设Ho）,再用适当

的统计方法确定假设成立的可能性大小，如果可能性小，则认为假设不成立，否则，还不能认为假设不成立。

方法：

t检验，u检验，秩和检验，卡方检验

应用条件：

A、各组资料具有可比性

B、具正态分布

C、方差齐性（即先作F检验，如F0.1，具方差齐性）

2.方差分析

目的：

又称为变异系数分析或F检验。

用于推断两组或多组资料的总体平均数是否相同，检验两个或多个样本平均数的差异是否具有统

注1

计意义（也可认为是检验多个总体均值是否有显著性差异，这样可能更简单一点）。

基本思想：

用组内均方去除组间均方的商，即F值，与1比较，若F值接近1,则说明各验均数间的差异没有统计学意义，否则表示有统

计学意义。

应用条件：

A、各组资料具有可比性

B、具正态分布

C、方差齐性（即F检验）

提示，在应用SPSS中，只要死死的记住一个显著系数0.05就可以应用（如果是双尾系数需要除以2），一般的大于0.05接受原假设，

小于0.05则拒绝。

简单的说，一般结果拒绝就是说样本有差异，样本相对独立，都是表示同一种意思，读这方面书的时候，希望不要让

这些名词混乱了思路。

SPSS的方差检验中，需要注意下面问题：

方差检验中，PostHoc键有LSD的选项：

当方差分析F检验否定了原假设，即认为至少有两个总体的均值存在显著性差异时，须进一步

确定是哪两个或哪几个均值显著地不同，则需要进行多重比较来检验。

LSD即是一种多因变量的三个或三个以上水平下均值之间进行的两

两比较检验。

2IndependentSamples检验中的Mann-WhitneyU检验与KIndependentSamples中的Kruskal-Walllis（克鲁斯卡尔一瓦里斯）H检验

法思想类似，常用来作为非参数检验。

2RelatedSamples非参数检验中，一般有Sign普通符号检验法和Wilcoxon威尔科克森符号秩检验法。

前者用于研究的问题只有两个可

能的结果：

“是”或“非”，并且二者遵从二项分布；后者是普通符号检验法的改进，除了可以检验是非外，还可以了解差异的大小。

KRelatedSamples非参数检验中，主要有Friedman秩和检验与CochranQ检验二种选择，前者是对多个样本是否来自同一总体的检验，

而后者是用于只分为“成功”和“失败”两种结果的定类尺度测量的数据。

附录：

SPSS假设检验方法使用对照表

—..

菲參数检虫1鲁注

例于

Otw二:

setItT宅M

Chi

1MBplel-S

忑十只■:

•因串，闿2

■干:

嘛的砒?

TBSM人锻囲唁才橙■.如

如則划霜”匪碎er.

5只―?

.Wi尼¥4印可心遍二璋时«瞌则楓11齢;时冏关门购禹亠龙比时霊富认可翔＞断.

禺组时出匚也丽『加侶

囲■出ENhl幣刖应址

七殊遇口汽军曲两老调壷ttK車取自国总

Pai**

Rf于2IW.•甲甸

參Ml*碎

One职期

対Th

丄悼万他由宅宝齐広的律立亢％

□rdvArii

时于K一觀用

PiijHwiiiiLCecliFWb

月于

用巧虑那斯人賢J!

值堪

图13

其中相关、配对或有交互作用可以理解为EXCEL勺重复，独立或无交互作用可以理解为EXCEL中的无重复。

图13表大部分参考《数据分

析与SPSS应用》一书，特别说明

3．回归分析

目的：

研究一个变量Y与其它若干变量X之间的一种数学工具。

它是一组试验或观测数据的基础上，寻找被随机性掩盖的变量之间的依

存关系。

A.直线回归方程Yc=abX

B.回归关系的检验：

求回归方程在总体中是否成立，即是否样本代表的总体也有直线回归关系。

a.方差分析：

基本思想是将总变异分解为SS回归和SS乘余，然后利用F检验来判断方程是否成立。

b.t检验：

基本思想是利用样本回归系数b与总体平均数回归系数进行比较来判断回归方程是否成立。

下面摘录《数据分析与SPSS应用》一书关于相关回归和时间序列分析一些概念解释。

数据变量间主要存在二类关系：

一类是函数关系，一类是相关关系。

前者是变量间有确定关系，即一个变量的值能够在其他变量取值确定的情况下，按某种函数关系唯一确定；后者是变量间虽然具有的联系，并非确定关系，如价格与销量量，价格高了，销售量可能会上去，但无法确定销售量是多少。

通过散点图来观察，如果点都集中在一条直线附近，是线性相关，如果在一条曲线附近，则为非线性相关。

如果一个变量因另一个变量的增加而增加，减少而减少，则二个变量间存在正相关关系，反之则为负相关关系。

极端的相关是完全相关和零相关。

如某地区购买自行车多少与购买大蒜多少无关，是为零相关。

按我的理解，相关分析就是推断变量与变量之间关系的密切程度，回归就是在相关的基础上，找出变量间的拟合模型，从而进一步推测出未来的趋势和变量。

而时间序列则是以时间的作为观察的序列，来推断变量间的关系的一种模型。

以自带文件Trendschapter13.sav为例，说明一下如何应用这三种分析工具。

1．相关打开Trendschapter13.sav文件，可以看到，这个文件的数据是以时间来排序的，在每个值前增加一行序列号变量，如图

hstarts

year

date

52149

1965

JAN1965

47.205

1965

2|FEB1965

82150

—1965

MM!

1%5

WO931

1965

APR1965

98400

1965

MAY19S5

97.351

1965

JUN1965

96.409

1965

JUL196门

88830

1965

AUG1965

80876

1965

SEP1965

05750

1965

OCT1965

72.351

1965

NOV1965

6119B

1965

DEC1965

46-561

1966

JAN1966

50.361

196E

FEB1966

83236

1966

94.343

1966

APR1966

rtJTjiZ

尸

h.JAW4

图14

一个时间序列的影响因素有四种变动：

A长期趋势（SecularTrend）,B季节变动（SeasonalVariation）,C循环变动（CyclicalVariation），

D不规则变动（IrregularVariation

）。

我们可以观察一下这些数据是否存在某种关系，打开Graphs->Sequenee，如图15

图15

把hstarts选入Variables项，把No.选入TimeAxisLables，然后按OK出现图16:

图16

从图可以看出，数据总是在一个周期内反复在上下波动，虽然高低的位置不一样，但这种波动显然是随着时间的不同而变化。

因此可以察看，因变量与时间的关系如何。

选择

Data->DefineDates，出现图17

DefineDate?

图17

在Year—栏填入1965,Month一栏填入1,表示数据从1965年1月开始计算。

选择Analyze->Correlate->Bivariate，出现图18

图18

选择Pearson和Spearman（其实只需要选Spearman就

把hstarts,Year和Month都选入Varibales选项，CorrelationCoefficients

可以，这里只是试一下，作为比较）。

注：

相关检验中有Pearson（皮尔森）相关系数和Spearman（斯皮尔曼）等级相关，前者也称皮尔森相关系数，是对两个定距变量关系

的刻画；后者是用来考察两个变量中至少有一个定序变量时的相关关系。

Zero-orderCorrelations（零阶偏听偏相关系数）是按Pearson简单相关系数公式计算得到的相关系数。

在皮尔森系数r是对两个定距变量关系的刻画：

若-1

若0

若R=1，则表明变量之间存在着完全正相关的关系。

若-1

若r=-1，则变量间的关系为完全负相关。

若r=0，表示两个变量之间无线性相关，即零相关。

按Option按键，如图19

图19

，注意，这二个选择是Pearson才有

在Statistics选择MeansandstandarddeviationsCross-productdeviationsandcovariances

的，如果开始只选择Spearman，则此二项不能选。

返回后，按OK如图20：

Caneditions

hetadi

YEAR,,notperiodic

MONTH,period11

hstarts

PearsenCorrelalion

.21r

.058

SigP-talled）

.012

596

SumoTSquares^ndCross-prodocU

70206759

310091

Bum

Govansnte

535929

IS066

132

底AR,notperiadi€

PearsonCorrel^hon

219'

000

Sig.（2tailed

C12

1.000

SumoTSquaresandCross-products

1104691

1320DCO

.000

Covanance

160£6

10076

ooo

132

MONTH,period12

PesrrscriCortel^lion

.058

QOO

射g.（2-Nlled）

.506

1000

SumofSquaresand

Cross-products

014.105

000

1573000

46B8

OQO

12.003

132

13Z

132

*-Correlationissignificantalthe006level②怕胆切

图20

从图20看到Year的Pearson系数为0.219,Sig值为0.012，小于P值0.05，与Hstarts显著相关，Month的Pearson系数为0.058,

Sig值为0.506，大于P值0.05，则与Hstarts不显著相关。

从下图21的Spearman也同样得到相同的结论。

VEAR.nul

P&HO0IC

MONTHpenod12

Spearman'srhohstarts

Corr^l-ationCoefficient

iJOC

Sig（J'taiFed）

.024

血

，

132

YEAR.nulpEmQcht

阳1拭忖rrCo已n^igrtt

1GOO

000

Sig（J-taiiediJ

014

1000

132

MOMDHperiod12

CorrelationCoefficienl

Q44

DOC

1.000

Sig（2-hikd}

6ie

1DOG

132

t32

132

*CurrElationiw^igniil-anfstlh?

0iflevel（2-tailed）

图21

2.回归

图22

把hatarts选入Dependents选项，Independent选择Time,Models选择（Linear）线性回归，（Quadratic）二次曲线回归，（Cubic）

三次曲线回归，（Exponential）指数回归，选择Includeconstantinequation表示方程式有常数项，Plotmodels则表示用图表示，

然后按OK出现图23

■

Mudtl£unnm6ff

uri

CCng!

|.irt|

Linear

680?

oto

TD430

ZE掀

OGl

tSflJ

129

641T1

415

-jOtd

Cijtibe

10923

l»

S7刚

4.MF

039

5227

I3Q

（J2i

es2»

GD2

图23

线性方程：

Y=70.430.135X

二次曲线方程：

Y=64.1710.415X-0.02X

三次曲线方程：

Y=87.68-1.667X0.037X（0X）

指数曲线方程：

Y=68.229xe0.002

从Sig值判断，都小于0.05，都接受回归成立，这样，只能从R拟合度和F值较大来判断三次曲线方程的拟合程度比较高。

注意，如果方程成立的话，想要增加预测，则可以在Save选项中选择PredictedValues一项，如果还想预测未来的数值，则可以在原

表上增加若干行（如1行），然后选择Predic

展开阅读全文