SPSS学习笔记很全.docx
《SPSS学习笔记很全.docx》由会员分享,可在线阅读,更多相关《SPSS学习笔记很全.docx(32页珍藏版)》请在冰豆网上搜索。
![SPSS学习笔记很全.docx](https://file1.bdocx.com/fileroot1/2023-1/21/ca7ab320-b639-4901-ae9a-f214e093e94a/ca7ab320-b639-4901-ae9a-f214e093e94a1.gif)
SPSS学习笔记很全
SPSS学习笔记
描述样本数据
一般的,一组数据拿出来,需要先有一个整体认识。
除了我们平时最常用的集中趋势外,还需要一些离散趋势的数据。
这方面EXCEL就
能一次性的给全了数据,但对于SPSS就需要用多个工具了,感觉上表格方面不如EXCEL好用。
个人感觉,通过描述需要了解整体数据的集中趋势和离散趋势,再借用各种图观察数据的分布形态。
对于SPSS提供的OLAFCubes(在线
分析处理表),CaseSummary(观察值摘要分析表),Descriptives(描述统计)不太常用,反喜欢用Frequencies(频率分析),BasicTable(基本报表),Crosstabs(列联表)这三个,另外再配合其它图来观察。
这个可以根据个人喜好来选择。
1.使用频率分析(Frequencies)观察数值的分布。
频率分布图与分析数据结合起来,可以更清楚的看到数据分布的整体情况。
以自带文件Trendschapter13.sav为例,选择Analyze->DescriptiveStatistics->Frequencies,把hstarts选入Variables,取消
在DisplayFrequencytable前的勾,在Chart里面histogram,在Statistics选项中如图1
图1
分别选好均数(Mean),中位数(Median),众数(Mode),总数(Sum),标准差(Std.deviation),方差(Variance),范围(range),最小值
(Minimum),最大值(Maximum),偏度系数(Skewness),峰度系数(Kutosis),按Continue返回,再按OK,出现结果如图2
Shitistics
hstarts
N
/and
132
Missing
0
Mean
7940616
Median
79.30500
Mode
927S2
Std.Deviation
21150190
Variance
535929
Skewne吕w
1S7
Std.ErrorofSkewtess
211
Kurtosis
-.368
Std.ErrorafKurtosis
419
Range
101004
Minimum
33363
Maximum
135.167
Sum
1048T613
图2
0,则数据基本接
表中,中位数与平均数接近,与众数相差不大,分布良好。
标准差大,即数据间的变化差异还还小。
峰度和偏度都接近
近于正态分布。
下面图3的频率分布图就更直观的观察到这样的情况
HiwB口R1IT1
2.采用各种图直观观察数据分布情况,如采用柱型图观察归类的比例等
同样以自带文件Trendschapter13.sav为例,我们可以观察一下各年的数据总和的对比:
「选择Graph->Bar->Simple,在“Datainchartare”一项选择Summaryofgroupsofcases,然后按Define,出现图4,
护亦HEI厂
FQRMA7MF
IOKiJE眄I目M**I
Qmi
HW
■incSimpIbBnr:
SuuaiitrirforCro口o-fCiitbji
2.选择BarsRepresent->Otherstatistic(e.g.mean),把hstarts一项选入Variable里面,把YEAR,Periodic—项选入CategoryAxis
项中,并按ChangeStatistic键,出现图5:
Meirtcivaiue?
'躍m・・u・mm・・H・rTraM“*
■''Med^nofvdues厂Mo^eo*values
Numtierolca^es
■'"5t』rtd炮ddavislicn广yartante
广Miaimuffiv^ue
'Mawnumv^lut
CuiTMjfaflivesym
「Nurmbeiilwve
'忖umber^ehw
「Percifliigeafcov^
Ptr^er^agebelowCPercentile
Percentogeinside
图5
3.在Statistic选项中选Sumofvalues一项,按Continue返回,按OK即可出现图6:
1400000-
12OTOT0-
100000C-
400000
200000-
OJOOO-
IKS1陳1«719&31S7019711S721&711»741975
YEAJR,notperiodic
sluBwllurn仍
通过列联表来观察,数据的交错关系。
来说明
以软件自带的文件UniversityofFloridagraduatesalaries.sav
1、选择Tables->BasicTable,在弹出对话框中,选择Graduate至USummaries栏,College至UDown,Gender到Across栏,如图7
2、选择Statistics按键,选取Count和layer%至UCellStatistics一栏,并按Continue键,如图8
SwtirigbyCeRCom*
■'*'Norte''Descending''Ascending
Ba^icTable?
:
Stat1stics
SratiJic:
Row%3當T4bte«M^nriumMewMedianMinimumMode
匸EFi:
&Flr|-^
ddddd
Famat
三、选择Layout按键,选择SummaryvariableLabels->lnseparatelabels(汇总的标签,如本例的Graduate,放在表外),Statistics
Labels->Acrosstop(数据的标签横放在顶部,如本例的Count和Layer%),并在Labelgroupswithvaluelabelsonly前选择打勾(表
示只需要具体的标签名就可以,不需要汇总名,如本例Gender和College),如图9
图10
提示,需要什么表格形式可以根据要求来调整,但对输出按键都需要熟悉,多尝试几次就可以看出不同的区别。
图11为输出的表格
Female
Mala
GroupToJai
Count
Layer%
Count
Lay&r抵
Cduhl
La理r%
A^rfcuihiH
271
246%
U4
131%
415
377%
Archltdtin
2
2%
6
7%
10
9%
BuHdlnQ/Cofrifruction
4
4%
51
46%
55
50%
Eutlfi峙営Adrriftl^iratiQn
u.t%
172%
322
293%
FMtiry
1
1
1%
2
2%
Education
12
11%
1
1%
n
12%
EnginEenng
45
4.1%
河
215%
asi
FinsArts
1
1%
1
1%
2
J%
GroupYOC»I
469
4們
S31
57忤
1100
iaoa%
图11
重要提示:
如果结果变成变量的汇总(SUM,则先选择Data->WeightCases,把Graduate的选项先选入WeightCasesby内,再选回
DonotweightCases,按OK即可。
对于其他带有编号的一项都可以这样做。
这一点不知为何,本人屡次试过总需要这样调整。
参考图
12
图12
几种常用的统计方法应用
一般来说,最最常用的统计分析有假设检验和回归分析,在SPSS中也有很好的对应工具来做这些分析,但对其基本思路和要求都必须了
解,这样才能更灵活的发挥。
下面抄录《EXCELS市场调查中的应用》一书中关于这方面的内容:
1.假设检验
目的:
是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。
基本思想:
小概率反证法思想。
即P<0.01或P<0.05在一次试验中基本不会生发。
反证法思想是先提出假设(检验假设Ho),再用适当
的统计方法确定假设成立的可能性大小,如果可能性小,则认为假设不成立,否则,还不能认为假设不成立。
方法:
t检验,u检验,秩和检验,卡方检验
应用条件:
A、各组资料具有可比性
B、具正态分布
C、方差齐性(即先作F检验,如F0.1,具方差齐性)
2.方差分析
目的:
又称为变异系数分析或F检验。
用于推断两组或多组资料的总体平均数是否相同,检验两个或多个样本平均数的差异是否具有统
注1
计意义(也可认为是检验多个总体均值是否有显著性差异,这样可能更简单一点)。
基本思想:
用组内均方去除组间均方的商,即F值,与1比较,若F值接近1,则说明各验均数间的差异没有统计学意义,否则表示有统
计学意义。
应用条件:
A、各组资料具有可比性
B、具正态分布
C、方差齐性(即F检验)
提示,在应用SPSS中,只要死死的记住一个显著系数0.05就可以应用(如果是双尾系数需要除以2),一般的大于0.05接受原假设,
小于0.05则拒绝。
简单的说,一般结果拒绝就是说样本有差异,样本相对独立,都是表示同一种意思,读这方面书的时候,希望不要让
这些名词混乱了思路。
SPSS的方差检验中,需要注意下面问题:
方差检验中,PostHoc键有LSD的选项:
当方差分析F检验否定了原假设,即认为至少有两个总体的均值存在显著性差异时,须进一步
确定是哪两个或哪几个均值显著地不同,则需要进行多重比较来检验。
LSD即是一种多因变量的三个或三个以上水平下均值之间进行的两
两比较检验。
2IndependentSamples检验中的Mann-WhitneyU检验与KIndependentSamples中的Kruskal-Walllis(克鲁斯卡尔一瓦里斯)H检验
法思想类似,常用来作为非参数检验。
2RelatedSamples非参数检验中,一般有Sign普通符号检验法和Wilcoxon威尔科克森符号秩检验法。
前者用于研究的问题只有两个可
能的结果:
“是”或“非”,并且二者遵从二项分布;后者是普通符号检验法的改进,除了可以检验是非外,还可以了解差异的大小。
KRelatedSamples非参数检验中,主要有Friedman秩和检验与CochranQ检验二种选择,前者是对多个样本是否来自同一总体的检验,
而后者是用于只分为“成功”和“失败”两种结果的定类尺度测量的数据。
附录:
SPSS假设检验方法使用对照表
—..
菲參数检虫1鲁注
例于
Otw二:
setItT宅M
Chi
1MBplel-S
忑十只■:
•因串,闿2
■干:
嘛的砒?
TBSM人锻囲唁才橙■.如
如則划霜”匪碎er.
5只―?
.Wi尼¥4印可心遍二璋时«瞌则楓11齢;时冏关门购禹亠龙比时霊富认可翔>断.
禺组时出匚也丽『加侶
I
11
2
囲■出ENhl幣刖应址
七殊遇口汽军曲两老调壷ttK車取自国总
-
Pai**
I
Rf于2IW.•甲甸
參Ml*碎
One职期
K
対Th
丄悼万他由宅宝齐広的律立亢%
□rdvArii
1
时于K一觀用
PiijHwiiiiLCecliFWb
月于
用巧虑那斯人賢J!
值堪
图13
其中相关、配对或有交互作用可以理解为EXCEL勺重复,独立或无交互作用可以理解为EXCEL中的无重复。
图13表大部分参考《数据分
析与SPSS应用》一书,特别说明
3.回归分析
目的:
研究一个变量Y与其它若干变量X之间的一种数学工具。
它是一组试验或观测数据的基础上,寻找被随机性掩盖的变量之间的依
存关系。
A.直线回归方程Yc=abX
B.回归关系的检验:
求回归方程在总体中是否成立,即是否样本代表的总体也有直线回归关系。
a.方差分析:
基本思想是将总变异分解为SS回归和SS乘余,然后利用F检验来判断方程是否成立。
b.t检验:
基本思想是利用样本回归系数b与总体平均数回归系数进行比较来判断回归方程是否成立。
下面摘录《数据分析与SPSS应用》一书关于相关回归和时间序列分析一些概念解释。
数据变量间主要存在二类关系:
一类是函数关系,一类是相关关系。
前者是变量间有确定关系,即一个变量的值能够在其他变量取值确定的情况下,按某种函数关系唯一确定;后者是变量间虽然具有的联系,并非确定关系,如价格与销量量,价格高了,销售量可能会上去,但无法确定销售量是多少。
通过散点图来观察,如果点都集中在一条直线附近,是线性相关,如果在一条曲线附近,则为非线性相关。
如果一个变量因另一个变量的增加而增加,减少而减少,则二个变量间存在正相关关系,反之则为负相关关系。
极端的相关是完全相关和零相关。
如某地区购买自行车多少与购买大蒜多少无关,是为零相关。
按我的理解,相关分析就是推断变量与变量之间关系的密切程度,回归就是在相关的基础上,找出变量间的拟合模型,从而进一步推测出未来的趋势和变量。
而时间序列则是以时间的作为观察的序列,来推断变量间的关系的一种模型。
以自带文件Trendschapter13.sav为例,说明一下如何应用这三种分析工具。
14
1.相关打开Trendschapter13.sav文件,可以看到,这个文件的数据是以时间来排序的,在每个值前增加一行序列号变量,如图
ID
hstarts
year
date
1
52149
1965
1
JAN1965
2
47.205
1965
2|FEB1965
3
82150
—1965
3
MM!
1%5
4
WO931
1965
4
APR1965
5
98400
1965
5
MAY19S5
6
97.351
1965
6
JUN1965
7
96.409
1965
7
JUL196门
8
88830
1965
8
AUG1965
9
80876
1965
9
SEP1965
10
05750
1965
10
OCT1965
11
72.351
1965
11
NOV1965
12
6119B
1965
12
DEC1965
13
46-561
1966
1
JAN1966
14
50.361
196E
2
FEB1966
15
83236
1966
31
1966
16
94.343
1966
A
APR1966
rtJTjiZ
4
尸
h.JAW4
图14
一个时间序列的影响因素有四种变动:
A长期趋势(SecularTrend),B季节变动(SeasonalVariation),C循环变动(CyclicalVariation),
D不规则变动(IrregularVariation
)。
我们可以观察一下这些数据是否存在某种关系,打开Graphs->Sequenee,如图15
图15
把hstarts选入Variables项,把No.选入TimeAxisLables,然后按OK出现图16:
No
图16
从图可以看出,数据总是在一个周期内反复在上下波动,虽然高低的位置不一样,但这种波动显然是随着时间的不同而变化。
因此可以察看,因变量与时间的关系如何。
选择
Data->DefineDates,出现图17
DefineDate?
图17
在Year—栏填入1965,Month一栏填入1,表示数据从1965年1月开始计算。
选择Analyze->Correlate->Bivariate,出现图18
图18
选择Pearson和Spearman(其实只需要选Spearman就
把hstarts,Year和Month都选入Varibales选项,CorrelationCoefficients
可以,这里只是试一下,作为比较)。
注:
相关检验中有Pearson(皮尔森)相关系数和Spearman(斯皮尔曼)等级相关,前者也称皮尔森相关系数,是对两个定距变量关系
的刻画;后者是用来考察两个变量中至少有一个定序变量时的相关关系。
Zero-orderCorrelations(零阶偏听偏相关系数)是按Pearson简单相关系数公式计算得到的相关系数。
在皮尔森系数r是对两个定距变量关系的刻画:
若-1若0若R=1,则表明变量之间存在着完全正相关的关系。
>
若R=1,则表明变量之间存在着完全正相关的关系。
>
若-1若r=-1,则变量间的关系为完全负相关。
若r=0,表示两个变量之间无线性相关,即零相关。
按Option按键,如图19
图19
,注意,这二个选择是Pearson才有
在Statistics选择MeansandstandarddeviationsCross-productdeviationsandcovariances
的,如果开始只选择Spearman,则此二项不能选。
返回后,按OK如图20:
Caneditions
hetadi
YEAR,,notperiodic
MONTH,period11
hstarts
PearsenCorrelalion
1
.21r
.058
SigP-talled)
.012
596
SumoTSquares^ndCross-prodocU
70206759
310091
Bum
Govansnte
535929
IS066
N
132
132
132
底AR,notperiadi€
PearsonCorrel^hon
219'
t
000
Sig.(2tailed
C12
1.000
SumoTSquaresandCross-products
1104691
1320DCO
.000
Covanance
160£6
10076
ooo
N
132
132
132
MONTH,period12
PesrrscriCortel^lion
.058
QOO
1
射g.(2-Nlled)
.506
1000
SumofSquaresand
Cross-products
014.105
000
1573000
46B8
OQO
12.003
N
132
13Z
132
*-Correlationissignificantalthe006level②怕胆切
图20
从图20看到Year的Pearson系数为0.219,Sig值为0.012,小于P值0.05,与Hstarts显著相关,Month的Pearson系数为0.058,
Sig值为0.506,大于P值0.05,则与Hstarts不显著相关。
从下图21的Spearman也同样得到相同的结论。
VEAR.nul
P&HO0IC
MONTHpenod12
Spearman'srhohstarts
Corr^l-ationCoefficient
iJOC
Sig(J'taiFed)
.024
血
,
H2
132
132
YEAR.nulpEmQcht
阳1拭忖rrCo已n^igrtt
1GOO
000
Sig(J-taiiediJ
014
1000
hl
132
132
02
MOMDHperiod12
CorrelationCoefficienl
Q44
DOC
1.000
Sig(2-hikd}
6ie
1DOG
N
132
t32
132
*CurrElationiw^igniil-anfstlh?
0iflevel(2-tailed)
图21
2.回归
图22
把hatarts选入Dependents选项,Independent选择Time,Models选择(Linear)线性回归,(Quadratic)二次曲线回归,(Cubic)
三次曲线回归,(Exponential)指数回归,选择Includeconstantinequation表示方程式有常数项,Plotmodels则表示用图表示,
然后按OK出现图23
-:
:
■
Mudtl£unnm6ff
uri
CCng!
|.irt|
bi
Linear
-
680?
l
oto
TD430
ZE掀
OGl
tSflJ
2
129
641T1
415
-jOtd
Cijtibe
10923
3
l»
ow
S7刚
4.MF
m
039
5227
1
I3Q
(J2i
es2»
GD2
图23
线性方程:
Y=70.430.135X
2
二次曲线方程:
Y=64.1710.415X-0.02X
23
三次曲线方程:
Y=87.68-1.667X0.037X(0X)
指数曲线方程:
Y=68.229xe0.002
从Sig值判断,都小于0.05,都接受回归成立,这样,只能从R拟合度和F值较大来判断三次曲线方程的拟合程度比较高。
注意,如果方程成立的话,想要增加预测,则可以在Save选项中选择PredictedValues一项,如果还想预测未来的数值,则可以在原
表上增加若干行(如1行),然后选择Predic