spss的数据分析报告.docx
《spss的数据分析报告.docx》由会员分享,可在线阅读,更多相关《spss的数据分析报告.docx(13页珍藏版)》请在冰豆网上搜索。
spss的数据分析报告
关于某地区361个人旅游情况统计分析报告
一、数据介绍:
本次分析的数据为某地区361个人旅游情况状况统计表,其中共包含七变量,分别是:
年龄,为三类变量;性别,为二类变量〔0代表女,1代表男〕;收入,为一类变量;旅游花费,为一类变量;通道,为二类变量〔0代表没走通道,1代表走通道〕;旅游的积极性,为三类变量〔0代表积极性差,1代表积极性一般,2代表积极性比较好,3代表积极性好4代表积极性非常好〕;额外收入,一类变量.通过运用spss统计软件,对变量进行频数分析、描述性统计、方差分析、相关分析、...以了解该地区上述方面的综合状况,并分析个变量的分布特点与相互间的关系.
二、数据分析
1、频数分析.基本的统计分析往往从频数分析开始.通过频数分地区359个人旅游基本状况的统计数据表,在性别、旅游的积极性不同的状况下的频数分析,从而了解该地区的男女职工数量、不同积极性况的基本分布.
统计量
积极性
性别
N
有效
359
359
缺失
0
0
首先,对该地区的男女性别分布进行频数分析,结果如下
性别
频率
百分比
有效百分比
累积百分比
有效
女
198
55.2
55.2
55.2
男
161
44.8
44.8
100.0
合计
359
100.0
100.0
表说明,在该地区被调查的359个人中,有198名女性,161名男性,男女比例分别为44.8%和55.2%,该公司职工男女数量差距不大,女性略多于男性.
其次对原有数据中的旅游的积极性进行频数分析,结果如下表:
积极性
频率
百分比
有效百分比
累积百分比
有效
差
171
47.6
47.6
47.6
一般
79
22.0
22.0
69.6
比较好
79
22.0
22.0
91.6
好
24
6.7
6.7
98.3
非常好
6
1.7
1.7
100.0
合计
359
100.0
100.0
其次对原有数据中的积极性进行频数分析,结果如下表:
其次对原有数据中的是否进通道进行频数分析,结果如下表:
Statistics
通道
N
Valid
359
Missing
0
通道
Frequency
Percent
ValidPercent
CumulativePercent
Valid
没走通道
293
81.6
81.6
81.6
通道
66
18.4
18.4
100.0
Total
359
100.0
100.0
表说明,在该地区被调查的359个人中,有没走通道的占81.6%,占绝大多数.
上表与其直方图说明,被调查的359个人中,对与旅游积极性差的组频数最高的,为171人数的47.6%,其次为积极性一般和比较好的,占比例都为22.0%,积性为好的和非常好的比例比较低,分别为24人和6人,占总体的比例为6.7%和1.7%.
2、探索性数据分析
(1)交叉分析.
通过频数分析能够掌握单个变量的数据分布情况,但是在实际分析中,不仅要了解单个变量的分布特征,还要分析多个变量不同取值下的分布,掌握多个变量的联合分布特征,进而分析变量之间的相互影响和关系.就本数据而言,需要了解现工资与性别、年龄、受教育水平、起始工资、本单位工作经历、以前工作经历、职务等级的交叉分析.现以现工资与职务等级的列联表分析为例,读取数据〔下面数据分析表为截取的一部分〕:
Count
性别*积极性交叉制表
计数
积极性
合计
差
一般
比较好
好
非常好
性别
女
96
47
41
12
2
198
男
75
32
38
12
4
161
合计
171
79
79
24
6
359
上联表与BarChart涉与两个变量,即性别与积极性的二维交叉,反映了在不同的性别对于旅游积极性分布情况.上表中,性别成为行向量,积极性列向量.
〔2〕性别与收入的探索性分析
性别
CaseProcessingSummary
性别
Cases
Valid
Missing
Total
N
Percent
N
Percent
N
Percent
收入
女
198
100.0%
0
.0%
198
100.0%
男
161
100.0%
0
.0%
161
100.0%
Descriptives
性别
Statistic
Std.Error
收入
女
Mean
1005.28562
49.514796
95%ConfidenceIntervalforMean
LowerBound
907.63853
UpperBound
1102.93272
5%TrimmedMean
957.92011
Median
937.50000
Variance
485439.577
Std.Deviation
696.734940
Minimum
7.426
Maximum
3125.000
Range
3117.574
InterquartileRange
937.563
Skewness
.896
.173
Kurtosis
.310
.344
男
Mean
1066.92791
65.993219
95%ConfidenceIntervalforMean
LowerBound
936.59779
UpperBound
1197.25802
5%TrimmedMean
986.95497
Median
937.50000
Variance
701171.907
Std.Deviation
837.360082
Minimum
58.630
Maximum
6250.000
Range
6191.370
InterquartileRange
718.750
Skewness
2.370
.191
Kurtosis
10.166
.380
〔3〕p-p图分析
Age
结果分析
年龄在正态p-p图的散点近似成一条直线,无趋势正态p-p图的散点均匀分布在直线y=0的上下,故可认为本资料服从正态分布
3、相关分析.相关分析是分析客观事物之间关系的数量分析法,明确客观事
之间有怎样的关系对理解和运用相关分析是极其重要的.
函数关系是指两事物之间的一种一一对应的关系,即当一个变量X取一定值时,另一个变量函数Y可以根据确定的函数取一定的值.另一种普遍存在的关系是统计关系.统计关系是指两事物之间的一种非一一对应的关系,即当一个变量X取一定值时,另一个变量Y无法根据确定的函数取一定的值.统计关系可分为线性关系和非线性关系.
事物之间的函数关系比较容易分析和测度,而事物之间的统计关系却不像函数关系那样直接,但确实普遍存在,并且有的关系强有的关系弱,程度各有差异.如何测度事物之间的统计关系的强弱是人们关注的问题.相关分析正是一种简单易行的测度事物之间统计关系的有效工具.
Correlations
收入
旅游花费
额外收入
收入
PearsonCorrelation
1
.140**
.853**
Sig.<2-tailed>
.008
.000
N
359
359
359
旅游花费
PearsonCorrelation
.140**
1
.183**
Sig.<2-tailed>
.008
.000
N
359
359
359
额外收入
PearsonCorrelation
.853**
.183**
1
Sig.<2-tailed>
.000
.000
N
359
359
359
**.Correlationissignificantatthe0.01level<2-tailed>.
上表是对本次分析数据中,旅游花费、收入、、额外收入的相关分析,表中相关系数旁边有两个星号〔**〕的,表示显著性水平为0.01时,仍拒绝原假设.一个星号〔*〕表示显著性水平为0.05是仍拒绝原假设.先以现旅游花费这一变量与其他变量的相
关性为例分析,由上表可知,旅游花费与额外收入的相关性最大,
5.回归分析
有相关性分析可得收入,旅游花费呈线性相关,因此作回归分析
VariablesEntered/Removedb
Model
VariablesEntered
VariablesRemoved
Method
1
收入a
.
Enter
a.Allrequestedvariablesentered.
b.DependentVariable:
旅游花费
ModelSummaryb
Model
R
RSquare
AdjustedRSquare
Std.ErroroftheEstimate
1
.140a
.020
.017
129.604
a.Predictors:
,收入
b.DependentVariable:
旅游花费
ANOVAb
Model
SumofSquares
df
MeanSquare
F
Sig.
1
Regression
120443.809
1
120443.809
7.170
.008a
Residual
5996596.239
357
16797.188
Total
6117040.048
358
a.Predictors:
,收入
b.DependentVariable:
旅游花费
Coefficientsa
Model
UnstandardizedCoefficients
StandardizedCoefficients
t
Sig.
B
Std.Error
Beta
1
91.563
11.528
7.943
.000
收入
.024
.009
.140
2.678
.008
a.DependentVariable:
旅游花费
ResidualsStatisticsa
Minimum
Maximum
Mean
Std.Deviation
N
PredictedValue
91.74
241.90
116.41
18.342
359
Std.PredictedValue
-1.345
6.842
.000
1.000
359
StandardErrorofPredictedValue
6.840
47.362
9.048
3.426
359
AdjustedPredictedValue
92.09
271.79
116.53
19.018
359
Residual
-193.904
891.785
.000
129.423
359
Std.Residual
-1.496
6.881
.000
.999
359
Stud.Residual
-1.607
6.891
.000
1.002
359
DeletedResidual
-223.789
894.316
-.117
130.229
359
Stud.DeletedResidual
-1.611
7.390
.004
1.025
359
Mahal.Distance
.000
46.811
.997
2.955
359
Cook'sDistance
.000
.199
.003
.015
359
CenteredLeverageValue
.000
.131
.003
.008
359
a.DependentVariable:
旅游花费
Charts
由上图可知回归方程:
y=91.563+0.024,<0.01>
即旅游花费=91.563+0.024*收入
6单样本T检验
首先对现工资的分布做正态性检验,结果如下:
由上图可知,现工资的分布可近似看作符合正态分布,现推断现工资变量的平均值是否为$3,000,0,因此可采取单样本t检验来进行分析.分析如下:
One-SampleStatistics
单个样本统计量
N
均值
标准差
均值的标准误
收入
359
1032.93021
762.523942
40.244474
单个样本检验
检验值=0
t
df
Sig.<双侧>
均值差值
差分的95%置信区间
下限
上限
收入
25.666
358
.000
1032.930214
953.78493
1112.07550
由One-SampleStatistics可知,359个被调查的人中收入平均值1032.93021
标准差为762.523942,均值标准误差为40.244474.图表One-SampleTest中,第二列是t统计量的观测值为25.666;第三列是自由度为358〔n-1〕;第四列是t统计量观测值的双尾概率值;第五列是样本均值和检验值的差;第六列和第七列是总体均值与原假设值差的95%的置信区间为〔953.78493,1112.07550〕.该问题的t值等于25.666对应的临界置信水平为0,远远小于设置的0.05,因此拒绝原假设,表明该地区被调查的359名人中收入与1032.93021
存在显著差异.
7,独立样本t检验
T-Test
GroupStatistics
性别
N
Mean
Std.Deviation
Std.ErrorMean
旅游花费
女
198
126.09
149.533
10.627
男
161
104.51
102.187
8.053
IndependentSamplesTest
Levene'sTestforEqualityofVariances
t-testforEqualityofMeans
95%ConfidenceIntervaloftheDifference
F
Sig.
t
df
Sig.<2-tailed>
MeanDifference
Std.ErrorDifference
Lower
Upper
旅游花费
Equalvariancesassumed
6.302
.013
1.559
357
.120
21.580
13.844
-5.647
48.806
Equalvariancesnotassumed
1.618
347.241
.106
21.580
13.334
-4.645
47.805
结果分析
得到两组的均数〔mean〕分别为198和161
独立样本t检验,取的t值1.559与Sig为0.120p>0..05
旅游花费不成显著性差异,由图中可知旅行的旅游花费较高.