数据分析实验报告.docx
《数据分析实验报告.docx》由会员分享,可在线阅读,更多相关《数据分析实验报告.docx(8页珍藏版)》请在冰豆网上搜索。
数据分析实验报告
第一次试验报告
习题1.3
1建立数据集,定义变量并输入数据并保存。
2数据的描述,包括求均值、方差、中位数等统计量。
分析—描述统计—频率,选择如下:
输出:
统计量
全国居民
农村居民
城镇居民
N
有效
22
22
22
缺失
0
0
0
均值
1116.82
747.86
2336.41
中值
727.50
530.50
1499.50
方差
1031026.918
399673.838
4536136.444
百分位数
25
304.25
239.75
596.25
50
727.50
530.50
1499.50
75
1893.50
1197.00
4136.75
3画直方图,茎叶图,QQ图。
(全国居民)
分析—描述统计—探索,选择如下:
输出:
全国居民Stem-and-LeafPlot
FrequencyStem&Leaf
9.000.122223344
5.000.56788
2.001.03
1.001.7
1.002.3
3.002.689
1.003.1
Stemwidth:
1000
Eachleaf:
1case(s)
分析—描述统计—QQ图,选择如下:
输出:
习题1.1
4数据正态性的检验:
K—S检验,W检验
数据:
取显着性水平为0.05
分析—描述统计—探索,选择如下:
(1)K—S检验
单样本Kolmogorov-Smirnov检验
身高
N
60
正态参数a,,b
均值
139.00
标准差
7.064
最极端差别
绝对值
.089
正
.045
负
-.089
Kolmogorov-SmirnovZ
.686
渐近显着性(双侧)
.735
a.检验分布为正态分布。
b.根据数据计算得到。
结果:
p=0.735大于0.05接受原假设,即数据来自正太总体。
(2)W检验
正态性检验
Kolmogorov-Smirnova
Shapiro-Wilk
统计量
df
Sig.
统计量
df
Sig.
身高
.089
60
.200*
.972
60
.174
a.Lilliefors显着水平修正
*.这是真实显着水平的下限。
结果:
在Shapiro-Wilk检验结果
,p=0.174大于0.05接受原假设,即数据来自正太总体。
习题1.5
5多维正态数据的统计量
数据:
统计量
x1
x2
x3
x4
N
有效
21
21
21
21
缺失
0
0
0
0
均值
18.219
27.867
4.505
33.767
均值向量为:
项间协方差矩阵
x1
x2
x3
x4
x1
3.509
2.707
1.019
1.266
x2
2.707
3.559
1.139
1.289
x3
1.019
1.139
1.998
1.740
x4
1.266
1.289
1.740
4.032
相关性
x1
x2
x3
x4
x1
Pearson相关性
1
.766**
.385
.336
显着性(双侧)
.000
.085
.136
N
21
21
21
21
x2
Pearson相关性
.766**
1
.427
.340
显着性(双侧)
.000
.054
.131
N
21
21
21
21
x3
Pearson相关性
.385
.427
1
.613**
显着性(双侧)
.085
.054
.003
N
21
21
21
21
x4
Pearson相关性
.336
.340
.613**
1
显着性(双侧)
.136
.131
.003
N
21
21
21
21
**.在.01水平(双侧)上显着相关。
结果:
x4与其他数据无相关性,其他三组数据线性相关
相关系数
x1
x2
x3
x4
Spearman的rho
x1
相关系数
1.000
.790**
.434*
.431
Sig.(双侧)
.
.000
.049
.051
N
21
21
21
21
x2
相关系数
.790**
1.000
.511*
.488*
Sig.(双侧)
.000
.
.018
.025
N
21
21
21
21
x3
相关系数
.434*
.511*
1.000
.691**
Sig.(双侧)
.049
.018
.
.001
N
21
21
21
21
x4
相关系数
.431
.488*
.691**
1.000
Sig.(双侧)
.051
.025
.001
.
N
21
21
21
21
**.在置信度(双测)为0.01时,相关性是显着的。
*.在置信度(双测)为0.05时,相关性是显着的。
结果:
由Spearman相关矩阵的输出结果看,取显着性水平0.1,p值皆小于0.1,所以数据相关性显着
习题2.4
6线性回归线的拟合,回归系数的区间估计与假设检验,回归系数的选择、逐步回归。
7残差分析
分析—回归—线性,选择如下:
输出:
逐步回归结果:
两变量的系数p值均小于0.05均有统计学意义。
结果:
由残差统计量表看出,数据无偏离值,标准差比较小,认为模型健康。
概率论课本习题7.5
8一个正态总体独立样本均值的t检验与区间估计
分析—比较均值—独立样本T检验:
输出:
One-SampleStatistics
N
Mean
Std.Deviation
Std.ErrorMean
折断力
10
2833.50
35.044
11.082
结果:
样本均值为2833.50与总体均值2820比较接近
One-SampleTest
TestValue=2820
t
df
Sig.(2-tailed)
MeanDifference
95%ConfidenceIntervaloftheDifference
Lower
Upper
折断力
1.218
9
.254
13.500
-11.57
38.57
结果:
t值为1.218小于临界值2.26,且P值为0.254大于显着性水平0.05,接受原假设,即认为样本均值与总体均值之差可能是抽样误差所导致
概率论课本习题7.7
9两个正态总体均值差异比较的t检验与配对检验
分析—均值比较—独立样本T检验,选择如下:
输出:
结果:
P值为1大于显着性水平0.05,认为方差相等。
此时,p值(Sig.(2-tailed))为0.229大于显着性水平0.05,认为样本均值是相等的,即电阻均值没有显着性差异。
分析—比较均值—配对样本T检验,选择如下:
输出:
结果同上:
认为样本均值是相等的,即电阻均值没有显着性差异。