数据分析实验.docx
《数据分析实验.docx》由会员分享,可在线阅读,更多相关《数据分析实验.docx(7页珍藏版)》请在冰豆网上搜索。
数据分析实验
在林业工程中,研究树干的体积Y与离地面一定高度的树干直径X1和树干高度X2之间的关系具有重要的实用意义。
1.建立数据集,定义变量并输入数据并保存。
【31棵树的相关数据】
2~4题的数据选用树干直径做分析
2.数据的描述,包括求均值、方差、中位数等统计量。
统计量
直径
N
有效
31
缺失
1
均值
13.2484
中值
12.9000
方差
9.848
3.画直方图,茎叶图,QQ图。
4.数据正态性的检验:
K—S检验,W检验
直径Stem-and-LeafPlot
FrequencyStem&Leaf
3.000.888
20.001.00011111111222333444
7.001.6677788
1.002.0
Stemwidth:
10.00
Eachleaf:
1case(s)
从上面的直方图、茎叶图、QQ图中的图形上看,数据比较好的服从正态分布,这也和下面正态性检验表中检验结果0.089>0.05结果相吻合。
正态性检验
Kolmogorov-Smirnova
Shapiro-Wilk
统计量
df
Sig.
统计量
Df
Sig.
直径
.141
31
.117
.941
31
.089
a.Lilliefors显著水平修正
从表中看,这里分别利用K-S检验和S-W检验两种方法来确定变量是否服从正态分布。
df代表自由度,Sig.代表显著性水平。
表中Sig.>0.05则代表接受假设。
5.多维正态数据的统计量。
案例处理摘要
案例
有效
缺失
合计
N
百分比
N
百分比
N
百分比
直径
31
96.9%
1
3.1%
32
100.0%
高度
31
96.9%
1
3.1%
32
100.0%
体积
31
96.9%
1
3.1%
32
100.0%
描述
统计量
标准误
直径
均值
13.2484
.56363
均值的95%置信区间
下限
12.0973
上限
14.3995
5%修整均值
13.1602
中值
12.9000
方差
9.848
标准差
3.13814
极小值
8.30
极大值
20.60
范围
12.30
四分位距
5.00
偏度
.553
.421
峰度
-.435
.821
高度
均值
76.0000
1.14441
均值的95%置信区间
下限
73.6628
上限
78.3372
5%修整均值
76.1111
中值
76.0000
方差
40.600
标准差
6.37181
极小值
63.00
极大值
87.00
范围
24.00
四分位距
8.00
偏度
-.394
.421
峰度
-.451
.821
体积
均值
30.1710
2.95232
均值的95%置信区间
下限
24.1415
上限
36.2004
5%修整均值
29.0455
中值
24.2000
方差
270.203
标准差
16.43785
极小值
10.20
极大值
77.00
范围
66.80
四分位距
19.20
偏度
1.119
.421
峰度
.773
.821
6.线性回归线的拟合,回归系数的区间估计与假设检验,回归系数的选择、逐步回归。
7.残差分析。
输入/移去的变量
模型
输入的变量
移去的变量
方法
1
高度,直径a
.
输入
a.已输入所有请求的变量。
上表是变量进入模型的基本情况。
将高度、直径全部采用。
模型汇总b
模型
R
R方
调整R方
标准估计的误差
1
.974a
.948
.944
3.88183
a.预测变量:
(常量),高度,直径。
b.因变量:
体积
对于多元线性回归模型,一般应采用其调整的决定系数来判断。
在上表中,其值为0.944,说明其拟合程度还是可以接受的。
Anovab
模型
平方和
df
均方
F
Sig.
1
回归
7684.163
2
3842.081
254.972
.000a
残差
421.921
28
15.069
总计
8106.084
30
a.预测变量:
(常量),高度,直径。
b.因变量:
体积
这是一个标准的方差分析表。
回归模型的Sig.值为0,说明该模型有显著的统计意义。
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准误差
试用版