《统计信息应用软件》上机试验指导书SPSS精Word文档格式.docx
《《统计信息应用软件》上机试验指导书SPSS精Word文档格式.docx》由会员分享,可在线阅读,更多相关《《统计信息应用软件》上机试验指导书SPSS精Word文档格式.docx(29页珍藏版)》请在冰豆网上搜索。
0314女81899188910332女8168788881
0315女55848691840333男6771906872
0316女64757478890334女7876819179
0317男61666870800335男8581728969
0318女缺考545868720336女8891727692
(1定义缺失值。
(2计算个人平均成绩,按平均分从大到小进行排序,挑选出学习成绩最好、最差的3
个同学。
(3求这5门课的平均成分和标准差。
(4将各门成绩按5级分类(优、良、中、及格和不及格贴标签,求其频数分布,查
看哪一分数段人最多。
(5将数学和物理成绩做一散点分布图。
(6将数据文件、输出结果和图形分别存盘保存。
试验二、单变量频率分配分析
通过上机试验,使学生掌握频率分配分析基本原理,熟悉频率分配分
析软件操作过程,能对软件输出结果进行分析。
某单位对100名健康女大学生测定了血清蛋白含量(serum,克/升如
下表所示。
试做单变量频率分配分析并作直方图。
74.378.868.878.070.480.580.569.771.273.579.575.675.078.872.072.072.074.371.272.075.073.578.874.375.865.074.371.269.768.073.575.072.064.375.880.369.774.373.573.575.875.868.876.570.471.281.275.070.468.074.072.076.574.376.577.667.372.075.074.373.579.573.574.765.076.581.675.472.772.737.276.572.770.477.268.867.367.367.372.775.873.575.072.773.573.572.781.670.374.373.579.570.476.572.777.284.375.076.570.4
实验分析:
频率分配表
FrequencyPercentValidPercentCumulativePercent
Valid65以下33.03.03.065-701313.013.016.0
70-754646.046.062.0
75-803131.031.093.0
80以上77.07.0100.0
Total100100.0100.0
从以上频数分布表中可以知道,100名健康女大学生血清蛋白含量在65克/升的占3%,65-70克/升的占13%,70-75克/升的占46%,75-80克/升的占31%,80克/升以上的占7%。
区间
5.0
4.0
3.0
2.0
1.0
5040302010
0Std.Dev=.88Mean=3.3
N=100.00
1、65克/升以下
2、65-70克/升
3、70-75克/升
4、75-80克/升
5、80克/升以上
从以上直方图可以看出100名健康女大学生血清蛋白含量基本上与正态曲线一致,这说明,健康女大学生血清蛋白含量基本合理。
试验三、T-TEST过程
通过上机试验,使学生掌握T-TEST过程基本原理,熟悉T-TEST过程
分析软件操作过程,能对软件输出结果进行分析。
10个病号每人都做了3种不同的减肥治疗。
下面的数据和命令用来表示体重减轻的变化情况(单位:
公斤/月。
ID(个案号T1(治疗1T2(治疗2T3(治疗3
01
1.351.271.33021.281.311.26031.40
2.052.01041.281.371.32051.361.271.3506.991.321.48071.651.581.73081.011.081.21091.151.181.6610
1.33
1.34
1.32
1、请用SPSS的T-TEST过程,检验治疗1于治疗3,治疗2于治疗3之间体重变化的“均值相等的原假设”。
2、创建一个新变量T,它等于治疗1于治疗3体重减轻之差,并使用Frequencies过程。
试比较1题与2题的结果。
计算变量T的均值、标准偏差和标准误差。
1、由于三种减肥治疗效果具有相关性,因此采用配对样本
T检验。
Analyze菜单中选择comparemeans,进而选择paired-samplesTtest。
分别将T1与T3同时选入pairedvariables栏,然后将T2与T3同时选入,确定。
得结果:
T-Test
表1
PairedSamplesStatistics1.280010.19408.061371.467010.25517.080691.377010.26940.085191.4670
10
.25517
.08069
治疗1治疗3Pair1治疗2治疗3
Pair2
MeanN
Std.Deviation
Std.ErrorMean
表2
PairedSamplesCorrelations
10.396.25710
.814
.004
治疗1&
治疗3Pair1治疗2&
治疗3
N
Correlation
Sig.
表3
PairedSamplesTest-.1870.25202.07969-.3673-.0067-2.3469.044-.0900
.16035.05071
-.2047.0247
-1.7759
.110
治疗1-治疗3Pair1
治疗2-治疗3
Pair2MeanStd.Deviation
Std.ErrorMeanLowerUpper95%ConfidenceIntervaloftheDifferencePairedDifferences
tdfSig.(2-tailed
由表1可见,各类治疗方法减轻体重的平均数,标准差和标准误差。
可见治疗1的减肥效果比较稳定,治疗3次之,治疗2效果因个人身体状况不同差异较大。
由表2可见,治疗1与治疗3的相关性不明显(Sig值=0.257>
0.05,未通过显著性检验,而治疗2与治疗3的效果比较相似,呈现较强的相关性(Sig值=0.004<
0.05,通过显著性检验。
由表3可见,治疗1与治疗3的效果之间存在明显的差别,它通过了T检验(Sig值=
0.044<
0.05,通过显著性检验,而治疗2与治疗3的效果比较相似,没有显著差别(Sig值=0.110>
0.05,未通过显著性检验,可见与表2得出的结论一致。
2、通过transform中的compute菜单可计算得到新变量T,通过frequencies程序结果如下:
Statistics
T100-.1870.07969.25202
ValidMissing
Mean
Std.ErrorofMeanStd.Deviation
由上表可见新变量T的平均值为-0.187,标准误差为0.07969,标准差为0.25202。
与第一题的结果比较可见,T的均值、标准误差和标准差与第一题中的治疗1与治疗3配对T检验的结果一致,可见配对样本T检验的原假设是将两样本之差与0比较,H0:
X1-X2=0,H1:
X1-X2≠0,其中t=mean
ESmean
..。
练习题:
1、用大白鼠配成八对,每对分别喂以正常饲料和缺乏维生素E饲料,过一段时间,测得两组大白鼠肝中维生素A的含量如下:
大白鼠对号正常饲料组缺乏维生素E饲料组
123456783550
2000
3000
3950
3800
3750
3450
3050
2450
2400
1800
3200
3250
2700
2500
1750
试比较两组维生素A含量有无差别?
2、用某药物治疗不同病情的老年慢性支气管炎病人,疗效如下表。
某药疗效数据:
疗效单纯性单纯性合并肺气肿
控制6542
显效186
有效3023
无效1311
试比较两种病情的疗效?
试验四、聚类分析
通过上机试验,使学生掌握聚类分析的基本原理,熟悉快速聚类分析与分层聚类分析操作过程,能对软件输出结果进行分析。
实验题目1:
快速聚类分析
某集团公司为研究下属不同企业的经营特点,调查了20个企业的盈利能力、领导才干、组织文化和员工发展等4项指标(变量,将这20个企业按照各自的特点分成4种类型。
数据表:
ClusterMembership
A314.361
B211.785
C39.014
D27.993
E216.415
F19.718
G110.541
H215.366
I317.500
J24.082
K312.162
L313.769
M49.682
N49.682
O28.819
P314.361
Q112.693
R29.860
S213.540T
2
12.910
CaseNumber1234567891011121314151617181920
企业Cluster
Distance
FinalClusterCenters
78876388538362806381825867
78
77
63
盈利能力领导才干组织文化员工发展
1
234Cluster
DistancesbetweenFinalClusterCenters
37.66327.50029.09537.66332.89628.32127.50032.89641.783
29.095
28.321
41.783
Cluster1234
1234
NumberofCasesineachCluster3.0009.0006.0002.00020.000.000
Cluster
(1第一类的企业有F、G和Q,盈利能力比较强,其他方面相对较弱;
第二类的企业有B、D、E、H、J、O、R、S和T,各方面的能力比较平衡,综合能力强;
第三类的企业有A、C、I、K、L和P,组织文化和员工发展比较突出;
第四类的企业有M和N,盈利能力和领导才干比较强。
(2每一例的各案数(Numbersofcaseineachcluster,可见3例在第一类中,9例在第二类中,6例在第三类中,2例在第四类中。
(3最终聚类中心间的距离(distancesbetweenfinalclustercenters,即4种聚类中心两两间的欧氏距离。
第一类到第二类的距离是37.663,第一类到第三类的距离是27.500,第一类到第四类的距离是29.095,第二类到第三类的距离是32.896,第二类到第四类的距离是28.321,第三类到第四类的距离是41.783。
实验题目2:
分层聚类分析
为了研究世界各国森林、草原资源的分布规律,共抽取了21个国家的数据,每个国家4项指标,原始数据见表1。
试用该数据对国别进行聚类分析。
国别森林面积
(万公顷森林覆盖率(%林木蓄积量
(亿立方米
草原面积
(万公顷
中国11978.0012.5093.5031908.00美国28446.0030.40202.0023754.00日本2501.0067.2024.8058.00
德国1028.0028.4014.00599.00英国210.008.601.501147.00法国1458.0026.7016.001288.00意大利635.0021.103.60514.00加拿大32613.0032.70192.802385.00澳大利亚10700.0013.9010.5045190.00前苏联92000.0041.10841.5037370.00捷克458.0035.808.90168.00波兰868.0027.8011.40405.00匈牙利161.0017.402.50129.00南斯拉夫929.0036.3011.40640.00罗马尼亚634.0026.7011.30447.00保加利亚385.0034.702.50200.00印度6748.0020.5029.001200.00印度尼西2180.0084.0033.701200.00尼日利亚1490.0016.10.802090.00墨西哥4850.0024.6032.607450.00巴西57500.0067.60238.0015900.00
由于是对个案聚类,采用R型聚类。
在数据编辑器中打开该数据文件,运行结果如下:
表1:
样本总体统计结果:
CaseProcessingSummary(a,b
Cases
ValidMissingTotal
NPercentNPercentNPercent
21100.00.021100.0
aSquaredEuclideanDistanceused
bAverageLinkage(BetweenGroups
表2:
聚结表
AgglomerationSchedule
Stag
eClusterCombinedCoefficient
s
StageCluster
FirstAppearsNextStage
1Cluster
17154580.650006
211166395.170005
341411551.170004
441261130.68
5306
5111372812.905207
64
7114992.105417
7411410706.019659
8618532624.5800010
945871022.4757011
10619959232.1108011
11462810959.03091012
12343764010.61301113
13
31734176880.90
12014
14
32060118208.16
9
13018
15
19178051698.9
60
0018
16
28473998139.9
30
0017
17
221853922083.4
45
16019
18131542260836.151419
373
19
121829449692.
582
181720
20
1108299084550.
993
1900
表3:
冰柱图(省去
图4:
树状图
******HIERARCHICALCLUSTERANALYSIS******DendrogramusingAverageLinkage(BetweenGroups
RescaledDistanceClusterCombine
CASE0510152025
LabelNum+---------+---------+---------+---------+---------+
意大利7⇩ø
罗马尼亚15⇩▫
德国4⇩▫
南斯拉夫14⇩▫
波兰12⇩▫
捷克11⇩▫
保加利亚16⇩▫
匈牙利13⇩▫
英国5⇩▫
法国6⇩▫
印度尼西18⇩▫
尼日利亚19⇩▫
日本3⇩⇳⇩⇩⇩⇩⇩⇩⇩ø
印度17⇩▫▫⇩ø
墨西哥20⇩÷
⇔⇔
中国1⇩✗⇩⇩⇩⇩⇩⇩⇩÷
▫⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩ø
澳大利亚9⇩÷
美国2⇩⇩⇩✗⇩ø
加拿大8⇩⇩⇩÷
▫⇩⇩⇩⇩⇩÷
⇔
巴西21⇩⇩⇩⇩⇩÷
前苏联10
⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩÷
试验五、因子分析
通过上机试验,使学生掌握因子分析的基本原理,熟悉因子分析操作
过程,能对软件输出结果进行分析。
选择10名游泳选手作为受试者,观察他们的气力、耐力、速度和协调
4方面,所得测验成绩如表5所示。
试分析这4项体能的共同因素。
表5
1(气力
2(耐力
3(速度
4(协调
12345678910
1199862512151
98111356711126
7115156944114
4134141198
5136
CorrelationMatrix
1.000.796.379.24
2.7961.000.561.311.379.5611.000.826.242
.311
.826
1.000
气力耐力速度协调
气力耐力
速度
协调
KMOandBartlett'
sTest
.52221.111
6.002
Kaiser-Meyer-OlkinMeasureofSamplingAdequacy.
Approx.Chi-SquaredfSig.
Bartlett'
sTestofSphericity
TotalVarianceExplained
2.56964.23264.2322.56964.23264.2321.83445.85745.8571.09227.30491.5351.09227.30491.535
1.82745.67991.535
.2375.92697.462.1022.538100.000
Compone
nt1234
Total%ofVarianceCumulat
ive%Total%ofVarianceCumulat
ive%InitialEigenvalues
ExtractionSumsofSquared
LoadingsRotationSumsofSquared
LoadingsExtractionMethod:
PrincipalComponentAnalysis.
ScreePlot
ComponentNumber
4
3
Eigenvalue
2.5
1.5
.5
0.0
ComponentMatrixa
.750.582.838.450.870-.409.740
-.619
2ComponentExtractionMethod:
PrincipalComponentAnalysis.2componentsextracted.a.
RotatedComponentMatrixa
.942.116.912.272.328.904.088
.960
PrincipalComponentAnalysis.RotationMethod:
VarimaxwithKaiserNormalization.Rotationconvergedin3iterations.
a.
答:
对于10名游泳选手的因素:
“气力”,“耐力”,“速度”,“协调”,经过转轴后,可看出气力和耐力为一类,将其命名为“体能因子”,速度和协调为一类,将其命名为“致胜因子”,所以经过分析可以分为以上两个因子。