《统计信息应用软件》上机试验指导书SPSS精.docx

上传人:b****3 文档编号:4865647 上传时间:2022-12-11 格式:DOCX 页数:29 大小:183.86KB
下载 相关 举报
《统计信息应用软件》上机试验指导书SPSS精.docx_第1页
第1页 / 共29页
《统计信息应用软件》上机试验指导书SPSS精.docx_第2页
第2页 / 共29页
《统计信息应用软件》上机试验指导书SPSS精.docx_第3页
第3页 / 共29页
《统计信息应用软件》上机试验指导书SPSS精.docx_第4页
第4页 / 共29页
《统计信息应用软件》上机试验指导书SPSS精.docx_第5页
第5页 / 共29页
点击查看更多>>
下载资源
资源描述

《统计信息应用软件》上机试验指导书SPSS精.docx

《《统计信息应用软件》上机试验指导书SPSS精.docx》由会员分享,可在线阅读,更多相关《《统计信息应用软件》上机试验指导书SPSS精.docx(29页珍藏版)》请在冰豆网上搜索。

《统计信息应用软件》上机试验指导书SPSS精.docx

《统计信息应用软件》上机试验指导书SPSS精

《统计信息应用软件上机实验指导书》

(编写人李灿

湖南商学院信息系

2005-4-10

编写说明

为了方便教师教学,提高学生运用统计信息应用软件的能力,以更好的适应信息社会对现代化定量分析人才的需求,为社会培养现代化的高级专门人才,以及更好地配合统计信息应用软件课程的案例教学改革,我在教学的过程中精心编写了此本《统计信息应用软件》上机试验指导书(SPSS12.0统计软件。

在编写的过程中得到了信息系领导龚曙明教授、欧阳资生博士以及统计学教研室各位老师的支持,在此我表示感谢。

由于时间仓促,本人水平有限,错误之处敬请各位专家学者指正,本人邮箱:

xlican@。

李灿

2004.3

目录

试验一、数据统计处理(3

试验二、单变量频率分配分析(4

试验三、T-TEST过程(6

试验四、聚类分析(9

试验五、因子分析(14

试验六、判别分析..........................................17.试验七、多元方差分析(21

试验一、数据统计处理

试验目的:

通过上机试验,使学生掌握数据统计处理基本原理,熟悉数据文件的

处理,具体包括数据的输入、数据变量的定义、数据资料的统计处理等软件操作过程,能对软件输出结果进行分析。

实验题目:

某班进行其中考试成绩分析,首先输入全班36人的学号、性别、数学、

无力、化学、外语和语文成绩,如表1所示:

存为aa.sys文件,现按以下要求操作。

表1某班期终考试成绩

学号性别数学物理化学外语语文学号性别数学物理化学外语语文

0301女88936572860319女5664667574

0302女87936878910320女59871707478

0303女82987181860321男6874767875

0304男7083缺考90920322女7168717082

0305男80887988850323女7456646884

0306男78907882880324男7684829294

0307女70807276900325男9188889490

0308男71788378940326女8791908890

0309男74747678860327男9395949688

0310男777881缺考760328男8486868892

0311男66868583850329女9092909189

0312女73707475910330男6168707482

0313男68827276760331男7675815662

0314女81899188910332女8168788881

0315女55848691840333男6771906872

0316女64757478890334女7876819179

0317男61666870800335男8581728969

0318女缺考545868720336女8891727692

(1定义缺失值。

(2计算个人平均成绩,按平均分从大到小进行排序,挑选出学习成绩最好、最差的3

个同学。

(3求这5门课的平均成分和标准差。

(4将各门成绩按5级分类(优、良、中、及格和不及格贴标签,求其频数分布,查

看哪一分数段人最多。

(5将数学和物理成绩做一散点分布图。

(6将数据文件、输出结果和图形分别存盘保存。

试验二、单变量频率分配分析

试验目的:

通过上机试验,使学生掌握频率分配分析基本原理,熟悉频率分配分

析软件操作过程,能对软件输出结果进行分析。

实验题目:

某单位对100名健康女大学生测定了血清蛋白含量(serum,克/升如

下表所示。

试做单变量频率分配分析并作直方图。

74.378.868.878.070.480.580.569.771.273.579.575.675.078.872.072.072.074.371.272.075.073.578.874.375.865.074.371.269.768.073.575.072.064.375.880.369.774.373.573.575.875.868.876.570.471.281.275.070.468.074.072.076.574.376.577.667.372.075.074.373.579.573.574.765.076.581.675.472.772.737.276.572.770.477.268.867.367.367.372.775.873.575.072.773.573.572.781.670.374.373.579.570.476.572.777.284.375.076.570.4

实验分析:

频率分配表

FrequencyPercentValidPercentCumulativePercent

Valid65以下33.03.03.065-701313.013.016.0

70-754646.046.062.0

75-803131.031.093.0

80以上77.07.0100.0

Total100100.0100.0

从以上频数分布表中可以知道,100名健康女大学生血清蛋白含量在65克/升的占3%,65-70克/升的占13%,70-75克/升的占46%,75-80克/升的占31%,80克/升以上的占7%。

区间

5.0

4.0

3.0

2.0

1.0

5040302010

0Std.Dev=.88Mean=3.3

N=100.00

1、65克/升以下

2、65-70克/升

3、70-75克/升

4、75-80克/升

5、80克/升以上

从以上直方图可以看出100名健康女大学生血清蛋白含量基本上与正态曲线一致,这说明,健康女大学生血清蛋白含量基本合理。

试验三、T-TEST过程

试验目的:

通过上机试验,使学生掌握T-TEST过程基本原理,熟悉T-TEST过程

分析软件操作过程,能对软件输出结果进行分析。

实验题目:

10个病号每人都做了3种不同的减肥治疗。

下面的数据和命令用来表示体重减轻的变化情况(单位:

公斤/月。

ID(个案号T1(治疗1T2(治疗2T3(治疗3

01

1.351.271.33021.281.311.26031.40

2.052.01041.281.371.32051.361.271.3506.991.321.48071.651.581.73081.011.081.21091.151.181.6610

1.33

1.34

1.32

1、请用SPSS的T-TEST过程,检验治疗1于治疗3,治疗2于治疗3之间体重变化的“均值相等的原假设”。

2、创建一个新变量T,它等于治疗1于治疗3体重减轻之差,并使用Frequencies过程。

试比较1题与2题的结果。

计算变量T的均值、标准偏差和标准误差。

实验分析:

1、由于三种减肥治疗效果具有相关性,因此采用配对样本

T检验。

Analyze菜单中选择comparemeans,进而选择paired-samplesTtest。

分别将T1与T3同时选入pairedvariables栏,然后将T2与T3同时选入,确定。

得结果:

T-Test

表1

PairedSamplesStatistics1.280010.19408.061371.467010.25517.080691.377010.26940.085191.4670

10

.25517

.08069

治疗1治疗3Pair1治疗2治疗3

Pair2

MeanN

Std.Deviation

Std.ErrorMean

表2

PairedSamplesCorrelations

10.396.25710

.814

.004

治疗1&治疗3Pair1治疗2&治疗3

Pair2

N

Correlation

Sig.

表3

PairedSamplesTest-.1870.25202.07969-.3673-.0067-2.3469.044-.0900

.16035.05071

-.2047.0247

-1.7759

.110

治疗1-治疗3Pair1

治疗2-治疗3

Pair2MeanStd.Deviation

Std.ErrorMeanLowerUpper95%ConfidenceIntervaloftheDifferencePairedDifferences

tdfSig.(2-tailed

由表1可见,各类治疗方法减轻体重的平均数,标准差和标准误差。

可见治疗1的减肥效果比较稳定,治疗3次之,治疗2效果因个人身体状况不同差异较大。

由表2可见,治疗1与治疗3的相关性不明显(Sig值=0.257>0.05,未通过显著性检验,而治疗2与治疗3的效果比较相似,呈现较强的相关性(Sig值=0.004<0.05,通过显著性检验。

由表3可见,治疗1与治疗3的效果之间存在明显的差别,它通过了T检验(Sig值=

0.044<0.05,通过显著性检验,而治疗2与治疗3的效果比较相似,没有显著差别(Sig值=0.110>0.05,未通过显著性检验,可见与表2得出的结论一致。

2、通过transform中的compute菜单可计算得到新变量T,通过frequencies程序结果如下:

Statistics

T100-.1870.07969.25202

ValidMissing

N

Mean

Std.ErrorofMeanStd.Deviation

由上表可见新变量T的平均值为-0.187,标准误差为0.07969,标准差为0.25202。

与第一题的结果比较可见,T的均值、标准误差和标准差与第一题中的治疗1与治疗3配对T检验的结果一致,可见配对样本T检验的原假设是将两样本之差与0比较,H0:

X1-X2=0,H1:

X1-X2≠0,其中t=mean

ESmean

..。

练习题:

1、用大白鼠配成八对,每对分别喂以正常饲料和缺乏维生素E饲料,过一段时间,测得两组大白鼠肝中维生素A的含量如下:

大白鼠对号正常饲料组缺乏维生素E饲料组

123456783550

2000

3000

3950

3800

3750

3450

3050

2450

2400

1800

3200

3250

2700

2500

1750

试比较两组维生素A含量有无差别?

2、用某药物治疗不同病情的老年慢性支气管炎病人,疗效如下表。

某药疗效数据:

疗效单纯性单纯性合并肺气肿

控制6542

显效186

有效3023

无效1311

试比较两种病情的疗效?

试验四、聚类分析

试验目的:

通过上机试验,使学生掌握聚类分析的基本原理,熟悉快速聚类分析与分层聚类分析操作过程,能对软件输出结果进行分析。

实验题目1:

快速聚类分析

某集团公司为研究下属不同企业的经营特点,调查了20个企业的盈利能力、领导才干、组织文化和员工发展等4项指标(变量,将这20个企业按照各自的特点分成4种类型。

数据表:

实验分析:

ClusterMembership

A314.361

B211.785

C39.014

D27.993

E216.415

F19.718

G110.541

H215.366

I317.500

J24.082

K312.162

L313.769

M49.682

N49.682

O28.819

P314.361

Q112.693

R29.860

S213.540T

2

12.910

CaseNumber1234567891011121314151617181920

企业Cluster

Distance

FinalClusterCenters

78876388538362806381825867

78

77

63

盈利能力领导才干组织文化员工发展

1

234Cluster

DistancesbetweenFinalClusterCenters

37.66327.50029.09537.66332.89628.32127.50032.89641.783

29.095

28.321

41.783

Cluster1234

1234

NumberofCasesineachCluster3.0009.0006.0002.00020.000.000

1234

Cluster

ValidMissing

(1第一类的企业有F、G和Q,盈利能力比较强,其他方面相对较弱;

第二类的企业有B、D、E、H、J、O、R、S和T,各方面的能力比较平衡,综合能力强;

第三类的企业有A、C、I、K、L和P,组织文化和员工发展比较突出;

第四类的企业有M和N,盈利能力和领导才干比较强。

(2每一例的各案数(Numbersofcaseineachcluster,可见3例在第一类中,9例在第二类中,6例在第三类中,2例在第四类中。

(3最终聚类中心间的距离(distancesbetweenfinalclustercenters,即4种聚类中心两两间的欧氏距离。

第一类到第二类的距离是37.663,第一类到第三类的距离是27.500,第一类到第四类的距离是29.095,第二类到第三类的距离是32.896,第二类到第四类的距离是28.321,第三类到第四类的距离是41.783。

实验题目2:

分层聚类分析

为了研究世界各国森林、草原资源的分布规律,共抽取了21个国家的数据,每个国家4项指标,原始数据见表1。

试用该数据对国别进行聚类分析。

国别森林面积

(万公顷森林覆盖率(%林木蓄积量

(亿立方米

草原面积

(万公顷

中国11978.0012.5093.5031908.00美国28446.0030.40202.0023754.00日本2501.0067.2024.8058.00

德国1028.0028.4014.00599.00英国210.008.601.501147.00法国1458.0026.7016.001288.00意大利635.0021.103.60514.00加拿大32613.0032.70192.802385.00澳大利亚10700.0013.9010.5045190.00前苏联92000.0041.10841.5037370.00捷克458.0035.808.90168.00波兰868.0027.8011.40405.00匈牙利161.0017.402.50129.00南斯拉夫929.0036.3011.40640.00罗马尼亚634.0026.7011.30447.00保加利亚385.0034.702.50200.00印度6748.0020.5029.001200.00印度尼西2180.0084.0033.701200.00尼日利亚1490.0016.10.802090.00墨西哥4850.0024.6032.607450.00巴西57500.0067.60238.0015900.00

实验分析:

由于是对个案聚类,采用R型聚类。

在数据编辑器中打开该数据文件,运行结果如下:

表1:

样本总体统计结果:

CaseProcessingSummary(a,b

Cases

ValidMissingTotal

NPercentNPercentNPercent

21100.00.021100.0

aSquaredEuclideanDistanceused

bAverageLinkage(BetweenGroups

表2:

聚结表

AgglomerationSchedule

Stag

eClusterCombinedCoefficient

s

StageCluster

FirstAppearsNextStage

Cluster

1Cluster

2

Cluster

1

Cluster

2

17154580.650006

211166395.170005

341411551.170004

441261130.68

5306

5111372812.905207

64

7114992.105417

7411410706.019659

8618532624.5800010

945871022.4757011

10619959232.1108011

11462810959.03091012

12343764010.61301113

13

31734176880.90

2

12014

14

32060118208.16

9

13018

15

19178051698.9

60

0018

16

28473998139.9

30

0017

17

221853922083.4

45

16019

18131542260836.151419

373

19

121829449692.

582

181720

20

1108299084550.

993

1900

表3:

冰柱图(省去

图4:

树状图

******HIERARCHICALCLUSTERANALYSIS******DendrogramusingAverageLinkage(BetweenGroups

RescaledDistanceClusterCombine

CASE0510152025

LabelNum+---------+---------+---------+---------+---------+

意大利7⇩ø

罗马尼亚15⇩▫

德国4⇩▫

南斯拉夫14⇩▫

波兰12⇩▫

捷克11⇩▫

保加利亚16⇩▫

匈牙利13⇩▫

英国5⇩▫

法国6⇩▫

印度尼西18⇩▫

尼日利亚19⇩▫

日本3⇩⇳⇩⇩⇩⇩⇩⇩⇩ø

印度17⇩▫▫⇩ø

墨西哥20⇩÷⇔⇔

中国1⇩✗⇩⇩⇩⇩⇩⇩⇩÷

▫⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩ø

澳大利亚9⇩÷⇔⇔

美国2⇩⇩⇩✗⇩ø⇔⇔

加拿大8⇩⇩⇩÷▫⇩⇩⇩⇩⇩÷⇔

巴西21⇩⇩⇩⇩⇩÷⇔

前苏联10

⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩÷

试验五、因子分析

试验目的:

通过上机试验,使学生掌握因子分析的基本原理,熟悉因子分析操作

过程,能对软件输出结果进行分析。

实验题目:

选择10名游泳选手作为受试者,观察他们的气力、耐力、速度和协调

4方面,所得测验成绩如表5所示。

试分析这4项体能的共同因素。

表5

1(气力

2(耐力

3(速度

4(协调

12345678910

1199862512151

98111356711126

7115156944114

4134141198

5136

CorrelationMatrix

1.000.796.379.24

2.7961.000.561.311.379.5611.000.826.242

.311

.826

1.000

气力耐力速度协调

Correlation

气力耐力

速度

协调

KMOandBartlett'sTest

.52221.111

6.002

Kaiser-Meyer-OlkinMeasureofSamplingAdequacy.

Approx.Chi-SquaredfSig.

Bartlett'sTestofSphericity

TotalVarianceExplained

2.56964.23264.2322.56964.23264.2321.83445.85745.8571.09227.30491.5351.09227.30491.535

1.82745.67991.535

.2375.92697.462.1022.538100.000

Compone

nt1234

Total%ofVarianceCumulat

ive%Total%ofVarianceCumulat

ive%Total%ofVarianceCumulat

ive%InitialEigenvalues

ExtractionSumsofSquared

LoadingsRotationSumsofSquared

LoadingsExtractionMethod:

PrincipalComponentAnalysis.

ScreePlot

ComponentNumber

4

3

2

1

Eigenvalue

3.0

2.5

2.0

1.5

1.0

.5

0.0

ComponentMatrixa

.750.582.838.450.870-.409.740

-.619

气力耐力速度协调

1

2ComponentExtractionMethod:

PrincipalComponentAnalysis.2componentsextracted.a.

RotatedComponentMatrixa

.942.116.912.272.328.904.088

.960

气力耐力速度协调

1

2ComponentExtractionMethod:

PrincipalComponentAnalysis.RotationMethod:

VarimaxwithKaiserNormalization.Rotationconvergedin3iterations.

a.

答:

对于10名游泳选手的因素:

“气力”,“耐力”,“速度”,“协调”,经过转轴后,可看出气力和耐力为一类,将其命名为“体能因子”,速度和协调为一类,将其命名为“致胜因子”,所以经过分析可以分为以上两个因子。

练习题:

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 法律文书 > 调解书

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1