《统计信息应用软件》上机试验指导书SPSS精Word文档格式.docx

资源描述

《统计信息应用软件》上机试验指导书SPSS精Word文档格式.docx

《《统计信息应用软件》上机试验指导书SPSS精Word文档格式.docx》由会员分享，可在线阅读，更多相关《《统计信息应用软件》上机试验指导书SPSS精Word文档格式.docx（29页珍藏版）》请在冰豆网上搜索。

《统计信息应用软件》上机试验指导书SPSS精Word文档格式.docx

0314女81899188910332女8168788881

0315女55848691840333男6771906872

0316女64757478890334女7876819179

0317男61666870800335男8581728969

0318女缺考545868720336女8891727692

（1定义缺失值。

（2计算个人平均成绩,按平均分从大到小进行排序,挑选出学习成绩最好、最差的3

个同学。

（3求这5门课的平均成分和标准差。

（4将各门成绩按5级分类（优、良、中、及格和不及格贴标签,求其频数分布,查

看哪一分数段人最多。

（5将数学和物理成绩做一散点分布图。

（6将数据文件、输出结果和图形分别存盘保存。

试验二、单变量频率分配分析

通过上机试验,使学生掌握频率分配分析基本原理,熟悉频率分配分

析软件操作过程,能对软件输出结果进行分析。

某单位对100名健康女大学生测定了血清蛋白含量（serum,克/升如

下表所示。

试做单变量频率分配分析并作直方图。

74.378.868.878.070.480.580.569.771.273.579.575.675.078.872.072.072.074.371.272.075.073.578.874.375.865.074.371.269.768.073.575.072.064.375.880.369.774.373.573.575.875.868.876.570.471.281.275.070.468.074.072.076.574.376.577.667.372.075.074.373.579.573.574.765.076.581.675.472.772.737.276.572.770.477.268.867.367.367.372.775.873.575.072.773.573.572.781.670.374.373.579.570.476.572.777.284.375.076.570.4

实验分析:

频率分配表

FrequencyPercentValidPercentCumulativePercent

Valid65以下33.03.03.065-701313.013.016.0

70-754646.046.062.0

75-803131.031.093.0

80以上77.07.0100.0

Total100100.0100.0

从以上频数分布表中可以知道,100名健康女大学生血清蛋白含量在65克/升的占3%,65-70克/升的占13%,70-75克/升的占46%,75-80克/升的占31%,80克/升以上的占7%。

区间

5.0

4.0

3.0

2.0

1.0

5040302010

0Std.Dev=.88Mean=3.3

N=100.00

1、65克/升以下

2、65-70克/升

3、70-75克/升

4、75-80克/升

5、80克/升以上

从以上直方图可以看出100名健康女大学生血清蛋白含量基本上与正态曲线一致,这说明,健康女大学生血清蛋白含量基本合理。

试验三、T-TEST过程

通过上机试验,使学生掌握T-TEST过程基本原理,熟悉T-TEST过程

分析软件操作过程,能对软件输出结果进行分析。

10个病号每人都做了3种不同的减肥治疗。

下面的数据和命令用来表示体重减轻的变化情况（单位:

公斤/月。

ID（个案号T1（治疗1T2（治疗2T3（治疗3

1.351.271.33021.281.311.26031.40

2.052.01041.281.371.32051.361.271.3506.991.321.48071.651.581.73081.011.081.21091.151.181.6610

1.33

1.34

1.32

1、请用SPSS的T-TEST过程,检验治疗1于治疗3,治疗2于治疗3之间体重变化的“均值相等的原假设”。

2、创建一个新变量T,它等于治疗1于治疗3体重减轻之差,并使用Frequencies过程。

试比较1题与2题的结果。

计算变量T的均值、标准偏差和标准误差。

1、由于三种减肥治疗效果具有相关性,因此采用配对样本

T检验。

Analyze菜单中选择comparemeans,进而选择paired-samplesTtest。

分别将T1与T3同时选入pairedvariables栏,然后将T2与T3同时选入,确定。

得结果:

T-Test

表1

PairedSamplesStatistics1.280010.19408.061371.467010.25517.080691.377010.26940.085191.4670

.25517

.08069

治疗1治疗3Pair1治疗2治疗3

Pair2

MeanN

Std.Deviation

Std.ErrorMean

表2

PairedSamplesCorrelations

10.396.25710

.814

.004

治疗1&

治疗3Pair1治疗2&

治疗3

Correlation

Sig.

表3

PairedSamplesTest-.1870.25202.07969-.3673-.0067-2.3469.044-.0900

.16035.05071

-.2047.0247

-1.7759

.110

治疗1-治疗3Pair1

治疗2-治疗3

Pair2MeanStd.Deviation

Std.ErrorMeanLowerUpper95%ConfidenceIntervaloftheDifferencePairedDifferences

tdfSig.（2-tailed

由表1可见,各类治疗方法减轻体重的平均数,标准差和标准误差。

可见治疗1的减肥效果比较稳定,治疗3次之,治疗2效果因个人身体状况不同差异较大。

由表2可见,治疗1与治疗3的相关性不明显（Sig值=0.257>

0.05,未通过显著性检验,而治疗2与治疗3的效果比较相似,呈现较强的相关性（Sig值=0.004<

0.05,通过显著性检验。

由表3可见,治疗1与治疗3的效果之间存在明显的差别,它通过了T检验（Sig值=

0.044<

0.05,通过显著性检验,而治疗2与治疗3的效果比较相似,没有显著差别（Sig值=0.110>

0.05,未通过显著性检验,可见与表2得出的结论一致。

2、通过transform中的compute菜单可计算得到新变量T,通过frequencies程序结果如下:

Statistics

T100-.1870.07969.25202

ValidMissing

Mean

Std.ErrorofMeanStd.Deviation

由上表可见新变量T的平均值为-0.187,标准误差为0.07969,标准差为0.25202。

与第一题的结果比较可见,T的均值、标准误差和标准差与第一题中的治疗1与治疗3配对T检验的结果一致,可见配对样本T检验的原假设是将两样本之差与0比较,H0:

X1-X2=0,H1:

X1-X2≠0,其中t=mean

ESmean

..。

练习题:

1、用大白鼠配成八对,每对分别喂以正常饲料和缺乏维生素E饲料,过一段时间,测得两组大白鼠肝中维生素A的含量如下:

大白鼠对号正常饲料组缺乏维生素E饲料组

123456783550

2000

3000

3950

3800

3750

3450

3050

2450

2400

1800

3200

3250

2700

2500

1750

试比较两组维生素A含量有无差别?

2、用某药物治疗不同病情的老年慢性支气管炎病人,疗效如下表。

某药疗效数据:

疗效单纯性单纯性合并肺气肿

控制6542

显效186

有效3023

无效1311

试比较两种病情的疗效?

试验四、聚类分析

通过上机试验,使学生掌握聚类分析的基本原理,熟悉快速聚类分析与分层聚类分析操作过程,能对软件输出结果进行分析。

实验题目1:

快速聚类分析

某集团公司为研究下属不同企业的经营特点,调查了20个企业的盈利能力、领导才干、组织文化和员工发展等4项指标（变量,将这20个企业按照各自的特点分成4种类型。

数据表:

ClusterMembership

A314.361

B211.785

C39.014

D27.993

E216.415

F19.718

G110.541

H215.366

I317.500

J24.082

K312.162

L313.769

M49.682

N49.682

O28.819

P314.361

Q112.693

R29.860

S213.540T

12.910

CaseNumber1234567891011121314151617181920

企业Cluster

Distance

FinalClusterCenters

78876388538362806381825867

盈利能力领导才干组织文化员工发展

234Cluster

DistancesbetweenFinalClusterCenters

37.66327.50029.09537.66332.89628.32127.50032.89641.783

29.095

28.321

41.783

Cluster1234

1234

NumberofCasesineachCluster3.0009.0006.0002.00020.000.000

Cluster

（1第一类的企业有F、G和Q,盈利能力比较强,其他方面相对较弱;

第二类的企业有B、D、E、H、J、O、R、S和T,各方面的能力比较平衡,综合能力强;

第三类的企业有A、C、I、K、L和P,组织文化和员工发展比较突出;

第四类的企业有M和N,盈利能力和领导才干比较强。

（2每一例的各案数（Numbersofcaseineachcluster,可见3例在第一类中,9例在第二类中,6例在第三类中,2例在第四类中。

（3最终聚类中心间的距离（distancesbetweenfinalclustercenters,即4种聚类中心两两间的欧氏距离。

第一类到第二类的距离是37.663,第一类到第三类的距离是27.500,第一类到第四类的距离是29.095,第二类到第三类的距离是32.896,第二类到第四类的距离是28.321,第三类到第四类的距离是41.783。

实验题目2:

分层聚类分析

为了研究世界各国森林、草原资源的分布规律,共抽取了21个国家的数据,每个国家4项指标,原始数据见表1。

试用该数据对国别进行聚类分析。

国别森林面积

（万公顷森林覆盖率（%林木蓄积量

（亿立方米

草原面积

（万公顷

中国11978.0012.5093.5031908.00美国28446.0030.40202.0023754.00日本2501.0067.2024.8058.00

德国1028.0028.4014.00599.00英国210.008.601.501147.00法国1458.0026.7016.001288.00意大利635.0021.103.60514.00加拿大32613.0032.70192.802385.00澳大利亚10700.0013.9010.5045190.00前苏联92000.0041.10841.5037370.00捷克458.0035.808.90168.00波兰868.0027.8011.40405.00匈牙利161.0017.402.50129.00南斯拉夫929.0036.3011.40640.00罗马尼亚634.0026.7011.30447.00保加利亚385.0034.702.50200.00印度6748.0020.5029.001200.00印度尼西2180.0084.0033.701200.00尼日利亚1490.0016.10.802090.00墨西哥4850.0024.6032.607450.00巴西57500.0067.60238.0015900.00

由于是对个案聚类,采用R型聚类。

在数据编辑器中打开该数据文件,运行结果如下:

表1:

样本总体统计结果:

CaseProcessingSummary（a,b

Cases

ValidMissingTotal

NPercentNPercentNPercent

21100.00.021100.0

aSquaredEuclideanDistanceused

bAverageLinkage（BetweenGroups

表2:

聚结表

AgglomerationSchedule

Stag

eClusterCombinedCoefficient

StageCluster

FirstAppearsNextStage

1Cluster

17154580.650006

211166395.170005

341411551.170004

441261130.68

5306

5111372812.905207

7114992.105417

7411410706.019659

8618532624.5800010

945871022.4757011

10619959232.1108011

11462810959.03091012

12343764010.61301113

31734176880.90

12014

32060118208.16

13018

19178051698.9

0018

28473998139.9

0017

221853922083.4

16019

18131542260836.151419

373

121829449692.

582

181720

1108299084550.

993

1900

表3:

冰柱图（省去

图4:

树状图

******HIERARCHICALCLUSTERANALYSIS******DendrogramusingAverageLinkage（BetweenGroups

RescaledDistanceClusterCombine

CASE0510152025

LabelNum+---------+---------+---------+---------+---------+

意大利7⇩ø

罗马尼亚15⇩▫

德国4⇩▫

南斯拉夫14⇩▫

波兰12⇩▫

捷克11⇩▫

保加利亚16⇩▫

匈牙利13⇩▫

英国5⇩▫

法国6⇩▫

印度尼西18⇩▫

尼日利亚19⇩▫

日本3⇩⇳⇩⇩⇩⇩⇩⇩⇩ø

印度17⇩▫▫⇩ø

墨西哥20⇩÷

⇔⇔

中国1⇩✗⇩⇩⇩⇩⇩⇩⇩÷

▫⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩ø

澳大利亚9⇩÷

美国2⇩⇩⇩✗⇩ø

加拿大8⇩⇩⇩÷

▫⇩⇩⇩⇩⇩÷

⇔

巴西21⇩⇩⇩⇩⇩÷

前苏联10

⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩⇩÷

试验五、因子分析

通过上机试验,使学生掌握因子分析的基本原理,熟悉因子分析操作

过程,能对软件输出结果进行分析。

选择10名游泳选手作为受试者,观察他们的气力、耐力、速度和协调

4方面,所得测验成绩如表5所示。

试分析这4项体能的共同因素。

表5

1（气力

2（耐力

3（速度

4（协调

12345678910

1199862512151

98111356711126

7115156944114

4134141198

5136

CorrelationMatrix

1.000.796.379.24

2.7961.000.561.311.379.5611.000.826.242

.311

.826

1.000

气力耐力速度协调

气力耐力

速度

协调

KMOandBartlett'

sTest

.52221.111

6.002

Kaiser-Meyer-OlkinMeasureofSamplingAdequacy.

Approx.Chi-SquaredfSig.

Bartlett'

sTestofSphericity

TotalVarianceExplained

2.56964.23264.2322.56964.23264.2321.83445.85745.8571.09227.30491.5351.09227.30491.535

1.82745.67991.535

.2375.92697.462.1022.538100.000

Compone

nt1234

Total%ofVarianceCumulat

ive%Total%ofVarianceCumulat

ive%InitialEigenvalues

ExtractionSumsofSquared

LoadingsRotationSumsofSquared

LoadingsExtractionMethod:

PrincipalComponentAnalysis.

ScreePlot

ComponentNumber

Eigenvalue

2.5

1.5

0.0

ComponentMatrixa

.750.582.838.450.870-.409.740

-.619

2ComponentExtractionMethod:

PrincipalComponentAnalysis.2componentsextracted.a.

RotatedComponentMatrixa

.942.116.912.272.328.904.088

.960

PrincipalComponentAnalysis.RotationMethod:

VarimaxwithKaiserNormalization.Rotationconvergedin3iterations.

答:

对于10名游泳选手的因素:

“气力”,“耐力”,“速度”,“协调”,经过转轴后,可看出气力和耐力为一类,将其命名为“体能因子”,速度和协调为一类,将其命名为“致胜因子”,所以经过分析可以分为以上两个因子。

展开阅读全文