SPSS统计软件课程作业.docx-资源下载

SPSS统计软件课程作业.docx

1、SPSS统计软件课程作业SPSS统计软件课程作业信计111 刘晓蕾1. 某单位对100名女生测定血清总蛋白含量，数据如下：74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.579.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.075.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.073.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.575.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.

2、4 68.070.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.373.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.767.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.775.8 73.5 75.0 73.5 73.5 73.5 72.7 81.6 70.3 74.373.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4计算样本均值、中位数、方差、标准差、最大值、最小值、极差、偏度和峰度，并给出均值的置信水平为95%

3、的置信区间。第1步数据组织：定义1个变量为：“血清总蛋白含量”，其度量标准为“度量”。第2步探索分析设置：选择菜单“分析描述统计探索”，打开“探索” 对话框，将“血清总蛋白含量”字段移入“因变量列表”。打开“统计量”对话框，选中“描述性”选项；打开“探索：图”对话框，选中“按因子水平分组”、“茎叶图”、“带检验的正态图”、“直方图”等选项。打开“探索：选项”，选中“按列表排除个案”选项。第3步运行结果及分析：描述统计量标准误血清总蛋白含量均值73.6680.39389均值的 95% 置信区间下限72.8864上限74.44965% 修整均值73.6533中值73.5000方差15.

4、515标准差3.93892极小值64.30极大值84.30范围20.00四分位距4.60偏度.054.241峰度.037.478表中显示“血清总蛋白含量”的描述性统计量，左表中只显示的是均值、均值的95%置信区间的上下限、中值、方差、标准差、极大/小值、偏度、峰度等 2. 绘出习题1所给数据的直方图、盒形图和QQ图，并判断该数据是否服从正态分布。上图为标准Q-Q图，Q-Q图可以用来检验数据是否服从某种分布，在Q-Q图中，检验数据是否较好地服从给定分布的标准有两个：看标准Q-Q图上的数据点与直线的重合度；Q-Q趋势图上的点是否关于直线Y=0在较小的范围内上下波动。从上图中可以看出，题目中的数据与

5、直线重合度较好，故很好地服从正态分布，这与前面的正态检验表中的结果是一致的箱图中显示血清蛋白总含量数据绘制成对应的箱体。每一个箱体上方那条线的取值代表该分组中最大值，下方那条线的取值代表最小值。箱体自身的三条线从上到下分别代表3/4分位点、中位点、1/4分位点的取值。正态性检验Kolmogorov-SmirnovaShapiro-Wilk统计量dfSig.统计量dfSig.血清总蛋白含量.073100.200*.990100.671a. Lilliefors 显著水平修正*. 这是真实显著水平的下限。表中显示了血清总蛋白含量的两种检验方法的正态性检验结果，包括各分组的统计量、自由度及显著性水平

6、，以K-S方法的分析：其自由度sig.=0.200,明显大于0.05，故应接受原假设，认为题中数据服从正态分布3. 正常男子血小板计数均值为, 今测得20名男性油漆工作者的血小板计数值（单位：）如下：220 188 162 230 145 160 238 188 247 113126 245 164 231 256 183 190 158 224 175问油漆工人的血小板计数与正常成年男子有无异常？分析:这是一个典型的比较样本均值和总体均值的T检验问题 ;第1步数据组织：首先建立SPSS数据文件，只需建立一个变量“血小板计数”，录入相应的数据即可第2步单样本T检验分析设置选择菜单“分析比

7、较均值单样本T检验（S）”，打开 “单样本T检验” 对话框，将变量“血小板计数”移入”检验变量”列表框,并输入检验值225；打开“单样本T检验：选项”对话框 ,设置置信区间为95%(缺省为95%);单个样本统计量N均值标准差均值的标准误血小板计数20192.150042.236529.44437上表给出了单样本T检验的描述性统计量，包括样本数（N）、均值、标准差、均值的标准误。单个样本检验检验值 = 225 tdfSig.(双侧)均值差值差分的 95% 置信区间下限上限血小板计数-3.47819.003-32.85000-52.6173-13.0827本例置信水平为95%，显著性水平为0.0

8、5，从上表中可以看出，双尾检测概率P值为0.003，小于0.05，故原假设不成立，也就是说，男性油漆工作者的血小板与有显著性差异，无理由相信油漆工人的血小板计数与正常成年男子无异常。4. 在某次考试中，随机抽取男女学生的成绩各10名，数据如下：男：99 79 59 89 79 89 99 82 80 85 女：88 54 56 23 75 65 73 50 80 65假设总体服从正态分布，比较男女得分是否有显著性差异。第1步数据组织:在SPSS数据文件中建立两个变量，分别为“性别”、“成绩”，度量标准分别为“名义”、“度量”，变量“品种”的值标签为：b男生，g女生，录入数据。第2步独立样本

9、T检验设置:选择菜单 “选择比较均值独立样本T检验”，打开“独立样本T检验”对话框，将“成绩” 作为要进行T检验的变量，将“性别”字段作为分组变量，定义分组变量的两个分组分别为“b”和“g”。打开“独立样本T检验：选项”对话框，具体选项内容及设置与单样本T检验相同。组统计量性别N均值标准差均值的标准误成绩男生1084.000011.527743.64539女生1062.900018.453855.83562上表给出了本例独立样本T检验的基本描述统计量，包括两个样本的均值、标准差和均值的标准误。独立样本检验方差方程的 Levene 检验均值方程的 t 检验差分的 95% 置信区间FSig.

10、tdfSig.(双侧)均值差值标准误差值下限上限成绩假设方差相等1.607.2213.06718.00721.100006.880656.6442935.55571假设方差不相等3.06715.096.00821.100006.880656.4423535.75765根据上表“方差方程的 Levene 检验”中的sig.为0.221，远大于设定的显著性水平0.05，故本例两组数据方差相等。在方差相等的情况下，独立样本T检验的结果应该看上表中的“假设方差相等”一行，第5列为相应的双尾检测概率（Sig.（双侧）为0.007，在显著性水平为0.05的情况下，T统计量的概率p值小于0.05，故应拒绝零

11、假设,，即认为两样本的均值不是相等的，在本例中，能认为男女得分绩有显著性差异。 5. 设有5种治疗荨麻疹的药，要比较它们的疗效。假设将30个病人分成5组，每组6人，令同组病人使用一种药，并记录病人从使用药物开始到痊愈所需时间，得到下面的记录：药物类别治愈所需天数15，8，7，7，10，824，6，6，3，5，636，4，4，5，4，347，4，6，6，3，559，3，5，7，7，6问所有药物的效果是否一样？第1步分析：由于考虑的是一个控制变量（药物）对一个观测变量（治愈所需天数）的影响，而且是五种药物，所以不适宜用独立样本T检验（仅适用两组数据），应采用单因素方差分析。第2步数据的组织：数

12、据分成两列，一列是治愈所需天数，变量名为“治愈所需天数”，另一变量是药物种类（变量值分别为1,2,3,4，5），变量名为“药物种类”，输入数据并保存。第3步方差相等的齐性检验：由于方差分析的前提是各个水平下（这里是不同的药物种类影响下的治愈所需天数）的总体服从方差相等的正态分布，且各组方差具有齐性。其中正态分布的要求并不是很严格，但对于方差相等的要求是比较严格的，因此必须对方差相等的前提进行检验。误差方差等同性的 Levene 检验a因变量:治愈所需天数Fdf1df2Sig.552425.699检验零假设，即在所有组中因变量的误差方差均相等。a. 设计 : 截距 + 药物类别方差齐性检验

13、的H0假设是：方差相等。从上表可看出相伴根据Sig.=0.699（0.05）说明应该接受H0假设（即方差相等）。故下面就用方差相等的检验方法。 ANOVA治愈所需天数平方和df均方F显著性组间36.46749.1173.896.014组内58.500252.340总数94.96729上表是几种饲料方差分析的结果，组间（Between Groups）平方和（Sum of Squares）为36.467，自由度（df）为4，均方为9.117；组内（Within Groups）平方和为58.500，自由度为25，均方为2.340；F统计量为3.896。由于组间比较的相伴概率Sig.（p值）=0.01

14、40.05，故应拒绝H0假设（四种饲料喂猪效果无显著差异），说明五种药物对治愈所需天数有显著性差异。第4步多重比较分析：通过上面的步骤，只能判断4种饲料喂猪效果是否有显著差异。如果想进一步了解究竟是哪种药物与其他组有显著性的均值差别（即哪种药物更好）等细节问题，就需要在多个样本均值间进行两两比较。由于第3步检验出来方差具有齐性，故选择一种方差相等的方法，这里选LSD方法；显著性水平默认取0.05；多个比较治愈所需天数LSD(I) 药物类别(J) 药物类别均值差值 (I-J)标准误差Sig.95% 置信区间下限上限类别1类别22.5000*.88318.009.68114.3189类别33.

15、1667*.88318.0011.34774.9856类别42.3333*.88318.014.51444.1523类别51.3333.88318.144-.48563.1523类别2类别1-2.5000*.88318.009-4.3189-.6811类别3.6667.88318.457-1.15232.4856类别4-.1667.88318.852-1.98561.6523类别5-1.1667.88318.198-2.9856.6523类别3类别1-3.1667*.88318.001-4.9856-1.3477类别2-.6667.88318.457-2.48561.1523类别4-.8333

16、.88318.354-2.6523.9856类别5-1.8333*.88318.048-3.6523-.0144类别4类别1-2.3333*.88318.014-4.1523-.5144类别2.1667.88318.852-1.65231.9856类别3.8333.88318.354-.98562.6523类别5-1.0000.88318.268-2.8189.8189类别5类别1-1.3333.88318.144-3.1523.4856类别21.1667.88318.198-.65232.9856类别31.8333*.88318.048.01443.6523类别41.0000.88318.2

17、68-.81892.8189基于观测到的均值。误差项为均值方 (错误) = 2.340。*. 均值差值在 .05 级别上较显著。从整个表反映出来五种药物相互之间均存在显著性差异，从效果来看是第3种最好，其次是第2种，第1种最差。上图为几种药物均值的折线图，可以看出均值分布比较陡峭，均值差异也较大。6. 某公司在各地区销售一种特殊化妆品。该公司观测了15 个城市在某月内对该化妆品的销售量Y及各地区适合使用该化妆品的人数X1和人均收入X2，得到数据如下：地区销售（箱）人数（千人）人均收入（元）116227424502120180325432233753802413120528385678623

18、476169265378278198300881923302450911619521371055532560112524304020122323724427131442362660141031572088152123702605(1) 画出这三个变量的两两散点图，并计算出两两之间的相关系数。(2)试建立Y与X1，X2之间的线性回归方程，并研究相应的统计推断问题，同时预测适合购买此化妆品的人数为220千人，人均收入为2500元的某城市对该化妆品的销量。第1步分析：这是一个因变量和两个自变量之间的问题，故应该考虑用二元线性回归解决。第2步数据组织：定义三个变量，分别为“z”（销售量）、“x”（

19、人数）、“y”（人均收入）。第3步一元线性回归分析设置：选择菜单“分析回归线性”，打开“线性回归”对话框，将变量“销售量”作为因变量，“人数”和“人均收入”作为自变量。打开“统计量”对话框，选上“估计”和“模型拟合度”。单击“绘制（T）”按钮，打开“线性回归：图”对话框，选用DEPENDENT作为y轴，*ZPRED为x轴作图。并且选择“直方图”和“正态概率图” 作相应的保存选项设置，如预测值、残差和距离等。输入移去的变量模型输入的变量移去的变量方法1人均收入, 人数a.输入a. 已输入所有请求的变量。表中显示回归模型编号、进入模型的变量、移出模型的变量和变量的筛选方法。可以看出，进入模型的

20、自变量为“销售量” 模型汇总b模型RR 方调整 R 方标准估计的误差1.999a.999.9992.17722a. 预测变量: (常量), 人均收入, 人数。b. 因变量: 销售量R=0.999，说明自变量与因变量之间的相关性很强。R方(R2) =0.999，说明自变量“销售量”可以解释因变量“人数”和“人均收入”的99.9%的差异性。 Anovab模型平方和df均方FSig.1回归53844.716226922.3585679.466.000a残差56.884124.740总计53901.60014a. 预测变量: (常量), 人均收入, 人数。b. 因变量: 销售量表中显示因变量的方差来

21、源、方差平方和、自由度、均方、F检验统计量的观测值和显著性水平。方差来源有回归、残差。从表中可以看出，F统计量的观测值为5679.466，显著性概率为0.000，即检验假设“H0：回归系数B = 0”成立的概率为0.000，从而应拒绝原假设，说明因变量和自变量的线性关系是非常显著的，可建立线性模型。系数a模型非标准化系数标准系数tSig.B标准误差试用版1(常量)3.4532.4311.420.181人数.496.006.93481.924.000人均收入.009.001.1089.502.000a. 因变量: 销售量表中显示回归模型的常数项、非标准化的回归系数B值及其标准误差、标准化的回归

22、系数值、统计量t值以及显著性水平（Sig.）。从表中可看出，回归模型的常数项为3.453，自变量“人数”的回归系数为0.496，“人均收入”的回归系数为0.009.因此，可以得出回归方程：销售量=3.453+ 0.496 人数+0.009人均收入。回归系数的显著性水平为0.000，明显小于0.05，故应拒绝T检验的原假设，这也说明了回归系数的显著性，说明建立线性模型是恰当的。当购买此化妆品的人数为220千人，人均收入为2500元时，该城市该化妆品的销量为：销售量=2200.496+0.0092500+3.453=135.073箱系数a模型非标准化系数标准系数tSig.相关性B标准误差试用版零

23、阶偏部分1(常量)3.4532.4311.420.181人数.496.006.93481.924.000.995.999.768人均收入.009.001.1089.502.000.639.940.089a. 因变量: 销售量7. 研究青春发育阶段的年龄和远视率的变化关系，测得数据如下年龄6789101112131415161718远视率63.6461.0638.8413.7514.58.074.412.272.091.022.513.122.98请对年龄与远视率的关系进行曲线估计。第1步分析：先用散点图的形式进行分析，看究竟是否具有一元线性关系，如果具有一元线性关系，则用一元线性回归分析，否

24、则采用曲线估计求解。第2步数据组织：定义为两个变量，分别是“x”（年龄）、“y”（远视率），输入数据并保存。第3步作散点图初步判定变量的分布趋势：第4步进行曲线估计：依次选择菜单“分析回归曲线估计”，将所有模型全部选上，看哪种模型拟合效果更好(主要看决定系数R2)，其所有模型的拟合优度R2如下表所示。模型汇总和参数估计值因变量:远视率方程模型汇总参数估计值R 方Fdf1Df2Sig.常数b1b2b3线性.75828.18219.00088.198-6.265对数.85151.22119.000180.617-68.560倒数.91293.29119.000-48.486679.341二次

25、.95381.44828.000214.566-31.3111.138三次.95650.63837.000271.869-48.7352.804-.050复合.925110.42219.000834.164.658幂.934127.84819.000232454.999-4.351S.90182.30119.000-1.96340.901增长.925110.42219.0006.726-.419指数.925110.42219.000834.164-.419Logistic.925110.42219.000.0011.520自变量为年龄。从决定系数（R方即R2）来看，三次曲线效果最好（因为其R2值最大），并且方差分析的显著性水平（Sig.）为0。故重新进行上面的过程，只选“三次曲线（Cubic）”一种模型。模型汇总RR 方调整 R 方估计值的标准误.978.956.9375.987自变量为年龄。复相关系数R = 0.978，R2 = 0.

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？