实验5抽样估计的SPSS应用.docx

资源描述

实验5抽样估计的SPSS应用.docx

《实验5抽样估计的SPSS应用.docx》由会员分享，可在线阅读，更多相关《实验5抽样估计的SPSS应用.docx（20页珍藏版）》请在冰豆网上搜索。

实验5抽样估计的SPSS应用.docx

实验5抽样估计的SPSS应用

5.1实验目的

根据随机抽样资料，掌握对总体指标做出具有一定可靠性的估计或推断的SPSS实验，并对实验结果做出解释。

5.2相关知识

5.2.1.抽样方法：

重复抽样和不重复抽样。

SPSS软件中所采用的抽样方法为不重复抽样，本实验采用不重复抽样方法。

5.2.2.抽样组织：

按照抽取样本单位时是否遵循随机原则，抽样技术可以分为概率抽样和非概率抽样。

其中，概率抽样又称为随机抽样，即按照随机原则抽取样本。

随机抽样的组织形式有：

简单随机抽样、类型抽样、等距抽样、整群抽样等，本实验采用简单随机抽样形式。

5.2.3抽样估计方法：

点估计和区间估计

1.点估计：

用样本统计量的值直接作为总体参数的估计值。

如用样本均值直接作为总体均值的估计值，用样本比率（或成数）直接作为总体比率（或成数）的估计值，用样本方差直接作为总体方差的估计值等。

常用的点估计方法包括：

（1）矩估计法；

（2）极大似然估计法（3）稳健估计法，本文采用矩估计法。

2.区间估计：

是在点估计的基础上，给出总体参数估计的一个围，所以区间估计相对于点估计更加精确，要优于点估计。

5.3实验容

5.3.1建立SPSS数据文件

5.3.2利用SPSS软件抽取随机样本，抽样比率为30%。

5.3.3运用SPSS软件，对总体均值进行点估计和区间估计。

5.3.4运用SPSS软件，对各个班级成绩的均值进行点估计和区间估计

5.3.5运用SPSS软件，对总体比率（成数）进行点估计和区间估计。

5.3.6撰写实验报告。

5.4实验要求

5.4.1准备实验数据

2009级财管专业111名学生的概率论课程成绩，见“表5-12009级财管学生概率课成绩.xls”。

5.4.2完成实验任务，对实验结果做出简要分析。

1．依据样本学生的概率论成绩，采用点估计和区间估计的方法，推断学生总体概率论课程的平均成绩，置信水平为90%。

2．依据样本信息，推断该课程成绩80分及以上的学生比率，置信水平为90%。

3．分析实验结果，提交实验报告。

5.5实验步骤

5.5.1建立SPSS数据文件

通过SPSS软件打开Excel表，即表“5-12009级财管学生概率成绩.xls”。

第一步：

选择菜单“文件→打开→数据”，弹出如图5-1所示的“打开数据”对话框。

图5-1“打开数据”对话框

→在“文件类型（T）：

”中选择“Excel”，在“查找围（L）：

”中找到要读取的Excel文件“5-12009级财管学生概率成绩.xls”→单击【打开】按钮

第二步：

在打开的SPSS数据编辑窗口的变量视图下定义变量的类型→单击工具栏的“保存”，在弹出的“将数据保存为”对话框（如图5-2）中，在“查找围（L）：

”中找到要保存文件的位置，在“文件名（N）：

”中输入要保存的文件名“5-1成绩”，单击【保存】按钮，至此完成SPSS数据文件“表5-1，2009财管1-4班概率成绩.sav”的建立与保存。

图5-2“将数据保存为”对话框

5.5.2抽取随机样本

用简单随机不重复抽样方法抽样，抽样比例为30%。

SPSS的随机抽样抽取的方式有两种：

其一，近似抽样：

即用户给出一个百分比数值，SPSS将按照这个比例自动从数据编辑窗口中随机抽取相应百分比数目的个案，抽取的个案数不一定精确地等于用户指定的百分比，会有小的偏差，但这种偏差不会对数据分析产生重要影响。

其二，精确抽样：

要求用户给出两个参数，第一个参数是希望选取的个案数，第二个参数是指定在前几个个案中选取。

本实验在这里选择“近似抽样”的方式抽取随机样本。

第一步：

打开数据文件“表5-1，2009财管1-4班概率成绩.sav”，在菜单选择“数据”→“选择个案”，得到“选择个案”对话框→选择【随机个案样本】按钮，如图5-3。

图5-3“选择个案”对话框

第二步：

在“选择个案”对话框中，单击【样本（S…）】按钮，得到“选择个案：

随机样本”对话框→选择【大约（A）】选项，输入数字“30”→点击[继续]按钮，如图5-4。

图5-4选择个案：

随机样本对话框

第三步：

在“选择个案”对话框中，在“输出”框中选择【将选定个案复制到新数据集（O）】按钮→在“数据集名称（S）：

”后面的框输入文件名字“样本”→点击【确定】按钮，如图5-5。

图5-5“选择个案”对话框

此时将得到新生成的样本数据文件，将此文件进行保存到指定的位置，且命名为“样本.sav”。

综上，通过采用近似随机抽样方法，从111名学生中抽样30%的学生作为样本，得到SPSS样本数据文件，即“2009级财管学生概率成绩样本数据文件.sav”，样本容量为42。

5.5.3对总体均值进行点估计和区间估计

第一步：

打开SPSS样本数据文件“2009级财管学生概率成绩样本数据文件.sav”，依次选择【分析】→【描述统计】→【探索】按钮，得到“探索”对话框。

将“成绩”选入“因变量列表”框，在“输出”框选择“统计量”选项，如图5-6。

图5-6“探索”对话框

第二步：

单击【统计量】按钮，选择“描述性”选项，在“均值的置信区间（C）：

”框输入“90”，单击【继续】按钮，如图5-7。

（注意：

如果只进行点估计，不需要给出置信度，因此就不需要此步骤了）

图5-7探索：

统计量对话框

第三步：

再返回到“探索”对话框中，如图5-8。

图5-8“探索”对话框

第四步：

单击【确定】按钮，系统输出结果如表5-1。

表5-1点估计及区间估计结果

统计量

标准误

成绩

均值

85.7857

1.85776

均值的90%置信区间

下限

82.6593

上限

88.9121

5%修整均值

86.4471

中值

88.0000

方差

144.953

标准差

12.03964

极小值

60.00

极大值

100.00

围

40.00

四分位距

18.75

偏度

-.766

.365

峰度

-.603

.717

从表5-1可以看出，样本均值为85.7857，根据统计学原理，在合理估计的假设前提下，点估计是把样本均值或是成数直接作为总体的均值或是成数。

因此，以上计算的样本均值85.7857分可以作为总体均值的估计值，即估计的111名学生的概率论课程成绩为85.7857分；在90%的置信度下，对2009级111名财管专业学生的概率论课程平均成绩进行区间估计，其区间围在[82.6593，88.9121]之间。

5.5.4对各个班级成绩的均值进行点估计和区间估计

如果按某一标志分组（如以班级为标志分组）的各班进行参数估计，这为各个班级之间的比较提供了方便。

平均成绩的区间估计实现有“频率”、“描述”、“探索”、“均值”等过程，学生自行练习“描述”过程的操作方法（“描述”过程的操作路径为：

“分析”→“描述统计”→“描述”）。

（注意：

在“频率”、“描述”实现方法中只能对总体进行估计，不能一步实现对各班进行估计，“探索”则可以一步实现各班的估计。

）这里主要介绍“均值”过程的实现方法。

第一步：

打开样本数据文件“2009级财管学生概率成绩样本数据文件.sav”，”，依次选择“分析”→“比较均值”→“均值”，得到“均值”对话框。

图5-9“均值”对话框

→将“成绩”选入“因变量列表（D）：

”框→将“班级”选入“自变量列表”框，如图5-10。

图5-10“均值”对话框

第二步：

单击【选项（O）…】按钮，得到“均值：

选项”对话框，

图5-11“均值：

选项”对话框

→在“统计量（S）：

”框中，将“均值、方差、标准差”选入到“单元格统计量（C）：

”框中→单击【继续】按钮。

图5-12“均值：

选项”对话框

第三步：

在“均值”对话框中，单击【Bootstrap（B）…】按钮，得到“Bootstrap”对话框，

图5-13“Bootstrap”对话框

→在“Bootstrap”对话框中，选择“执行bootstrap”→在“样本数（N）：

”框中输入“42”→在“置信区间”中的“水平（%）（D）：

”框中输入“90”→在“抽样”框选定“分层（T）”选项，在“变量（V）：

”中将变量“班级”移入到右边的“分层变量（R）：

”框中→单击【继续】按钮（说明：

本次样本容量为42，置信水平为90%）

图5-14“Bootstrap”对话框

第四步：

再返回到“均值：

选项”对话框中，单击【确定】按钮，输出结果见表5-2。

表5-22009级财管各班平均成绩的区间估计

班级

Statistic

Bootstrapa

偏差

标准误差

90%置信区间

下限

上限

财管1班

均值

93.7692

.2418

.9275

92.4880

95.7162

方差

12.859

-2.261

4.171

3.760

18.287

标准差

3.58594

-.39354

.64535

1.93657

4.27564

财管2班

均值

90.1111

-.4974

2.1035

85.3753

92.6667

方差

47.361

-5.323

16.648

16.999

71.936

标准差

6.88194

-.53440

1.33779

4.12244

8.48145

财管3班

均值

76.9091

-.5736

2.5032

71.0687

81.2197

方差

111.891

-3.384

41.148

31.086

181.759

标准差

10.57785

-.36780

2.08955

5.55510

13.48158

财管4班

均值

80.7778

.1429

5.0320

71.1796

89.5364

方差

275.194

-19.968

75.195

101.606

380.556

标准差

16.58899

-.80143

2.47487

10.05606

19.50748

总计

均值

85.7857

-.1514

1.3446

83.2840

88.1233

方差

144.953

2.891

24.496

100.810

204.888

标准差

12.03964

.07870

1.00707

10.03998

14.31331

a.Unlessotherwisenoted,bootstrapresultsarebasedon42stratifiedbootstrapsamples

由表5-2可以看出：

（1）选取容量为42的样本，以90%的置信水平下，对2009级111名财管专业学生的概率论课程平均成绩进行区间估计，其区间围为[83.2840，88.1233]；

（2）还可以看出对各个班级的概率论课程平均成绩的区间估计结果：

财管1班平均成绩的区间围为[92.4880,95.7162]，财管2班平均成绩的区间围为[85.3753，92.6667]，财管3班平均成绩的区间围为[71.0687，81.2197]，财管4班平均成绩的区间围为[71.1796,89.5364]。

可见，以上实验过程不仅给出了总体的参数估计结果，同时还给出了按某一变量分组（如以班级为变量分组）的各班参数估计值，这为各个班级之间成绩的比较提供了方便。

5.5.5对总体比率（成数）进行点估计和区间估计（该估计由学生自己完成）

估计总体比率（成数），需要对成绩分组，其方法有两种：

“可视离散化”和“重新编码”过程进行组距式分组。

在此以“可视离散化”方法为例，说明总体比率（成数）的估计过程。

1.用“可视离散化”方法对成绩分组，说明总体比率（成数）的估计过程。

Step①：

打开样本数据文件“2009级财管学生概率成绩的SPSS样本数据文件.sav””。

在SPSS界面的数据编辑菜单中，选择【转换（T）】→【可视离散化（B）】，进入“可视化封装”变量选择（对话框略）。

Step②：

选择“成绩”变量进入“要离散的变量（B）”框中（对话框略）→单击【继续】按钮，进入到“可视化封装”分割点设置对话框（对话框略）。

Step③：

给分组后的变量命名。

在“可视化封装”分割点设置对话框中，在分割点设置对话框的“离散的变量（B）：

”两个框后，分别输入“成绩分组（或成绩分段）”和“成绩（离散化）”作为离散化变量的名称和标签。

在右下方处“上端点”点击“排除（E）（<）”（对话框略）。

Step④：

设置分割点。

直接点击分割点设置对话框右下方的【生成分割点（M）…】按钮，得到“生成分割点”对话框（窗口略）→在“生成分割点”对话框中，在“等宽度间隔（E）”下的“第一个分割点的位置（F）”后的框中输入80，在“分隔点数量（N）”后的框中输入1，在“宽度（W）”后的框中输入20，单击【应…】按钮（对话框略）。

Step⑤：

生成分组标签。

在分割点设置对话框的“网络（G）”区域的“值（V）”第一列输如分割点值80，在“标签”第一列输入值“0”；在“值（V）”第二列“HIGH”位置处输如分割点值80，在“标签”第二列输入值“1”。

单击“可视化封装”对话框中右下方的【生成标签（A）】按钮，系统自动生成分组标签。

（对话框略）。

Step⑥：

单击【确定】按钮，弹出图5-15的对话框，单击【确定】按钮，即可在数据文件中生成新变量“成绩分组”。

图5-15对话框

Step⑦：

回到数据编辑界面，在数据编辑菜单中点击菜单“分析（A）”→描述统计→频率（F）（对话框略）→将“成绩（已离散化）【成绩…”选进“变量（V）”框中，见图5-16所示。

图5-16对话框

→点击Bootstrap（B）”→弹出Bootstarp对话框（对话框略）。

→在“Bootstrap”对话框中，选择“执行bootstrap”→在“样本数（N）：

”框中输入“42”→在“置信区间”中的“水平（%）（D）：

”框中输入“90”→在“抽样”框选定“简单（M）”选项，→单击【继续】按钮（说明：

本次样本容量为42，置信水平为90%）。

Step⑧：

再返回到数据编辑界面，在数据编辑菜单中点击菜单“分析（A）”→描述统计→频率（F）（窗口略）→将“成绩（已离散化）【成绩…”选进“变量（V）”框中（对话框略）→单击【确定】按钮，→系统输出结果，见表5-3。

表5-32009级财管专业学生概率成绩80分及其以上人数比重

频率

百分比

有效

百分比

累积

百分比

百分比Bootstrapa

偏差

标准误差

90%置信区间

下限

上限

有

效

26.2

-.2

6.3

16.7

37.7

73.8

100.0

6.3

62.3

83.3

合计

100.0

a.Unlessotherwisenoted,bootstrapresultsarebasedon42stratifiedbootstrapsamples

表5-3结果显示：

（1）选取容量为42的样本，样本比率0.74可以作为总体比率的估计值，即估计的111名学生概率论课程成绩80分及以上的人数比率为0.738（73.8%）；

（2）选取容量为42的样本，以90%的置信水平，对2009级111名财管专业学生的概率论课程成绩80分及以上的人数比率进行区间估计，其区间围为[0.623，0.833]或[62.3%，83.3%]。

2.用“重新编码为不同变量”方法对成绩分组，说明总体比率（成数）的估计过程。

对总体成绩80分及以上的学生比率的区间估计，其过程与平均成绩区间估计一致。

但在区间估计之前需要在数据文件“样本.sav”中增加一个新变量“是否80分及以上”（做法：

依次选择菜单“转换”→“重新编码为不同变量”，在此按照组距式分组的方法操作→然后在数据编辑窗口的变量视图下定义值标签，“是”为“1”，“否”为“0”→将此文件进行另存，并命名为“样本比率.sav”即可）。

这里不再详细介绍操作步骤，估计的结果见表5-4。

表5-42009级财管各班80分及以上成绩比率区间估计

班级

Statistic

Bootstrapa

偏差

标准误差

90%置信区间

下限

上限

财管1班

均值

1.00

.00

1.00

标准差

.000

财管2班

均值

.89

.00

.10

.67

1.00

标准差

.333

-.076

.191

.000

.500

财管3班

均值

.45

.02

.16

.18

.80

标准差

.522

-.027

.038

.405

.522

财管4班

均值

.56

.06

.15

.33

.87

标准差

.527

-.038

.046

.352

.527

总计

均值

.74

.02

.07

.65

.86

标准差

.445

-.016

.039

.354

.484

a.Unlessotherwisenoted,bootstrapresultsarebasedon42stratifiedbootstrapsamples

表5-4结果显示：

（1）选取容量为42的样本，样本比率0.74可以作为总体比率的估计值，即估计的111名学生的概率论课程成绩80分及以上的学生比率为0.74；

（2）选取容量为42的样本，以90%的置信水平，对2009级111名财管专业学生的概率论课程成绩80分及以上的学生比率进行区间估计，其区间围为[0.65，0.86]；

（3）还可以看出对各个班级的概率论课程成绩80分及以上的学生比率的区间估计结果：

财管1班概率论课程成绩80分及以上的学生比率围为[1.00,1.00]，说明该班概率成绩均在80分及以上；财管2班概率论课程成绩80分及以上的学生比率围为[0.67,1.00]；财管3班概率论课程成绩80分及以上的学生比率围为[0.18，0.80]，财管4班概率论课程成绩80分及以上的学生比率围为[0.33,0.87]。

5.6实验报告

5.7思考与练习题

1.请对数据表“某企业员工工资表”，要求采用简单不重复抽样方法，随机抽取20%的员工构成样本，以90%的置信水平，对全体体员工的平均总工资（总工资=基本工资+职务工资+基本津贴）水平进行点估计和区间估计。

2.请对数据表“某市居民家庭收入”，要求采用简单不重复抽样方法，随机抽取10%的居民家庭构成样本，以90%的置信水平，推断总体居民家庭平均收入水平的置信区间。

3.请对数据表“某地区电信客户在网时长情况”，要求采用简单不重复抽样方法，随机抽取10%的居民构成样本，以95%的置信水平，对全体居民平均在网时长和结婚率进行区间估计。

附：

实验报告

实验报告包括容：

（一）个人信息

姓名

学号

专业

班级

实验日期

（二）实验容

1.实验项目　2.实验题目　3.实验图表　4.实验结果分析

（三）报告提交时间

在实验课后，填写纸质的实验报告，由各班学习委员统一收交，教师集中批改，记入实验课成绩。

展开阅读全文