《社会统计学》课程第二次作业参考答案docx.docx

上传人:b****6 文档编号:7443420 上传时间:2023-01-24 格式:DOCX 页数:18 大小:162.83KB
下载 相关 举报
《社会统计学》课程第二次作业参考答案docx.docx_第1页
第1页 / 共18页
《社会统计学》课程第二次作业参考答案docx.docx_第2页
第2页 / 共18页
《社会统计学》课程第二次作业参考答案docx.docx_第3页
第3页 / 共18页
《社会统计学》课程第二次作业参考答案docx.docx_第4页
第4页 / 共18页
《社会统计学》课程第二次作业参考答案docx.docx_第5页
第5页 / 共18页
点击查看更多>>
下载资源
资源描述

《社会统计学》课程第二次作业参考答案docx.docx

《《社会统计学》课程第二次作业参考答案docx.docx》由会员分享,可在线阅读,更多相关《《社会统计学》课程第二次作业参考答案docx.docx(18页珍藏版)》请在冰豆网上搜索。

《社会统计学》课程第二次作业参考答案docx.docx

《社会统计学》课程第二次作业参考答案docx

《社会统计学》课程第二次作业参考答案

第五章置信区间

5-282003年,在一项对高校扩招的态度调查中,10所北京市院校对高校扩招的态度数据如下表(分数越

高态度越积极):

院校名

态度平均值

标准差

人数

北京外国语学院

3.81

0.67

48

中国人民公安大学

4.32

0.55

50

中国青年政治学院

4.08

0.68

52

北京农学院

3.98

0.65

50

北京大学

3.58

0.64

50

清华大学

3.78

0.71

49

北方交通大学

4.26

0.66

50

北京航空航天大学

4.12

0.74

42

对外经济贸易大学

3.88

0.57

48

北京医学院

4.07

0.63

44

求:

1)中国人民公安大学、清华大学、北京大学的总体平均态度分的95%置信区间;

2)中国人民公安大学和北京大学的总体平均态度分之差的95%置信区间;

3)清华大学和北京大学的总体平均态度分之差的95%置信区间。

(提示:

要先从S求得1,(X-X)2)

答:

(1)中国人民公安大学:

//=X±t0.025~^=«4.32±2.021^«4.32±0.156Qna/50

依此类推,同样的方法计算得:

清华大学:

3.78±0.204;北京大学:

3.58±0.182

(2)中国人民公安大学与北京大学差异:

先根据公式S2='(1X)2计算为(X_壬)2:

n-1

公安大学:

Z(X1—文1)2=$2(“—1)=0.552x49=14.8225

北京大学:

Z(X2—文2)2=S22(«-!

)=0.642x49=20.0704

因此’联合方差为:

俨冒+嘗心。

5

df=49+49=98,查表得如)25王1.98

(3)清华大学:

S(Xi-Ji)2=Si2(«-!

)=0.712x48=24.1968

北京大学:

S(X2-J2)2=S22(«-!

)=0.642x49=20.0704

$2=工(山-壬1)2+工(上-壬2)2

"("1—1)+("2-1)

dfM8+49=97,查表得to.o25^1.98

—+-1-«(3.78-3.58)±1.98xj0.45636

n\"2

注意:

本题由于样本量比较大,关于t值我们通过查表无法获得精确值,只能用其他值近似地估计一下,由于每个人取的估计值可能会有所出入,所以可能会有点偏差(但不应相差过大),而书上的答案可能是通过软件去计算的,所以我们的答案可能也不一定和它相同。

第六章假设检验

6-6从死于汽车碰撞事故的司机中抽取2000名司机的随机样本,根据他们的血液中是否含有酒精以及他们是否对事故负有责任,将数据整理如下表所示。

在整个总体中,血液中含有酒精和不含酒精的司机之间在对事故负有责任方面有差异吗?

为了回答这一问题:

1)叙述H。

并计算概值;

2)计算适当的置信区间(95%)来说明差异有多大;

3)从这一数据如何说明“酒精增加了事故的发生率”。

650

150

700

500

答:

问题转化为检验假设:

是否有酒精对责任变化率的影响。

表:

死于汽车碰撞事故中司机血液中是否含有酒精对事故的责任影响表(n=2000)

有责任

无责任

有责任比例Pi

有酒精

650(81.25%)

150(1&75%)

650/800(100%)

(ni=800)

无酒精

700(5&33%)

500(41.67%)

700/1200(100%)

(112=1200)

1.首先,血液有酒精的司机中有百比例的司机对事故负有责任;而血液中没有酒精的司机中有勿比例的司机对事故负有责任。

现在观测到的样本中,血液中有酒精的司机的责任事故率的比例Pi=81.25%,血液中无酒精的司机的责任事故率的比例Po=58.33%,

a)、虚无假设Ho:

在5%的错误水平统计上,总体中血液里含有酒精和没有酒精的司机在对事故负有责任的比例方面不存在统计意义上的差异,即

Ho:

A=n\.^o=O:

备择假设Hi:

在5%的错误水平统计上,总体中血液里含有酒精和没有酒精的司机在对事故负有责任的比例方面存在统计意义上的差异,假设酒精增加了司机的责任事故率,

H\:

A=n\.必>0;

现在,总体比例差值的标准误差SE为:

=VO.OOO190429+0.00020255=J0.00039298=0.0198

按照虚无假设Ho:

有酒精的兀1=58.33%计算其成立的概值:

0.8125-0.5833

==11.56

0.0198

对于样本量达2000的抽样,使用正态分布Z分布表,查得:

概值=Pr(Z>11.56)5.0)=0.000000287己经查不到了,可以认为:

概值=0;

b)、由于假定检验有酒精的司机更容易引起事故,故而计算大样本总体比例下事故责任比例的单侧置信度为1-5%的置信区间:

=0.2292-1.64*J0.000190429+0.00020255

=0.2292-0.0325

=19.67%

c)、由于凤假设△=叭皿=0,而实际上这个数值落在了置信区间(0.1967,8)夕卜,否定虚无假设,拒绝日)接受Hi;

d)、结论:

在5%的错误水平下,差异在统计上是可以分辨的,酒精增加了事故的发生率。

6-9>1974年,美国盖洛普公司的一次调查表明,在750名美国男子的样本中,有45%抽烟;在另一个相互独立的750名女子的样本中,36%抽烟,

1)构造男性总体和女性总体中抽烟比例之差的95%单侧置信区间;

2)计算没有差异这一原假设的概值;

3)在错误水平a=0.05下,45%与36%之差在统计上是可以分辨的吗?

(或是显著的吗?

)即,能拒绝片。

吗?

用两种方式回答,并说明两种答案是一致的:

1)是否没有落入95%的置信区间之内?

2)对片。

的概值是否小于0.05?

答:

(1)令Pl=男性样本抽烟比例,疋1=男性总体抽烟比例;

P2=女性样本抽烟比例,兀2=女性总体抽烟比例。

男性总体与女性总体抽烟比例之差的95%置信区间:

””、7阳(1-B),2(1-D)

—712>(日—Pl)—Za、1

Vmri2

=(0.45-0.36)-Zo05严5(1一0.45)+皿迈

V750750

-0.049

(2)Ho:

△=勿-兀2=0(即,男性与女性总体的抽烟比例无显著差异)H\:

△=兀\一恥=0.45—0.36=0.09

SE=戶(1-H)|B(1丙—]0.45(1_0.45)|0.36(1-0.36)0025

_Vrnn2_V750750~*

因为样本量比较大,所以我们直接查Z分布的表

查表得,Pr(Z>3.6)<0.000233

(3)在0.05的错误水平下,男性和女性总体抽烟比例的差异是统计上可以分辨的。

1和2的小问题答案都是“是”。

第七章回归分析

7-7>假定一个4家庭的随机样本的年收入和年节余如下表所示(单位:

千元):

1)估计总体回归直线

Y=a+pX

家庭编号

收入X

节余Y

1

4.8

1.2

2

7.2

3.0

3

8.5

3.5

4

9.5

3.5

2)构造斜率0的95%置信区间;

3)作图画出4个样本点和拟合的直线,然后尽你所能在图中表示由2)的置信区间所给出的可接受的斜率(范围)。

答:

表:

4个家庭的随机样本的年收入和年节余(千元)

家庭编号

收入X

节余Y

1

4.8

1.2

7.2

8.5

9.5

X=7.5

Y/2=12.38,力2=3.58,

3.0

3.5

3.5

7=2.8

=6.36

首先做观测点的散布图,观察是否是简单线性回归:

图:

4个家庭的随机样本的年收入和年节余的散点图:

可以知道是简单线性回归,于是建立年节余Y对年收入X的简单回归方程:

Y=a+bX

1)、由X预测Y的回归方程已经列出,现在求其中的参数a、b:

\xy636——

b=^—=——=0.51,贝I」a=Y=2.8-0.51*7.5=-1.05

工/12.38

即:

Y=-1.05+0.51X

2)、斜率卩的数学期望为b=0.51,标准差为:

表:

回归方程的剩余方差S?

的计算

X

Y

Y

Y-Y

(Y-Y)2

4.8

1.2

1.398

-0.198

0.0392

7.2

3

2.622

0.378

0.1429

8.5

3.5

3.285

0.215

0.0462

9.5

3.5

3.795

-0.295

0.0870

a2_0.3153'4-2

=0.1577

自由度茫2,仏()25=4.303,又b=0.51,心2=12.38,,代入0的置信区间公式:

即:

=0.51±4.303*0.1129

=0.51±0.4856

0.0244<〃<0.9956

表:

斜率〃的置信区间给出的回归线范围

7-11、从某单位随机地抽取了相互独立的两个样本(男、女职工收入),其月收入数据如下:

男:

2300,2500,3000,2800,2600;女:

2400,2200,2000,2500,2700用『表示收入,用哑变量X表示性别:

其中对于男性X=l,对于女性X=0„

1)画出y对x的图形;

2)用眼睛拟合一条『对x的回归线;

3)计算『对X的回归线;与2)中用眼睛拟合的相比,后者的精度如何?

4)构造一个斜率为95%的置信区间,用简单的语言解释一下它的意义;

5)在5%的错误水平下,检验收入是否与性别无关;

6)4)和5)的结果是否度量了该单位对女性的歧视?

表:

某单位男女职工收入随机抽样调查表

性别

X

0

0

0

0

0

1

1

1

1

1

收入

Y

2400

2200

2000

2500

2700

2300

2500

3000

2800

2600

图:

收入Y对性别X的图形

01

性别

表:

某单位男女职工收入随机抽样调查运算表

Y

x=X-X

y=Y-Y

xy

x2

Y

Y-Y

a-Y)2

0

2400

-0.5

・100

50

0.25

2360

40

1600

0

2200

-0.5

-300

150

0.25

2360

-160

25600

0

2000

-0.5

■500

250

0.25

2360

-360

129600

0

2500

-0.5

0

0

0.25

2360

140

19600

0

2700

-0.5

200

-100

0.25

2360

340

115600

1

2300

0.5

-200

-100

0.25

2640

■340

115600

1

2500

0.5

0

0

0.25

2640

-140

19600

1

3000

0.5

500

250

0.25

2640

360

129600

1

2800

0.5

300

150

0.25

2640

160

25600

1

2600

0.5

100

50

0.25

2640

-40

1600

壬=0.5

Y=2500

0

0

c2584000

10-2

=73000

xy_700尹-2.5

=280,

贝i|a=Y-bX=2500

-280*0.5=2360

Y=2360+280X

4)、

0的95%置信区间如下计算:

自由度妒10-2=8,如)25=2.306,又6=280,=2.5,,代入0的95%置信区间公式:

^280±2.306^000

=280土2.306*170=280土394

即0的95%置信区间为:

(-114,674)

该置信区间来自假设检验:

虚无假设H。

0=0;表明收入Y与性别X之间没有什么线性联系;备择假设Hi:

0工0;表明收入Y与性别X之间有线性相关;

5)、在5%的错误水平下,无法拒绝虚无假设,可以认为收入与性别无关;

6)、这几个结果都说明了,不能认为该单位在收入方面对女性有歧视。

第八章方差分析

8-4、1977年,美国的某项调查从三种受过不同教育类型的妇女中各分别抽取了50位全日制工作的妇女样本,她们的年收入(单位:

千美元)数据整理后归纳如下:

完成的学历年数

收入平均值壬

工(1劝彳

初中(8年)

7.8

1835

高中(12年)

9.7

2442

大学(16年)

14.0

4707

答:

表:

1977年美国某项对不同教育程度妇女收入的调查结果(ni=n2=n3=50)

初中8年(组1)

高中12年(组2)

大学16年(组3)

J1=7.8

壬2=9.7

X3=14.0

昨1835

5*2=2442

2

S;=4707

建立虚无假设Ho:

旳=“尸吗;表明不同教育程度的妇女收入上没有显著差异;备择假设Hi:

山丰皿丰呵表明不同教育程度的妇女收入上存在显著差异;三组样本的总平均值:

X=-YX=-(7.8+9.7+14.0)=10.5

c厶3

样本均值X相对于其总均值X的总方差:

9121

S;=—=2[(7.8-10.5)2+(9.7-10.5)2+(14-10.5)2]

11

=-[7.29+0.64+12.25]=-*20.18=10.09

计算两组的联合方差:

2_工(X]-乂)2+工(龙-壬2尸+工(兀-乂尸_1835+2442+4707'==

8984

==61.12

147

计算F比值:

"S;50x10.09

S”

分子自由度窈=3-1=2;分母自由度浙=3*(50-1)=147;

查表IV对应于自由度2和8的那一列有5个临界值,这次计算的F=8.25值比临界值

Fo.ooi=6.91还要大。

因此,虚无假设成立的概值应该:

概值<0.001

可以知道,否定虚无假设,三组收入不同,也就是说妇女随教育程度差异而收入显著不同。

方差分析表如下:

方差分析表

变差来源

变差

自宙度

方差

F比值

概值

组间

20.18*50=1009

2

10.09*50=504.5

8.25

<0.001

组内

8984

147

61.12

总和

9993

149

 

8-9、月收入数据:

男:

2500,2550,2050,2300,1900

女:

2200,2300,1900,2000,1800

如果用y表示收入,哑变量X表示性别(磴1为女性),计算Y对X的回归方程,并在5%的水平下检验收入是否与性别无关(先求回归系数的置信区间)。

答:

表:

某单位男女职工月收入随机抽样调查表(单位:

元,性别X=1表女性)

性别

X

000001

1

111

收入

Y

250025502050230019002200

2300

190020001800

表:

收入Y对性别X的回归图形

300

00

50

0

01

性别:

1二女

表:

某单位男女职工收入随机抽样调查运算表

工秒-550

h=-===

工疋2.5

Y=2260-220X

B的95%置信区间如下计算:

自由度炉10-2=8,如>25=2.306,又b=-220,&2=2.5,,代入〃的95%置信区间公式:

得:

P=-220±2.306

VZ5

=-220±2.306*156.4

=-220土360.6即0的95%置信区间为:

(-580.6,140.6)该置信区间来自假设检验:

虚无假设H。

0=0;表明收入Y与性别X之间没有什么线性联系;备择假设Hi:

0工0;表明收入Y与性别X之间有线性相关;在5%的错误水平下,无法拒绝虚无假设,可以认为收入与性别无关;

第九章相关分析

9-1、10对夫妇的一个随机样本给出了如下的结婚年龄数据

结婚时丈夫的年龄

24222620232124252223

结婚时妻子的年龄

24182522202319242322

1)计算样本相关系数r;

2)求总体相关系数。

的95%置信区间;

3)以5%的水平,检验“夫妻的结婚年龄之间没有什么线性联系”这一原假设。

 

答:

表:

10对夫妇结婚年龄表

结婚时丈夫的年龄X

24

22

26

20

23

21

24

25

22

23

结婚时妻子的年龄Y

24

18

25

22

20

23

19

24

23

22

进行主要参数计算:

Y

X

y

xy

/

2y

24

24

1

2

2

1

4

22

18

-1

-4

4

1

16

26

25

3

3

9

9

9

20

22

-3

0

0

9

0

23

20

0

-2

0

0

4

21

23

-2

1

-2

4

1

24

19

1

-3

-3

1

9

25

24

2

2

4

4

4

22

23

-1

1

-1

1

1

23

22

0

0

0

0

0

X=23Y=22

》=13

&2=

30

Zy2=48

由公式计算样本相关系数"

由公式计算t统计量(n=10,df=10-2=8):

10-2

由n=10,d匸8,尸0.3426查P209的总体相关系数95%置信区间图,得-0.35<p<0.77

对总体的相关系数p建立虚无假设Ho:

p=0;

由t分布表V查得,d匸8时:

Zo.25=O.7O6,如o=1.397,则虚无假设成立的概值为:

0.10<单侧概值<0.25

0.20<双侧概值<0.5

在5%的统计显著性水平上,“夫妻的结婚年龄之间没有什么线性联系”这一假设成立。

第十章卡方检验和交互分析

10-14、为了研究性别和“最希望看到的有关奥运会的电视节目类型”之间的关系,2004年在10城市调

查了1000个样本,调查数据如下:

希望看到的节

性别

赛事直播

261

235

新闻报道

69

42

专题报道

33

40

精彩赛事集锦

36

42

开幕式和闭幕式

87

108

其他

32

15

1)陈述仏;

2)计算才和凤的概值。

(1)原假设H。

不同性别的受众“最希望看到的有关奥运会的电视节目类型”没有差别

(2)观测频次齐

频性

希望看到的节庶

总频次

赛事直播

261

235

496

新闻报道

69

42

111

专题报道

33

40

73

精彩赛事集锦

36

42

78

开幕式和闭幕式

87

108

195

其他

32

15

47

总频次

518

482

1000

相对频率

0.518

0.482

1

若Ho为真,对应的期望频次尤

频性

希望看到的节目畐

赛事直播

256.9

239.1

新闻报道

57.5

53.5

专题报道

37.8

35.2

精彩赛事集锦

40.4

37.6

开幕式和闭幕式

101.0

94.0

其他

24.3

22.7

 

频性

希望看到的节目奈

赛事直播

4.072

-4.1

新闻报道

11.502

■11.5

专题报道

-4.814

4.8

精彩赛事集锦

-4.404

4.4

开幕式和闭幕式

・14.01

14.0

其他

7.654

■7.7

偏差

频性

希望看到的节目乘

赛事直播

0.06

0.07

新闻报道

2.30

2.47

专题报道

0.61

0.66

精彩赛事集锦

0.48

0.52

开幕式和闭幕式

1.94

2.09

其他

2.41

2.59

Y(fo-fe)"lfe

7.81

8.39

df=(cT)(r~l)=(2-1)(6-1)=5

查表附录三的表VD第五行,发现观测到的力2=16.20,介于15.1和16.7之间,因此

概值〈0.01=0.126

由于社会学家一般建议C值至少要超过0.16最好能达到0.25才能认为考察的两个特性有相关性,所以就本题的问题,/检验是统计显著,而列联系数C的统计检验不显著,所以拒绝原假设时要慎重。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 人文社科 > 设计艺术

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1