失业问题研究的案例报告Word下载.docx
《失业问题研究的案例报告Word下载.docx》由会员分享,可在线阅读,更多相关《失业问题研究的案例报告Word下载.docx(7页珍藏版)》请在冰豆网上搜索。
_Toc277862943"
Ⅱ.讨论记录PAGEREF_Toc277862943\h1
_Toc277862944"
Ⅲ.案例介绍与背景分析PAGEREF_Toc277862944\h2
_Toc277862945"
一、案例全文PAGEREF_Toc277862945\h2
_Toc277862946"
二、案例背景分析PAGEREF_Toc277862946\h3
_Toc277862947"
Ⅳ.问题求解及分析PAGEREF_Toc277862947\h4
_Toc277862948"
一、求失业人员年龄均值的区间估计的原理方法和计算过程PAGEREF_Toc277862948\h4
_Toc277862949"
二、进行假设检验以判定费城失业人员失业时间的均值是否高于全美失业人员的平均失业时间(14.6周)及结论6
_Toc277862950"
三、失业人员年龄与失业时间长短之间关系的分析8
Ⅲ.案例介绍与背景分析
一、案例全文
美国人口统计署每个月公布一次失业方面的统计数据,内容包括失业人数和失业时间等。
1998年11月,据美国人口统计署报告,美国失业人员失业时间的均值为14.6周。
费城市市长要求对费城地区的失业状况进行一次调查研究。
选取50名费城的失业居民组成一个样本,记录他们的年龄以及失业时间(以周为单位)。
下面是1998年11月收集的部分数据。
全部数据可供我们使用,它们被保存在书本附带的光盘中,文件名为给BLS。
管理报告
利用描述统计量对数据进行汇总。
求费城失业人员年龄均值的95%置信区间估计。
进行假设检验确定费城失业人员失业时间是否高于全国失业人员失业时间的均值14.6周。
取显著性水平为0.01.你得到什么结论?
失业人员年龄与失业时间长短有关系吗?
为什么?
二、案例背景分析
作为失业统计的主要内容之一,对失业人员年龄与失业时间进行调查分析,可以为地方行政首长的施政提供重要决策依据。
失业时间概念的引入在一定程度上克服了只统计人数失业率指标的局限性,通过过滤掉因为换工作或其他临时性原因造成的暂时脱离工作的状态,来降低对统计数据的影响。
实践证明失业人员的失业时间是比失业人员数量更有意义的统计指标。
在一般性分析中,人口结构的老龄化是导致失业人数增加的一个结构性原因。
对失业人员的年龄分析,特别是通过数据统计手段揭示失业人员年龄与失业时间的内在联系,是施政者正确判断当前失业形势重要依据。
通过分析得出判断,认定是经济原因主导还是年龄结构原因主导尤为重要,决策者往往以此为依据做出政策调整。
本案例就是以费城市为例,尝试进行失业人员失业时间的统计分析,以及用统计学方法检验“失业时间与失业年龄有着密切关系”这一假设。
Ⅳ.问题分析及求解
一、求失业人员年龄均值的区间估计的原理方法和计算过程
根据案例提供的费城市失业统计资料,可以看到这次数据分析采用了一个容量为50的样本数据,内容包括失业人员的年龄和失业时间等两项数据。
需要根据这些样本数据估计出失业人口平均年龄的区间估计。
由于我们并没有关于总体标准差的一个好的估计,在这种情形下就必须利用同一样本来估计总体的均值μ和标准差σ。
在此之前,先分析费城失业人口年龄调查的抽样分布:
利用描述统计量做一些必要的数据汇总。
可以利用excel2007的数据分析工具进行描述统计工作:
勾选“汇总统计”和“平均数置信度”选框,其中置信度根据案例要求,填入95%。
Execl自动进行数据汇总,结果如表一所示。
其中样本的失业年龄平均值(x)、和失业年龄的样本标准差(s)可以用来估计失业年龄总体的平均值μ和95%置信水平下的边际误差(ME)。
我们发现,其实数据汇总时已将边际误差(ME)算出,就是表一中“置信度”一项的数值。
以下将用统计方法计算、验证这一数值。
分析样本数据,峰值59的z-分数=59-36.611.94=1.876<
3,判定样本数据不存在异常值。
表一样本数据汇总
同样利用Excel分析出失业人员样本的年龄构成分布如上图所示。
虽然不能假设总体年龄的分布服从正态分布,但是从表一中可知样本偏度=0.36,同时样本容量50已经足够大且样本数据不存在异常值,因此可以利用t分布来进行总体均值的近似区间估计。
当利用样本标准差s代替总体标准差σ进行总体均值区间估计时,公式为:
x±
tα2sn
式中s为样本标准差;
1-α是置信系数;
tα2是自由度为n-1时t分布的上侧面积为α2的值。
其中,tα2sn就是总体均值估计的边际误差,x则是总体均值μ的点估计值。
总体均值的95%置信区间也可以表示成(x-tα2sn,x+tα2sn)。
用软件可以计算出tα2,如下图。
根据案例条件:
α2=0.052=0.025;
自由度df=50-1=49得到tα2=2.0096
则边际误差ME=±
tα2sn=±
2.0096×
11.945550=±
3.3949
计算结果与Excel相同,费城失业人口年龄总体均值的95%置信区间为36.6±
3.39,即(33.21,39.99)。
还可以直接用minitab软件计算。
将均值36.6、标准差11.9455、样本容量为50、置信水平95%等参数输入minitab进行备择为不等于的单样本t计算,结果如下:
二、进行假设检验以判定费城失业人员失业时间的均值是否高于全美失业人员的平均失业时间(14.6周)及结论
我们需要检验总体费城失业人口的失业时间是否高于14.6周,但我们并不知道总体失业时间的标准差σ。
在这种情形下,必须利用样本同时估计σ和μ,即对总体进行假设检验时,利用样本均值x估计μ,用样本标准差s估计σ。
如同我们在对总体均值μ进行区间估计时一样,仍然基于t分布进行假设检验。
统计实践表明,在样本容量大于等于50的情形下,假设检验统计量服从自由度为n-1的t分布,这样的近似精确度能够满足使用要求。
总体均值假设检验的检验统计量公式为:
t=x-μ0sn
我们要进行一个假设检验,决定拒绝H0将导致得出费城失业人口的失业时间的总体均值比14.6大的结论。
因此,需采用Ha:
μ>
14.6的上侧检验。
原假设H0:
μ≤14.6
备择假设Ha:
μ>
14.6检验中采用0.01的显著性水平
根据数据汇总的结果:
x=15.54,s=9.9267和n=50,检验统计量的值为
t=x-μ0sn=15.54-14.69.926750=0.6696
查下页的t分布表,得到在自由度为49的情形下,上侧面积为0.01时,t=2.405。
我们观察到,t值越大,上侧面积越小。
上侧面积的几何含意是支持原假设的概率“P-值”,P-值越小对原假设的支持度就越小,当P-值小于显著性水平α时,我们就得出拒绝原假设的结论,也就是说本次检验的拒绝域是t>
2.405。
因为检验统计量t=0.6696<
2.405,落在拒绝域外,所以不能得出拒绝原假设的结论,认为费城失业人口的失业时间不大于全美失业人口的平均失业时间14.6周。
t分布表(局部)
我们同样可以用minitab软件进行假设检验,把有关参数输入软件后,minitab的计算结果如下。
结果:
Bls.mtw
单样本T:
Weeks
mu=14.6与>
14.6的检验
平均值
变量N平均值标准差标准误99%下限TP
Weeks5015.549.931.4012.160.670.253
不难看到minitab同样算出t=0.67,而且精确给出P-值为0.253。
因为P-值大于显著性水平0.01,就是说支持原假设的概率大于给定的显著性水平,同样得出了不能拒绝原假设的结论。
而且minitab还算出,样本数据显示在0.01的显著性水平下原假设成立的假设均值下限是12.16,高于这个数值的假设均值都不会导致原假设被拒绝。
三、失业人员年龄与失业时间长短之间关系的分析
通过考察样本数据中的“失业年龄”和“失业时间”这两个变量的独立性,我们可以检验出失业人员的失业时间和年龄有没有关系。
为了得到独立性检验的数据,可以将样本数据中的年龄和失业时间,分段统计频数构造出列联表。
在失业人员的年龄和失业时间不相干(独立)的假设下,如果能够确定各分段的期望频数,就可以利用χ2分布来确定观察频数和期望频数之间是否存在显著差异。
这个独立性检验的假设为:
H0:
失业人口的年龄与失业时间独立
Ha:
失业人口的年龄与失业时间不独立
首先利用excel软件处理样本数据,构造列联表。
观察表一的汇总数据,发现失业人口年龄的极值为20和59,现尝试将数据划分为20~29,30~39,40~49,50~59四个区段;
失业时间的极值为1和39,尝试将数据划分为1~9,10~19,20~29,30~39四个区段,于是得到表二所示列联表。
表二样本数据分段方案
独立性假设下,列联表中的期望频数公式:
eij=第i行之和×
第j列之和样本容量
χ2检验要求所有类别的期望频数都大于或等于5。
观察到如表二分类方式有的类别的期望频数小于5,所以将每个失业人口每失业一周记一次频数,得到新的列联表,表三。
如果独立性假设为真,我们运用期望频数公式计算出期望频数eij,并将列联表中位于第i行和第j列的数值表示为eij,据此得到表四。
在表四中,我们看到每个类别的期望频数均大于5。
表三费城失业人口年龄与失业时间样本数据(观察频数)
表四费城失业人口年龄与失业时间期望频数
接下来用χ2检验期望频数与观察频数的拟合优度。
如果原假设成立,期望频数应能与观察频数拟合,反之则拒绝原假设。
独立性检验统计量公式:
χ2=ij(fij-eij)2eij(其中fij为观察频数,eij为期望频数)
经计算,χ2=59.395+27.789+⋯+129.027=483.659
χ2的自由度为列联表中行数-1×
列数-1=3×
3=9
查χ2分布表,自由度为9,对应上侧面积为0.01的χ2值为21.666。
χ2分布表(局部)
显然,χ2越大,上侧面积越小;
所以在0.01的显著性水平下,本次独立性检验的拒绝域是χ2>
21.666。
计算出来的检验统计量χ2=483.66>
21.666,得出结论拒绝原假设,认为在费城的失业人口中年龄与失业时间不独立,两者存在相关性。
我们也可以用minitab软件进行两个变量的独立性检验:
按表三构造的列联表数据填入minitab,计算结果如下页显示,P-值=0.0000,同样得出了拒绝原假设,两个变量不独立的结论。
Minitab软件截图
卡方检验:
C1,C2,C3,C4
在观测计数下方给出的是期望计数
在期望计数下方给出的是卡方贡献
C1C2C3C4合计
16011200172
23.0268.4026.1254.46
59.39527.78926.12154.456
23471230128
17.1350.9019.4440.53
16.6067.9340.65240.525
310837371237
31.7294.2535.9975.03
14.8741.34338.0520.217
404322175240
32.1295.4436.4575.98
32.12428.8175.727129.027
合计104309118246777
卡方=483.659,DF=9,P值=0.000
根据上述分析结果得出判断,失业人员年龄与失业时间长短之间是存在关系的。
我们可以进一步计算样本数据的“失业人员年龄”和“失业时间”的协方差和相关系数来分析这两组变量的具体相关关系。
对于每个失业人员,都有他自己的年龄属性和失业时间属性。
所以“失业人员年龄”和“失业时间”两组变量是一一对应的。
我们把失业人员的年龄变量记为xi,失业时间变量记为yi;
设费城失业人口的总体容量为N,失业人员的总体年龄均值记为μx,失业人员的总体失业时间均值记为μy。
那么失业人员关于年龄和失业时间的总体协方差公式为
σxy=(xi-μx)(yi-μy)N
实际上由于总体样本容量十分庞大难以计算,一般用样本协方差估计总体协方差。
相应的公式中总体均值μx、μy用样本均值x、y代替;
总体容量也用样本方差的自由度n-1替换,可以得到样本协方差为
sxy=(xi-x)(yi-y)n-1
我们用minitab软件计算案例样本关于年龄和失业时间的协方差,结果如下:
其中协方差数值为78.1592;
142.6939为年龄的样本方差;
98.5392为失业时间的样本方差。
从协方差的树枝上我们能判断年龄和失业时间有着正的线性相关关系。
为了衡量这种相关度,我们需要计算xi、yi的样本相关系数。
rxy=sxysx∙sy
用样本数据可以计算出年龄和失业时间的相关系数
rxy=sxysx∙sy=78.1592142.6939×
98.5392=0.659
样本的相关系数给出了总体相关系数ρxy的点估计量。
相关系数越接近-1或1表示越强的线性关系,而相关系数越接近0则表示线性关系越弱。
从总体相关系数ρxy的估计量为0.659看来,费城失业人口的年龄与失业时间有着较强的正线性相关。
下面利用excel绘出失业人口年龄与失业时间的散点图,可以直观地观察到这个结论。
(年龄,失业时间)散点图