抽样误差与抽样分布.pptx

上传人:j*** 文档编号:30846388 上传时间:2024-02-03 格式:PPTX 页数:48 大小:625.38KB
下载 相关 举报
抽样误差与抽样分布.pptx_第1页
第1页 / 共48页
抽样误差与抽样分布.pptx_第2页
第2页 / 共48页
抽样误差与抽样分布.pptx_第3页
第3页 / 共48页
抽样误差与抽样分布.pptx_第4页
第4页 / 共48页
抽样误差与抽样分布.pptx_第5页
第5页 / 共48页
点击查看更多>>
下载资源
资源描述

抽样误差与抽样分布.pptx

《抽样误差与抽样分布.pptx》由会员分享,可在线阅读,更多相关《抽样误差与抽样分布.pptx(48页珍藏版)》请在冰豆网上搜索。

抽样误差与抽样分布.pptx

抽样误差与抽样分布-抽样分布1抽样误差l从脉搏总体均数为72.5次,标准差为6.3次的正态分布总体中随机抽样。

样本个数为10,样本量为9.n=10.21010,XSms2,ms11,XS33,XS22,XS例4-1样本量为9,从N(72.5,6.32)中共随机抽取10个样本3表4-2样本量为25从N(72.5,6.32)共随机抽取10个样本样样本本编编号号n=9n=9样样本本均均数数样样本本标标准准差差最最小小值值最最大大值值抽抽样样误误差差1165656868686876768484646480806363848472.472.48.68.663638484-0.100.102274746161656575756767787872727070676769.969.95.45.461617878-2.602.603373737171717167676868686867676161686868.268.23.43.461617373-4.304.304474748080767664646666771182827878676773.173.16.56.5646482820.600.605575757272797974747676656580807171747474.074.04.54.5656580801.501.506664647878717170707070676779797272636370.470.45.55.563637979-2.102.107774746767717177777070616166667070737369.969.94.84.861617777-2.602.608862627373808064648484666674746969767672.072.07.47.462628484-0.500.509973736868626273737373696976767171686870.370.34.14.162627676-2.202.20101079798282757564647777747473736767676773.173.16.06.0646482820.600.60计算样本均数的均数:

计算样本均数的标准差:

410111(72.469.968.273.1)71.331010iixx=+=L102221()(72.471.33)(73.171.33)6.31.852.101011019iixxxs=-+-=-L例4-2P51机重抽共抽随复样10本,个样本量样为25。

算本均的均和准计样数数标差.5表表4-2样本量为样本量为25从从N(72.5,6.32)共随机抽取共随机抽取10个样本个样本6样本编号N=25样本均数样本标准差最小值最大值抽样误差11656568686868767684846464808063638484727277777373747472.872.86.36.3636384840.300.3076767070676763637676656578787272727278787474818122747461616565757567677878727270706767747474747474747471.671.65.55.560608181-0.900.9077777272696981817171606070706767787878787777646433737371717171676768686868676761616868666670706666717170.170.14.44.461618080-2.402.4072727474747473736666676780807373646475757878696944747480807676646466667171828278786767797956566464656571.671.67.17.156568383-0.900.9069697474646466666262757571718080838377777676717155757572727979747476766565808071717474757579797474737373.73.554.44.4656580801.001.0066667373757566667777767670706868797968688080737366646478787171707070706767797972726363707074747272818171.571.56.06.058588282-1.001.0073737171585878787373737380807070828265656464696977747467677171777770706161666670707373707067677979797971.771.76.96.957578686-0.800.8057578686707064647171808077776161717178788080747488626273738080646484846666747469697676686874745656757570.570.56.66.656568484-2.002.0069698383848468686868676777777171666670707474646499737368686262737373736969767671716868787870707272646472.072.05.15.160608181-0.500.507272818160607676777769697373747476767171767679791010797982827575646477777474773367676767848479797878737373.973.96.86.8606084841.401.40808083837878767660608080797972727272666661616969710110222111(72.871.673.9)71.921010()(72.871.92)(73.971.92)6.31.201.2610110125iiiixxxxxs=+=-+-=-LL抽样误差l结果:

各样本均数不一定等于总体均数样本均数间存在差异样本均数的分布规律:

围绕总体均数上下波动样本均数的变异:

由样本均数的标准差描述,样本均数的波动幅度远小于原始资料的波动幅度抽样误差基本上在0附近近似对称地随机波动在同一总体进行随机抽样,随着样本例数的增加,样本均数的波动幅度在减小。

8抽样误差l抽样误差Samplingerror由抽样引起的样本统计量与总体参数间的差异l来源:

个体变异抽样l表现样本统计量与总体参数间的差异样本统计量间的差异9l样本均数的规律性随机的在概率意义下是有规律的-抽样分布通过大量重复抽样,借助频数表描述样本均数的变异规律(抽样分布)与个体观察值变异规律有关l即使只有一个样本资料,也可由样本资料的个体观察值的变异规律间接得到样本均数的变异规律抽样分布10正态总体样本均数的分布l例4-3按本量样为9和本量样为25在上述体中总N(72.5,6.3)行机抽进随样l每次抽取10000本算各自的本个样并计样均数l以10000本均作一新的本制个样数为个样作率密度分布频图11抽样1样本含量n=9的平均数=72.54的标准差=2.14样本均数的分布原始资料的分布理论值12xx6.32.109抽样2样本含量n=25的平均数=72.50的标准差=1.27理论值13xx6.31.2625抽样3样本含量n=36的平均数=72.50的标准差=1.06理论值14xx6.31.0536l从正态分布的总体中随机抽取样本含量为n的样本X1,X2,Xn,其样本均数服从正态分布,总体均数为;样本均数的总体标准差l若,则其中任意一个随机样本Xn的均数正态总体样本均数的分布152(,)NmsXm2(,)XNms2(,)xXNmsxnss=资料的总体标准差l样本均数的标准差,称为样本均数的标准误(standarderrorofmean,SE),简称均数标准误l它反映样本均数之间的离散程度,也反映样本均数抽样误差的大小。

l误差大小,实质是要估计的分布特征正态总体样本均数的分布16XsXsXm-Xl由于实际往往未知,需要用样本来估计,样本均数标准误的估计式为l注意区别:

l证明:

正态总体样本均数的分布17XXSSn=XsXXSSss和和()EXm=XXnss=XsXS非正态总体样本均数的分布l例4-4从总体均数为1,总体方差为2的卡方分布中抽样,样本大小分别为4,9,200。

每次抽10000个样本制作频率密度分布图1819在1的卡方分布总体随机抽取一个样本b:

个体观察值频数图(样本含量n=1000)。

.99940X,S=1.5612,中位数M=0.8524样本含量n=4的平均数=1.0111的标准差=0.7084的中位数=0.853120x20.70714xx样本含量n=9的平均数=1.0078的标准差=0.4771的中位数=0.92802120.47149xxx样本含量n=200的平均数=1.0078的标准差=0.1004的中位数=0.997322xxx20.1200l非正卡方分布体中机抽所得从态总随样样本均:

数在本含量小呈偏样较时态本含量大接近正分布样较时态均始在体均附近数终总数均的准差数标非正态总体样本均数的分布23XX1m=XXn的总体标准差中心极限定理及其应用l本均体准差是体料样数总标个资X的体总准差的;即理准标论标误l理准的本估论标误样计值为l本均体料样数与个资X的集中位置相同,即本均的体均体料样数总数与个资X的总体均相同数24Xmxnss=1/nXXSSn=XX中心极限定理及其应用l若个体资料X服从正态总体,则样本均数也服从正态分布;l个体资料X服从偏态分布,当样本量n较大时,样本均数近似服从正态分布252(,)Nms2(,)XXNmsX/XXXXUnmmss-=(0,1)UNX2(,)XXNmsl例4-5大规模普查得某地健康成年男子血红蛋白总体均数为.随机抽样,样本量为100,理论标准误和样本均数的估计标准误。

26135/,20.5/gLgLms=130/,23.4/xgLsgL=二、率的抽样误差和抽样分布l总体率由样本率估计例如,设样本的个体数(即样本含量)为n,若x为样本的某指标阳性个体数,则可用样本阳性率估计研究人群的阳性率(总体阳性率);l由于个体差异和偶然性的影响,样本率也存在抽样误差-由抽样造成样本率与总体率(研究人群的率)的差异l样本率是随机的,但在概率意义下也是有规律的-样本率的分布。

27nxpl随机抽样试验,分别在总体率=0.25,0.5,的总体中随机抽样,其总体率和样本含量nl每种情况分别随机抽10000个样本,每个样本计算其样本率,把同一种情况的10000个样本率视为一个新的样本资料作频率图样本率的分布28抽样10102030Density0.1.2.3.4.5.6.7.8.91pp29n=5,=0.5p的均数为0.5024p的标准差为0.22240.50.50.22365抽样10102030Density0.1.2.3.4.5.6.7.8.91pp30n=10,=0.5p的均数为0.5019p的标准差为0.15870.50.50.158110抽样30102030Density0.1.2.3.4.5.6.7.8.91pp31n=20,=0.5p的均数为0.4999p的标准差为0.11190.50.50.111820抽样40102030Density0.1.2.3.4.5.6.7.8.91pp32n=5,=0.25p的均数为0.2536p的标准差为0.19340.250.750.193650102030Density0.1.2.3.4.5.6.7.8.91pp3310,0.25.2526.13720.250.75.136910nppp=的均数0的标准差000102030Density0.1.2.3.4.5.6.7.8.91pp3420,0.25.25040.09660.250.75.096820nppp=的均数0的标准差0l结果总体率相同时,样本含量越大,样本率的分布越趋向对称。

样本含量n相同时,越偏离0.5,样本率的分布越偏态分布。

总体率0.5时,任意样本含量的样本率都呈对称分布。

样本率p的样本标准差。

样本率的分布35n)(1中心极限定理及其推论l若样本中的个体个数(即样本含量)为n,总体率为,样本率为p,则样本率的总体均数等于总体率样本率的总体标准差(即率的标准误)由于总体率通常是未知的,因而用样本率p来估计,故率的标准误的估计值常表示为36Pmp=nP)1

(1)PPPSn-=对于大量重复随机抽样而言,样本率p围绕着总体率波动样本含量n越大,这种波动越小。

当n的值充分大时,p的分布就近似于均数为,标准差为的正态分布。

这里样本含量n“充分大”指、且n40。

当总体率0.5时,则样本率p的分布为对称分布当样本含量n为定值时,总体率越接近0.5,样本率p近似正态分布的程度就越好中心极限定理及其推论37pp

(1)npp-5np

(1)5np-STATA命令模拟各种分布l模拟正态分布的样本均数分布Simumean样本量均数标准差l模拟类似卡方分布的均数分布Simuchis样本量均数l模拟指数分布的均数分布Simuexp样本量均数38t分布l,标准正态分布与t统计量l实际研究中未知,用样本的标准差S作为的一个近似值(估计值)代替,得到变换后的统计量并记为39(0,1)XUNnms-=:

XtSnm-=2(,)XNmsl如在正态总体N(168.18,62)中随机抽样,样本量分别取n=5,n=100,均抽10000个样本,分别计算t值和U值并作相应t的频数图t分布40样本量统计量平均值P2.5P97.5u0.0149031-1.9500671.969157n=5t0.0319309-2.6542142.838163u0.0033231-1.9508861.971245n=100t0.0034704-1.9811832.000407t分布样本含量n=5样本含量n=100t统计量的频率密度图41l结果小样本时,t统计量和U统计量的分布有明显差别大样本时,t统计量和U统计量的分布非常接近。

l频率密度图当样本量较大时,统计量t的频率密度图与标准正态分布曲线非常接近样本含量较小时,t统计量的峰值比标准正态分布的峰值略小,双侧尾部的值则较标准正态分布略大t分布42l英国统计学家W.S.Gosset(1908)设并给出了统计量t的分布规律,并称统计量t的分布规律为t分布,自由度为v,记为t(v)分布。

l每个自由度v对应一个分布,因此t分布是一簇分布lt分布仅与总体均数有关,与总体标准差无关t分布43/XtSn1nn=-2(,)XNmsSTATA命令模拟各种分布l模拟双峰分布的均数分布Simubpeak样本量均数l模拟三角形分布的均数分布Simutrang样本量均数44l三条t分布密度曲线t分布v=1v=5v=45t分布的图形特征l分布特征t分布曲线是单峰的关于t=0对称自由度越大,t值越小lt分布与正态分布的关系自由度v较小时,t分布与标准正态分布相差较大,并且t分布曲线的尾部面积大于标准正态分布曲线的尾部面积当自由度时,t分布逼近于标准正态分布。

46t分布的界值l给定自由度v,t分布曲线的双侧尾部面积为时对应的t值,记为并称为t的双侧界值l单侧界值:

一侧尾部面积为时对应的t值l对称性得:

单侧曲线下面积=2双侧曲线下面积l同样的尾部面积,t分布的界值要大于标准正态分布的界值47vt,2/vt,t分布界值示意图,表示阴影的面积48

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 工作范文 > 制度规范

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1