数学模型数学建模第七次作业数理统计实验.docx
《数学模型数学建模第七次作业数理统计实验.docx》由会员分享,可在线阅读,更多相关《数学模型数学建模第七次作业数理统计实验.docx(20页珍藏版)》请在冰豆网上搜索。
数学模型数学建模第七次作业数理统计实验
数学模型第七次作业数理统计实验
7.1实验目的与要求
●学会对数据的参数进行估计和作相应的假设检验
●学会对分布进行检验和数据的秩检验
●建立相应的统计模型,并用R软件求解
7.2基本实验
1.区间估计
已知某种灯泡寿命服从正态分布,在某星期所生产的该灯泡中随机抽取10只,测得其寿命(单位:
小时)为
1067919119678511269369181156920948
(1)试问这批灯泡中大约95%的灯泡至少使用多少小时;
(2)求这批灯泡能够使用1000小时以上的概率。
解:
(1)根据题意,使用R软件求解,编辑程序如下:
>X<-c(1067,919,1196,785,1126,936,918,1156,920,948)资料个人收集整理,勿做商业用途
>t.test(X,al="g")
得到如下结果:
OneSamplet-test
data:
X
t=23.9693,df=9,p-value=9.148e-10
alternativehypothesis:
truemeanisgreaterthan0资料个人收集整理,勿做商业用途
95percentconfidenceinterval:
920.8443Inf
sampleestimates:
meanofx
997.1
由此知道这批灯泡中大约95%的灯泡至少使用920.8443小时。
(2)
>x<-c(1067,919,1196,785,1126,936,918,1156,920,948)资料个人收集整理,勿做商业用途
>x
[1]1067919119678511269369181156920948资料个人收集整理,勿做商业用途
>pnorm(1000,mean(x),sd(x))
[1]0.5087941
由此知道求这批灯泡能够使用1000小时以上的概率为50.87941%
2.假设检验I
正常男子血小板计数均值为225×109/L,今测得20名男性油漆作业工人的血小板计数值(单位:
109/L)资料个人收集整理,勿做商业用途
220188162230145160238188247113资料个人收集整理,勿做商业用途
126245164231256183190158224175资料个人收集整理,勿做商业用途
问油漆工人的血小板计数与正常成年男子有无差异,并说明油漆作业对人体血小板计数是否有影响。
解:
根据题意,设原假设为H0:
与正常男子血小板计数无差异,对立假设H1:
与正常男子血小板计数有差异。
可以使用R软件求解此问题,
>x<-c(220,188,162,230,145,160,238,188,247,113,126,245,164,231,256,183,190,158,224,175)资料个人收集整理,勿做商业用途
>t.test(x,mu=225,alternative="less")
得到如下结果:
OneSamplet-test
data:
x
t=-3.4783,df=19,p-value=0.001258
alternativehypothesis:
truemeanislessthan225
95percentconfidenceinterval:
-Inf208.4806
sampleestimates:
meanofx
192.15
做出原假设:
油漆工人的血小板计数与正常成年男子无差异;做出备择假设:
油漆工人的血小板计数与正常成年男子有差异。
资料个人收集整理,勿做商业用途
此时的P-值为0.002516小于0.05,拒绝原假设,因此认为油漆工人的血小板计数与正常成年男子有差异。
资料个人收集整理,勿做商业用途
3.假设检验II
为研究国产四类新药阿卡波糖胶囊效果,某医院用40名II型糖尿病病人进行同期随机对照试验。
试验者将这些病人随机等分到试验组(阿卡波糖胶囊组)和对照组(拜唐苹胶囊),分别测得试验开始前和8周后的空腹血糖,算得空腹血糖下降值如表下:
资料个人收集整理,勿做商业用途
试验组-0.70-5.602.002.800.703.504.005.807.10-0.502.50-1.601.703.000.404.504.602.506.00-1.40资料个人收集整理,勿做商业用途
对照组3.706.505.005.200.800.200.603.406.60-1.106.003.802.001.602.002.201.203.101.70-2.00资料个人收集整理,勿做商业用途
(1)假设数据服从正态分布,试用t检验(讨论方差相同和方差不同两种情况)和成对t检验来判断:
国产四类新药阿卡波糖胶囊拜唐苹胶囊对空腹血糖的降糖效果是否相同?
并分析三种检验方法各自的优越性。
资料个人收集整理,勿做商业用途
(2)检验试验组和对照组的数据的方差是否相同?
解:
(1)根据题意:
建立检验假设,确定检验水准:
H0:
1=2即阿卡波糖胶囊组与拜糖平胶囊组空腹血糖下降值总体均数相等;H1:
1≠2即阿卡波糖胶囊组与拜糖平胶囊组空腹血糖下降值总体均数不相等;=0.05。
资料个人收集整理,勿做商业用途
使用t检验,若两组数据方差相同时,编辑R软件程序如下:
>x<-c(-0.70,-5.60,2.00,2.80,0.70,3.50,4.00,5.80,7.10,-0.50,2.50,-1.60,1.70,3.00,0.40,4.50,4.60,2.50,6.00,-1.40)资料个人收集整理,勿做商业用途
>y<-c(3.70,6.50,5.00,5.20,0.80,0.20,0.60,3.40,6.60,-1.10,6.00,3.80,2.00,1.60,2.00,2.20,1.20,3.10,1.70,-2.00)资料个人收集整理,勿做商业用途
>t.test(x,y,var.equal=TRUE)
得到如下结果:
TwoSamplet-test
data:
xandy
t=-0.6419,df=38,p-value=0.5248
alternativehypothesis:
truedifferenceinmeansisnotequalto0资料个人收集整理,勿做商业用途
95percentconfidenceinterval:
-2.3261791.206179
sampleestimates:
meanofxmeanofy
2.0652.625
分析结果,p-value=0.5248>0.05,所以接受原假设H0,即试验组与对照组没有显著差异。
根据题意,若两组数据方差不同时,利用R软件进行t检验:
>t.test(x,y)
得到如下结果
WelchTwoSamplet-test
data:
xandy
t=-0.6419,df=36.086,p-value=0.525
alternativehypothesis:
truedifferenceinmeansisnotequalto0资料个人收集整理,勿做商业用途
95percentconfidenceinterval:
-2.329261.20926
sampleestimates:
meanofxmeanofy
2.0652.625
因此试验组与对照组的没有显著差异。
进行成对t检验:
>t.test(x,y,paired=TRUE)
得到如下结果:
Pairedt-test
data:
xandy
t=-0.6464,df=19,p-value=0.5257
alternativehypothesis:
truedifferenceinmeansisnotequalto0资料个人收集整理,勿做商业用途
95percentconfidenceinterval:
-2.3731461.253146
sampleestimates:
meanofthedifferences
-0.56
即试验组与对照组的结果也没有显著差异。
故三中检验的结果都显示两组数据均值无差异。
对比三种检验方式,如果两个样本是成对的,应该使用成对的t检验,如果不使用成对t检验,t值会变小,p值会变大,准确性差了很多。
资料个人收集整理,勿做商业用途
(2)方差检验:
>var.test(x,y)
得到如下结果:
Ftesttocomparetwovariances
data:
xandy
F=1.5984,numdf=19,denomdf=19,p-value=0.3153资料个人收集整理,勿做商业用途
alternativehypothesis:
trueratioofvariancesisnotequalto1资料个人收集整理,勿做商业用途
95percentconfidenceinterval:
0.63265054.0381795
sampleestimates:
ratioofvariances
1.598361
故两组数据方差相同。
4.假设检验III
某医院研究乳腺癌家族史对于乳腺癌发病率的影响。
假设调查了10000名50-54岁的妇女,她们的母亲曾患有乳腺癌。
发现她们在那个生存期的某个时刻有400例乳腺癌,而全国在该年龄段的妇女乳腺癌的患病率为2%,这组数据能否说明乳腺癌的患病率与家族遗传有关。
资料个人收集整理,勿做商业用途
解:
根据题意提出假设:
建立检验假设,确定检验水准:
H0:
p=p0=2%即患病率相符;H1:
p≠p0即患病率不符;=0.05。
资料个人收集整理,勿做商业用途
使用R软件进行校验:
>binom.test(400,10000,p=0.002)
得到如下结果:
Exactbinomialtest
data:
400and10000
numberofsuccesses=400,numberoftrials=10000,p-value<资料个人收集整理,勿做商业用途
2.2e-16
alternativehypothesis:
trueprobabilityofsuccessisnotequalto0.002资料个人收集整理,勿做商业用途
95percentconfidenceinterval:
0.036243780.04402702
sampleestimates:
probabilityofsuccess
0.04
检验出P-值<0.05,因此不符合原假设,即这组数据不能说明乳腺癌的患病率与家族遗传有关。
5.分布检验I
Mendel用豌豆的两对相对性状进行杂交实验,黄色圆滑种子与绿色皱缩种子的豌豆杂交后,第二代根据自由组合规律,理论分离比为黄圆:
黄皱:
绿圆:
绿皱=
。
实际实验值为:
黄圆315粒,黄皱101粒,绿圆108粒,绿皱32粒,共556粒,问此结果是否符合自由组合规律?
资料个人收集整理,勿做商业用途
解:
根据题意提出假设:
建立检验假设,确定检验水准:
H0:
结果符合自由组合规律;H1:
结果不符合自由组合规律;=0.05。
资料个人收集整理,勿做商业用途
使用R软件进行校验,利用pearson卡方检验是否符合特定分布:
>chisq.test(c(315,101,108,32),p=c(9,3,3,1)/16)
得到如下结果:
Chi-squaredtestforgivenprobabilities
data:
c(315,101,108,32)
X-squared=0.47,df=3,p-value=0.9254
分析结果结果p-值为0.9254>0.05,所以接受原假设,即此结果符合自由组合规律。
6.分布检验II
观察每分钟进入某商店的人数X,任取200分钟,所得数据表7.1所示。
试分析,能否认为每分钟顾客数X服从Poisson分布(α=0.1).资料个人收集整理,勿做商业用途
解:
根据题意提出假设:
建立检验假设,确定检验水准:
H0:
每分钟顾客数X服从Poisson分布;H1:
每分钟顾客数X不服从Poisson分布;α=0.1。
资料个人收集整理,勿做商业用途
使用R软件进行校验:
首先利用pearson卡方检验是否符合泊松分布:
>X<-0:
5;Y<-c(92,68,28,11,1,0)
>q<-ppois(X,mean(rep(X,Y)));
>n<-length(Y)
>p<-numeric(n);
>p[1]<-q[1];
>p[n]<-1-q[n-1];
>for(iin2:
(n-1))
+p[i]<-q[i]-q[i-1]
>chisq.test(Y,p=p)
得到如下结果:
Chi-squaredtestforgivenprobabilities
data:
Y
X-squared=2.1596,df=5,p-value=0.8267
警告信息:
Inchisq.test(Y,p=p):
Chi-squared近似算法有可能不准
得到警告,因为Pearsonχ2检验要求在分组后,至少要大于等于5,而后两组中出现的顾客数是1,0,均小于5,重新分组,合并频数小于5的组:
资料个人收集整理,勿做商业用途
>Z<-c(92,68,28,12)
>n<-length(Z);p<-p[1:
n-1];p[n]<-1-q[n-1]
>chisq.test(Z,p=p)
得到如下结果:
Chi-squaredtestforgivenprobabilities
data:
Z
X-squared=0.9113,df=3,p-value=0.8227
分析结果,p-值为0.8227>0.1,因此,接受原假设,即每分钟顾客数X服从Poisson分布。
7.分布检验III
一般认为长途电话通过电话总机的过程是一个随机过程,其间打进电话的时间间隔服从指数分布,某个星期下午1:
00以后最先打进的10个电话的时间为资料个人收集整理,勿做商业用途
1:
061:
081:
161:
221:
231:
341:
441:
471:
511:
57
试用Kolmogorov-Smirnov检验分析打进电话的时间间隔是否服从指数分布。
解:
根据打进的电话时间算出时间间隔:
1:
00
1:
06
1:
08
1:
16
1:
22
1:
23
1:
34
1:
44
1:
47
1:
51
1:
57
6
2
8
6
1
11
10
3
4
6
建立检验假设,确定检验水准:
H0:
打进电话的时间间隔服从指数分布;H1:
打进电话的时间间隔不服从指数分布;α=0.05。
假设指数分布的参数λ为
=0.1,利用R软件进行检验:
资料个人收集整理,勿做商业用途
x<-c(6,2,8,6,1,11,10,3,4,6)
ks.test(x,"pexp",0.1)
得到如下结果:
One-sampleKolmogorov-Smirnovtest
data:
x
D=0.3329,p-value=0.2178
alternativehypothesis:
two-sided
因此P-值为0.2178>0.05,因此接受原假设,即打进电话的时间间隔是否服从指数分布。
8.列联表检验I
向120名女性和120名男性做调查,了解他们关于给谁买节日礼物最难的看法,调查结果如表7.2所示。
试分析:
女性和男性在关于给谁买节日礼物最难的看法上有没有显著差异。
资料个人收集整理,勿做商业用途
解:
根据题意,利用R软件输入数据,使用chisq.test()作检验。
>compare<-matrix(c(28,42,34,31,23,9,7,11,13,7,15,20),nr=2,dimnames=list(c("女性","男性"),c("配偶","父母","子女","兄弟姐妹","姻亲","其他亲属")))资料个人收集整理,勿做商业用途
>chisq.test(compare,correct=TRUE)
得到如下结果:
Pearson'sChi-squaredtest
data:
compare
X-squared=12.4666,df=5,p-value=0.02892
由于p-值为0.02892<0.05,因此拒绝原假设,认为女性和男性在关于给谁买节日礼物最难的看法上是有显著差异的。
资料个人收集整理,勿做商业用途
9.列联表检验II
为研究人脑的左右半球恶性肿瘤的发病率是否有显著差异,对人脑恶性肿瘤和良性肿瘤的发病情况做了调查,调查结果如表7.3所示.试进行分析。
资料个人收集整理,勿做商业用途
解:
根据题意,其所给数据不满足χ2检验条件,固使用Fisher精确检验。
>x<-matrix(c(9,1,3,3),nc=2)
>fisher.test(x)
得到如下结果:
Fisher'sExactTestforCountData
data:
x
p-value=0.1181
alternativehypothesis:
trueoddsratioisnotequalto1资料个人收集整理,勿做商业用途
95percentconfidenceinterval:
0.4313171521.0928115
sampleestimates:
oddsratio
7.63506
由此计算出的p-值=0.1181>0.05,并且区间估计得到的区间包含有1,因此说明两个变量是独立的,即认为左右半球恶性肿瘤的发病率并无显著差异。
资料个人收集整理,勿做商业用途
10.Wilcoxon秩和检验I
(1)为了了解新的数学教学方法的效果是否比原来方法的效果有所提高,从水平相当的10名学生中随机地各选5名接受新方法和原方法的教学试验。
专家对10名学生的数学能力予以综合评估,并按其数学能力由弱到强排序如下资料个人收集整理,勿做商业用途
对α=0.05,检验新方法是否比原方法显著地提高了教学效果。
(2)若新方法与原方法得到排序结果改为
能否说明新方法比原方法显著提高了教学效果?
解:
(1)因为Wilcoxon秩和检验本质只需排出样本的秩次,而且题目中的数据本身就是一个排序,因此可直接使用,编写R程序如下:
资料个人收集整理,勿做商业用途
>x<-c(3,5,7,9,10)
>y<-c(1,2,4,6,8)
>wilcox.test(x,y,alternative="greater")
得到如下结果:
Wilcoxonranksumtest
data:
xandy
W=19,p-value=0.1111
alternativehypothesis:
truelocationshiftisgreaterthan0资料个人收集整理,勿做商业用途
得到的p-值为0.1111>0.05,因此接受原假设,即并不能认为新的教学效果显著优于原方法。
(2)同第一问,编写R程序如下:
>x<-c(4,6,7,9,10)
>y<-c(1,2,3,5,8)
>wilcox.test(x,y,alternative="greater")
得到如下结果:
Wilcoxonranksumtest
data:
xandy
W=21,p-value=0.04762
alternativehypothesis:
truelocationshiftisgreaterthan0资料个人收集整理,勿做商业用途
得到的p-值为,因此拒绝原假设,即认为新方法比原方法显著提高了教学效果。
11.Wilcoxon秩和检验II
为比较一种新疗法对某种疾病的治疗效果,将40名患者随机地分为两组,每组20人,一组采用新疗法,另一组用原标准疗法.经过一段时间的治疗后,对每个患者的疗效作仔细的评估,并划分为差、较差、一般、较好和好五个等级.两组中处于不同等级的患者人数如表7.4所示。
试分析,由此结果能否认为新方法的疗效显著地优于原疗法(α=0.05)。
资料个人收集整理,勿做商业用途
解:
根据题意,可以将不同方法治疗后的结果用5个不同的值表示,1表示最差,5表示最好,这样就可以为这些病人排序,因此,可用Wilcoxon秩和检验来分析问题。
编写R程序:
资料个人收集整理,勿做商业用途
>x<-rep(1:
5,c(0,1,9,7,3))
>y<-rep(1:
5,c(2,2,11,4,1))
>wilcox.test(x,y,exact=F)
得到如下结果:
Wilcoxonranksumtestwithcontinuitycorrection
data:
xandy
W=266,p-value=0.05509
alternativehypothesis:
truelocationshiftisnotequalto0资料个人收集整理,勿做商业用途
由计算结果知道p-的值为0.05509大于0.05,不能拒绝原假设,尚不能认为新方法的疗效显著优于原疗法。
资料个人收集整理,勿做商业用途
7.3加分实验(产品装箱问题)
A厂把加工好的螺母封装成盒,标准为200个/盒。
封装好的产品卖给用户。
如果盒中的螺母个数少于200,会造成用户的生产线停顿,用户会因此向该厂索赔。
资料个人收集整理,勿做商业用途
(1)封装生产线采用称重计数的方式。
已知螺母的重量X~N(100,4)(单位:
克),封装时电脑自动称量盒中螺母的重量,并由此估计螺母的个数,显示在屏幕上。
控制人员通过终端设定每盒中应该装填的螺母数,就可以开动由电脑控制的封装线了。
为了尽量避免出现不足的情况,控制人员设定的装填个数一般比200大一些。
假定盒子及其误差可以忽略不计,电子称称量重量为μ克的物体所得读数服从均值为μ,标准差为3的正态分布。
资料个人收集整理,勿做商业用途
(i)试问:
设定的个数至少为多少时,才能保证盒中实际螺母数少于200的概率不大于0.0001?
(ii)设每个螺母成本为1元钱,用户每天需要200盒螺母,用户的生产线每停顿一次损失5000元,这些损失全部由A厂承担。
问设置数为多少时该厂的平均损失最少?
资料个人收集整理,勿做商业用途
(2)若螺母重量分布的方差未知,采用下列方法:
开始时放5个在盒中并从控制终端输入盒中个数为5,如此直至盒中有20个。
在此过程中,电脑会自动称量盒中螺母并记录下每5个螺