数理统计第一次实验报告Word格式.docx
《数理统计第一次实验报告Word格式.docx》由会员分享,可在线阅读,更多相关《数理统计第一次实验报告Word格式.docx(18页珍藏版)》请在冰豆网上搜索。
时,一般5组左右。
分组数m确定后,可按
来确定组距d。
第三步:
定分点,定区间:
取起点a=151.5,终点181.5,从而作图区间为[151.5,181.5](取各组的边界值比身高多一位小数,为的是使每个身高都落在一个组的内部)。
第四步:
列出样本值落入各组的频数和频率。
第五步:
做频率直方图。
直方图是最常用的一种表现数据的方法,它通常把值域分成若干相等的区间,于是数据就按区间分成若干组,每组做成一个矩形,其高和该组中数据的多少成比例,其底为所属区间,这些矩形就是直方图,它给数据的分布一个直观的形象。
直方图以组距为底,以频率为高作矩形。
可以想象,若得到的数据很多,这时,直方图的分组增多,组距变得很小,画出的直方图顶端阶梯形近似一条曲线,于是可以用这条曲线近似描述该组数据的分布规律。
(2)改变实验
(1)中的组距,将得到的图形与
(1)得到的图形比较,你能得到什么结论?
实验3:
设样本
取自总体U(a,b),a,b为未知参数,试求a,b的矩估计和极大似然估计。
由计算可以得出a,b的矩估计量分别为:
,
极大似然估计分别为:
下面进行模拟:
(1)取a=0,b=1,N=50,产生N个服从U(a,b)分布的随机数当做样本,分别代入式中计算a,b的估计值,并与理论值0,1比较;
(2)将
(1)重复10次,用10次估计值的平均值作为a,b的估计,并与
(1)的结果比较,体会其中包含的概率思想。
实验4:
设总体X服从正态分布
,取
,从总体抽取10组容量为20的样本,分别以
和
作为总体均值
的估计量,计算10组估计值并描在图上。
(将点描在坐标轴上),从中你可以得到什么结论?
图1:
以
作为估计量
图2:
实验5:
已知
来自正态总体
,其中
,求置信度为0.99的
置信区间。
二.分析与解答
首先产生100个服从N(5,1)分布的随机数作为样本值
.
rnorm(100,mean=5,sd=1)
根据产生的数据画出正态分布的经验分布函数:
w<
-(rnorm(100,mean=5,sd=1))
curve(pnorm(x,mean(w),sd(w)),xlim=c(0,20),col="
blue"
lwd=3)
与总体正态分布函数进行比较:
x<
-seq(0,20,length.out=100)
lines(x,pnorm(x,5,1),col="
red"
)
legend("
bottomright"
legend=paste("
m="
c(5,5),"
sd="
c(1,1)),lwd=1,col=c("
"
))
当取n的值为200:
w=(rnorm(200,mean=5,sd=1))
x<
-seq(0,20,length.out=200)
lines(x,pnorm(x,5,1),col="
green"
legend("
当取n的值为300:
w=(rnorm(300,mean=5,sd=1))
-seq(0,20,length.out=300)
orange"
设X1,X2,…,Xn是取自总体X的随机样本,Fn(x)是总体X的经验分布函数,当n→∞时由格列汶科定理知:
该定理当样本容量n充分大时,经验分布函数Fn(x)可以作为总体分布函数F(x)的一个良好的近似。
实验二:
【实验步骤】
Ø
第一步自定义绘制频数直方图的函数
HIST<
-function(data,m){
res<
-1:
m;
lable<
A<
-min(data)-1;
B<
-max(data)+1;
dis<
-(max(data)-min(data))%/%m+1;
for(jin1:
m){
for(iin1:
length(data)){
if(data[i]>
A+(j-1)*dis&
&
data[i]<
=B-(m-j)*dis)res[j]=res[j]+1;
}
lable[j]=paste(as.character(A+(j-1)*dis),"
~"
as.character(B-(m-j)*dis));
}
barplot(res,width=1,names.arg=lable);
}
变量data用于存放数据,变量m表示分组数
第二步改变分组个数,多次试验
m=5的结果:
M=10的结果:
M=15的结果:
【实验结论】
组距越小,分组越细,对数据分布的刻画就越精确,相反的,如果采用较大的组距,更方便从整体上反应数据的大致分布情况。
实验三:
(1)首先产生50个服从U(0,1)分布的随机数
runif(50,min=0,max=1)
矩估计:
根据公式
首先计算出均值和方差:
x1<
-mean(x)
x2<
-var(x)
将计算的结果带入求取a的估计值:
a1<
-(x1-sqrt(3*x2))
同理
可求出b的估计量:
将运算重复10次,用10次估计值的平均值作为a,b的矩估计值
a<
-vector(mode="
numeric"
length=0)
for(iin1:
10)
{
a[i]<
-i
a2=0;
x<
-runif(50,min=0,max=1)
a[i]<
a2=a2+a[i]
a2/10
同理将10次计算的结果求出平均值作为b的估计值
b2=0;
-(x1+sqrt(3*x2))
b2=b2+a[i]
b2/10
极大似然估计:
b1=min(x)
b2=max(x)
将运算重复10次,用10次估计值的平均值作为a,b的极大似然估计值
b[i]<
b1=0
b2=0
a[i]=min(x)
b[i]=max(x)
b1=b1+a[i]
b2=b2+b[i]
实验结论:
矩估计法生成的结果是$0.003933=,1.004076=$
极大似然估计法生成的结果是$0.007297,0.9797615=$
从而可得出,两种结果都还是比较接近理论值的,在此情况下,极大似然估计的估计效果比矩估计效果更理想
在R中输入以下代码:
r<
-matrix(rnorm(10*20),10,20)#抽取10组容量为20的样本
MEAN<
-1:
10
MIN<
10#计算每一组样本的均值和最小值
plot(0,ylim=c(-5,2),col="
white"
);
10){MEAN[i]=mean(r[i,]);
points(MEAN[i],pch=1,col="
MIN[i]=min(r[i,]);
points(MIN[i],pch=0,col="
}#在同一坐标轴上画出图像,蓝色表示均值,绿色表示最小值
若取每次试验的样本容量为200,结论如下图:
若取每次试验的样本容量为2000,结论如下图:
可以看出如下几个结论:
1.可以证明,样本均值是μ的无偏估计量,图上的样本均值集中在μ的取值附近;
2.重复多次抽取样本,样本均值的离散程度(变化程度)小,而样本中最小值的离散程度比较高;
3.随着每次试验的样本容量的增加,样本均值的取值会越来越集中于0,而样本最小值则会越来越小。
实验目的:
实验过程:
分析该题目,此题为在已知方差
的情况下,求出置信度为0.99的置信区间。
取定
=5
首先产生100个服从N(5,1)的随机变量
rnorm(100,5,1)
若置信度为0.95则可根据R语言函数t.test直接计算出置信区间。
当置信度为0.99时,
由正态分布的方差已知时,我们首先计算均值的置信区间
书上的公式为x¯
±
(σ/n√)z1−σ/2,其中Zp表示的是正态分布N(0,1)下侧的p分位数。
我们用R来实现求得这一结果的过程。
编写函数
先用mean(x)求出样本的平均值,然后用qnorm(1-alpha/2)求出Z1-a/2,
w.test<
-function(x,n,s,a)
mean<
ans<
-c(mean-s*qnorm(1-a/2,mean=0,sd=1,lower.tail=TRUE)/sqrt(n),
mean+s*qnorm(1-a/2,mean=0,sd=1,lower.tail=TRUE)/sqrt(n))
ans
-rnorm(100,5,1)
w.test(x,100,1,0.01)