概率论课程设计汇总.docx
《概率论课程设计汇总.docx》由会员分享,可在线阅读,更多相关《概率论课程设计汇总.docx(17页珍藏版)》请在冰豆网上搜索。
概率论课程设计汇总
成绩评定表
学生姓名
石佩林
班级学号
1009010218
专业
信息与计算科学
课程设计题目
某校学生身高体重抽样样本的假设检验
评
语
组长签字:
成绩
日期
2012年6月28日
课程设计任务书
学院
专业
学生姓名
班级学号
课程设计题目
某校学生身高体重抽样样本的假设检验
实践教学要求与任务:
通过该课程设计,使学生进一步理解概率论与数理统计的基本概念、理论和方法;初步掌握Excel统计工作表在随机模拟中是应用,MATLAB统计软件包对数据进行统计检验和统计分析;具备初步的运用计算机完成数据处理的技能,使课堂中学习到理论得到应用。
1.数据整理:
收集数据,录入数据,画出相应图形;建立数学模型,数据的输入与整理,各种数据的图形显示。
2.假设检验:
MATLAB绘制出直方图,做数据分布的推测;参数估计,假设检验,绘制概率密度图。
3.单因素、多因素方差分析:
正态总体的方差分析问题;MATLAB统计软件中关于方差分析的相关命令,做出方差分析表,box图,能对结果进行简单分析。
4.一元、多元线性回归模型:
回归系数的估计与检验,数据散点与回归直线的图示,残差图。
运用MATLAB统计软件,对给定的数据拟合回归方程。
工作计划与进度安排:
周三1~2节:
选题,设计解决问题方法
周三3~8节:
调试程序
周四1~4节:
完成论文,答辩
指导教师:
年月日
专业负责人:
年月日
学院教学副院长:
年月日
摘要
数理统计是具有广泛应用的数学分支,而对于数据的特征分析有着很重要的作用。
在数理统计中参数估计和假设检验都是对数据分析的重要环节。
假设检验是数理统计学中根据一定假设条件由样本推断总体的一种方法。
具体作法是:
根据问题的需要对所研究的总体作某种假设,记作H0;选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受假设H0的判断。
常用的假设检验方法有u—检验法、t—检验法、X2检验法、F—检验法,秩和检验等。
本课题是对某校随机抽取的100名学生的身高体重的测量结果进行数字特征分析。
然后根据要求做假设检验,对学生身高体重与10年前的普查结果有无显著变化做出判断。
关键词:
假设检验;参数估计;回归分析;残差图
目录
1设计目的1
2设计问题1
3设计原理2
3.1参数估计2
3.2假设检验的原理3
4方法实现4
4.1计算均值、中位数、标准差、方差5
4.2作出频数表与频数直方图;6
4.3检验数据是否来自正态分布9
4.4正态分布的参数估计11
4.5假设检验及结果分析12
5设计总结15
参考文献15
致谢15
某校学生身高体重抽样样本的分析
1设计目的
更好理解参数估计、假设检验等基本的数理统计理论以及在实际问题上的应用。
了解概率论与数理统计的知识,熟练掌握概率论与数理统计在实际问题上的应用,并将所学的知识结合MATLAB对数据的处理解决实际问题。
本设计是利用数理统计中的基本理论对某学校学生身高体重抽要结果数据进行分析,明确抽要样本的基本特征,然后根据要求做假设检验,对学生身高体重与10年前的普查结果有无显著变化做出判断。
在整个分析过程中用MATLAB软件进行解算。
2设计问题
某学校随机抽取100名学生,测得他们的身高(单位:
cm)和体重(单位:
kg)如表2-1与表2-2所列
表2-1学生身高
172
171
166
160
155
173
166
170
167
178
173
163
165
170
163
172
182
171
177
173
169
168
168
175
176
168
161
169
171
178
177
170
173
172
170
172
177
176
175
184
169
165
164
173
172
169
173
173
166
163
170
160
165
177
169
176
177
172
165
166
171
169
170
172
169
167
175
164
166
169
167
169
176
182
186
166
169
173
169
171
167
168
165
168
176
170
158
165
172
169
169
172
162
175
174
167
166
174
168
170
表2-2学生体重
60
62
62
55
57
58
55
63
61
60
63
54
62
60
50
60
63
59
64
60
55
70
67
61
64
55
49
67
61
64
62
58
67
59
62
59
58
68
68
72
64
58
59
66
65
62
57
65
73
57
56
65
58
62
63
60
67
56
56
49
65
62
58
61
58
67
72
59
63
54
54
62
63
69
66
75
67
73
65
61
47
65
64
57
65
57
55
62
53
66
50
62
71
66
63
60
64
62
53
66
由以上表中数据计算数据的基本特征值,检验数据是否符合正态分布,进行参数估计。
学校10年前做过普查,学生平均身高为167.5cm,平均体重为60.2kg,试根据这次抽查数据,对学生身高体重有无显著变化做出判断。
3设计原理
3.1参数估计
参数估计(parameterestimation)是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。
它是统计推断的一种基本形式,是数理统计学的一个重要分支,分为点估计和区间估计两部分,标准特点有无偏性、一致性和有效性三个特点。
所用方法有:
(1)矩估计法;用样本矩估计总体矩,如用样本均值估计总体均值。
(2)最小二乘法;为了选出使得模型输出与系统输出yt尽可能接近的参数估计值,可用模型与系统输出的误差的平方和来度量接近程度。
使误差平方和最小的参数值即为所求的估计值。
(3)极大似然法;选择参数θ,使已知数据Y在某种意义下最可能出现。
某种意义是指似然函数P(Y│θ)最大,这里P(Y│θ)是数据Y的概率分布函数。
与最小二乘法不同的是,极大似然法需要已知这个概率分布函数P(Y│θ)。
在实践中这是困难的,一般可假设P(Y│θ)是正态分布函数,这时极大似然估计与最小二乘估计相同
3.2假设检验的原理
假设检验:
统计学中的一种推论过程,通过样本统计量得出的差异作为一般性结论,判断总体参数之间是否存在差异。
假设检验的实质是对可置信性的评价,是对一个不确定问题的决策过程,其结果在一定概率上正确的,而不是全部。
(1)两类假设
对于任何一种研究而言,其结果无外乎有两种可能,即是否符合我们预期。
一般来说证伪一件事情比证实一件事容易,在行为科学的研究中,由于我们无法了解总体中除样本以外的个体情况,因此尝试拒绝虚无假设的方法优于证明备择假设。
备则假设:
因变量的变化、差异却是是由于自变量的作用往往是我们对研究结果的预期,用H1表示。
虚无假设:
实际上什么也没有发生,我们所预计的改变、差异、处理效果都不存在。
观察到的差异只是随机误差在起作用,用H0表示。
(2)小概率原理
小概率原理:
小概率事件在一次试验中几乎是不可能发生的。
至于什么就算小概率事件,那就是我们在计算前明确的决策标准,也就是显著性水平α。
在检验过程中,我们假设虚无假设是真实的,同时计算出观测到的差异完全是由于随机误差所致的概率。
之后将其与我们实现界定好的显著性水平比较,从而考虑是否依据小概率原理来拒绝虚无假设。
(3)两类错误
Ⅰ型错误:
当虚无假设正确时,我们拒绝了它所犯的错误,也叫α错误。
研究者得出了处理有效果的结论,而实际上并没有效果,即所谓“无中生有”
Ⅱ型错误:
当虚无假设是错误的时候,我们没有拒绝所犯的错误,也叫β错误。
假设检验未能侦查到实际存在的处理效应,即所谓“失之交臂”
两类检验的关系
①α+β不一定等于1
②在其他条件不变的情况下,α与β不可能同时减小或增大
(4)检验的方向性
单侧检验:
强调某一方向的检验,显著性的百分等级为α
双侧检验:
只强调差异不强调方向性的检验,显著性百分等级为α/2
对于同样的显著性标准,在某一方向上,单侧检验的临界区域要大于双侧检验,因此如果差异发生在该方向,单侧检验犯β错误的概率较小,我们也说它的检验效力更高。
(5)假设检验的步骤
①根据问题要求,提出虚无假设和备择假设
②选择适当的检验统计量
③确定检验的方向性并规定显著性水平
④计算检验统计量的值
⑤将统计量的值与临界值对比做出决策
4方法实现
在MATLAB输入如下数据
>>x1=[172,171,166,160,55,173,166,170,167,178];
>>x2=[173,163,165,170,163,172,182,171,177,173];
>>x3=[169,168,168,175,176,168,161,169,171,178];
>>x4=[177,170,173,172,170,172,177,176,175,184];
>>x5=[169,165,164,173,172,169,173,173,166,163];
>>x6=[170,160,165,177,169,176,177,172,165,166];
>>x7=[171,169,170,172,169,167,175,164,166,169];
>>x8=[167,169,176,182,186,166,169,173,169,171];
>>x9=[169,168,165,168,176,170,158,165,172,169];
>>x10=[169,172,162,175,174,167,166,174,168,170];
>>y1=[60,62,62,55,57,58,55,63,61,60];
>>y2=[63,54,62,60,50,60,63,59,64,60];
>>y3=[55,70,67,61,64,55,49,67,61,64];
>>y4=[62,58,67,59,62,59,58,68,68,72];
>>y5=[64,58,59,66,65,62,57,65,73,57];
>>y6=[56,65,58,62,63,60,67,56,56,49];
>>y7=[65,62,58,61,58,67,72,59,63,54];
>>y8=[54,62,63,69,66,75,67,73,65,61];
>>y9=[47,65,64,57,65,57,55,62,53,66];
>>y10=[50,62,71,66,63,60,64,62,59,60];
>>x=[x1,x2,x3,x4,x5,x6,x7,x8,x9,x10];
>>y=[y1,y2,y3,y4,y5,y6,y7,y8,y9,y10];
4.1计算均值、中位数、标准差、方差;
在MATLAB里相关命令如下
命令利用mean求算术平均值
格式mean(X)%X为向量,返回X中各元素的平均值
说明:
X为向量时,算术平均值的数学含义是
,即样本均值。
命令利用median计算中值(中位数)
格式median(X)%X为向量,返回X中各元素的中位数。
命令利用var(x)求样本方差
格式D=var(X)%var(X)=
若X为向量,则返回向量的样本方差。
所以输入以下命令及得出的结果
>>mean(x)
ans=170.1700
>>median(x)
ans=170
>>std(x)
ans=5.3221
>>var(x)
ans=28.3243
>>mean(y)
ans=61.3400
>>median(y)
ans=62
>>std(y)
ans=5.4555
>>var(y)
ans=29.7620
得到x的相应统计量的值为
均值170.1700,中位数170,标准差5.3221,方差28.3243
得到y的相应统计量的值为
均值61.3400,中位数62,标准差5.4555,方差29.7620
4.2作出频数表与频数直方图;
4.2.1频数表
在MATLAB里有求频数的命令
输入以下命令
>>[N,X]=hist(x,10)
N=
23617282211722
X=
156.5500159.6500162.7500165.8500168.9500172.0500175.1500178.2500181.3500184.4500
由以上结果作出表格
表-1学生的身高频数表
身高频数
2
3
6
17
28
身高/cm
156.55
159.65
162.75
165.85
168.95
身高频数
22
11
7
2
2
身高/Cm
172.05
175.15
178.25
181.35
184.45
输入命令
>>[N,Y]=hist(y,10)
N=
32915191917943
Y=
48.400051.200054.000056.800059.600062.400065.200068.000070.800073.6000
由以上结果作出频数表
表-2学生体重频数表
体重频数
3
2
9
15
19
体重/kg
48.4
51.2
54.0
56.8
59.6
体重频数
19
17
9
4
3
体重、
62.4
65.2
68.00
70.8
73.6
4.2.3直方图
在matlab里正态密度曲线的直方图的命令:
函数histfit
格式histfit(data)%data为向量,返回直方图和正态曲线。
histfit(data,nbins)%nbins指定bar的个数,缺省时为data中数据个数的平方根。
继续输入命令
>>histfit(x,10)
得到下图
身高
图4-1学生身高直方图
>>histfit(y,10)
得到下图
体重
图4-2学生体重直方图
从学生身高直方图和体重直方图可以看出,它们都近似服从正态分布,所以我们下面将进一步检验。
4.3检验数据是否来自正态分布
在MATLAB里的命令
函数normplot
格式normplot(X)%若X为向量,则显示正态分布概率图形,若X为矩阵,则显示每一列的正态分布概率图形。
输入命令
>>normplot(x)
得到如图所示
数据
图4-3学生身高的正态概率图
输入命令
>>normplot(y)
得到如图所示
数据
图4-4学生体重正态概率图
由于学生升高和体重正态概率图都显示出直线形态,因此数据x和数据y都可以认为服从正态分布。
4.4正态分布的参数估计
在确定数据x和数据y的分布后,就可以进行参数估计。
matlab里面命令
命令正态分布的参数估计
函数normfit
格式[muhat,sigmahat,muci,sigmaci]=normfit(X)
[muhat,sigmahat,muci,sigmaci]=normfit(X,alpha)
输入命令
>>[musigmamucisigmaci]=normfit(x,0.05)
数据x的结果
mu=170.1700
sigma=5.3221
muci=
169.1140
171.2260
sigmaci=4.6728
6.1825
>>[musigmamucisigmaci]=normfit(y,0.05)
数据y的结果
mu=61.3400
sigma=5.4555
muci=
60.2575
62.4225
sigmaci=
4.7899
6.3375
说明:
muhat,sigmahat分别为正态分布的参数μ和σ的估计值,muci,sigmaci分别为置信区间,其置信度为
;alpha给出显著水平α,缺省时默认为0.05,即置信度为95%。
4.5假设检验及结果分析
matlab命令
未知,单个正态总体的均值μ的假设检验(t检验法)
函数ttest
格式h=ttest(x,m)%x为正态总体的样本,m为均值μ0,显著性水平为0.05
h=ttest(x,m,alpha)%alpha为给定显著性水平
[h,sig,ci]=ttest(x,m,alpha,tail)%sig为观察值的概率,当sig为小概率时则对原假设提出质疑,ci为真正均值μ的1-alpha置信区间。
说明若h=0,表示在显著性水平alpha下,不能拒绝原假设;
若h=1,表示在显著性水平alpha下,可以拒绝原假设。
原假设:
,
若tail=0,表示备择假设:
(默认,双边检验);
tail=1,表示备择假设:
(单边检验);
tail=-1,表示备择假设:
(单边检验)。
已知身高和体重均服从正态分布,现在在方差未知的情况下,分别作假设检验:
:
=167.5,
:
167.5.
:
=60.2,
:
60.2.
对学生身高的1检验
输入命令
>>[h,sig,ci]=ttest(x,167.5)
运行结果
h=1
sig=2.3141e-006
ci=169.1140171.2260
检验结果为:
(1)布尔值h=1表示在显著性水平为0.05下可以拒绝原假设
,说明学生平均身高与学校10年前做的普查有显著变化;
(2)置信水平为0.95的置信区间为(169.1140,171.2260)它不包括167.5,因此不接受原假设;
(3)Sig=17003e-6<0.05,也说明不能接受“学生平均身高与学校10年前做的普查没有显著变化”的假设。
对学生体重的检验
输入命令
>>[h,sig,ci]=ttest(y,60.2)
结果为
h=1
sig=0.0392
ci=60.257562.4225
检验结果为:
(1)布尔值h=1表示在显著性水平为0.05下可以拒绝原假设
,说明学生平均体重与学校10年前做的普查有显著变化;
(2)置信水平为0.95的置信区间为(60.2575,62.4225),它不包括60.2,因此不能接受原假设;
(3)Sig=0.0392<0.05,也说明不能接受“学生平均体重与学校10年前做的普查没有显著变化”的假设。
5设计总结
通过对概率论与数理统计的这道实际问题的解决,不仅使我更加深刻的理解了概率论与数理统计的基础知识,而且使我对这些知识在实际中的应用产生了浓厚的兴趣,同时对我学习好概率论与数理统计这门课有很大帮助。
在实现这道题的过程中我应用了Excel和MATLAB软件,学会了Excel软件的一些新的应用,更加熟练的操作MATLAB软件进行一些数据上的处理。
参考文献
[1]沈恒范.概率论与数理统计教程[M].第四版.高等教育出版社,2003.4:
140-196
[2]韩明、王家宝、李林.数学实验(MATLAB版).同济大学出版社,2009.1
致谢
本论文是老师指导下完成的。
她严肃的科学态度,严谨的治学精神,精益求精的工作作风,深深地感染和激励着我。
在此,我向张老师致以诚挚的谢意和崇高的敬意。
同时我还要感谢我的同学们,在论文设计中,他们给了我很多的建议和帮助。
我还要感谢我的论文中被我引用或参考的文献的作者。