正态分布的发展与应用毕业论文Word格式.docx
《正态分布的发展与应用毕业论文Word格式.docx》由会员分享,可在线阅读,更多相关《正态分布的发展与应用毕业论文Word格式.docx(18页珍藏版)》请在冰豆网上搜索。
Normaldistribution,alsoknownastheGaussiandistribution,theGermanmathematicianGaussfortheformationanddevelopmentofthenormaldistributionhasapivotalposition.Normaldistributionfromscratch,eventuallybecameaveryimportantmathematicalstatisticsmodelcanbedividedintothreestages:
thefirststageistheformationstage,18inthe1930smathematicianMoivreprobabilitycalculationsinagamblingproblemaccidentallydiscoverednormalcurve,sopeoplehaveattributedtheoriginofthenormaldistributionofgamblingproblems,butbecauseofsocialandpersonalproblems,thenormalcurveatthattimedidnothaveagreatdevelopment.Thesecondstageisthemid-18thcenturythenormaldistributionmodel,thestimulationofthedevelopmentofastronomy,mathematicianLaplace,Gaussiannormaldistributionhasanewdevelopment,sothatpeoplecometorealizethatitsinastronomy,applicationerrorfield.Thethirdstageinthemid-19thcenturyQuetelet,Galton’seffortstomakethenormalintothenaturalandscientificfields,fromenteringthefamilystatistics.Finally,thepapersummarizessomeofthemostbasicandnormalstageofpracticalapplication.[Keywords]NormaldistributionMoivreLaplaceGaussKettle
1绪论
1.1正态分布的定义
若随机变量x服从一个位置参数为
,尺度函数为
,其概率密度函数为
则这个随机变量就称为正态随机变量,正态随机变量服从的分布就称为正态分布,记作X~N(
),读作服从N(
),或者X服从正态分布。
1.2正态分布的曲线
正态分布的概率密度函数的曲线像一种大钟,两头低,中间高,左右对称,曲线与横轴间的面积总等于1.。
正态分布有两个参数
,
,参数
服从正态分布的均值,参数
是随机变量的方差,所以记作X~N(
)。
正态分布取当值与
越接近时,概率越大;
当取值与
越远是,概率越小,在取到
是达到最大。
正态分布与
的关系是,当
越小时,整个图形在
附近的面积越多;
当
越大时,整个图形在
附近的面积越少。
正态分布的密度函数是对称函数,他的对称轴为
,在
上去的整个函数的最大值,在正负轴的无穷远处为0,当曲线与横轴不相交,图像形状为中间高两边低,从最高点向两边均匀下降。
在正态分布的面积中,曲线与横轴上的面积表示该区占总数的比例或者是某一事件发生的概率,各个围均可用正态公式计算。
一些重要的面积比例,横轴与正态曲线之间的面积恒等于1。
正态曲线下,横轴区间(μ-σ,μ+σ)的面积为68.268949%,横轴区间(μ-1.96σ,μ+1.96σ)的面积为95.449974%,横轴区间(μ-2.58σ,μ+2.58σ)的面积为99.730020%。
[1]
1.3正态分布与标准正态分布
标准正态分布是一般正态分布的特殊情况,既当
=0,
=1时,正态分布就成标准正态分布,其概率密度函数
正态分布关于竖轴对称,它有正态分布所有的性质,在实际应用中更为简便,广泛。
正态分布与标准正态分布的转化为:
若X~N
则
~N(0,1)
2.正态分布的起源
狄莫弗是一位法国–英国数学家。
主要作品有《机遇论》,与伯努力的《推测术》和拉普拉斯的《概率的分析理论》,被认为是概率论史上三部具有里程碑性质的作品,1667年生于法国维,1754年死于英国伦敦。
狄莫弗的父亲是一位医生,他父亲对他的影响很大,后来他进入到一间天主教学习念书。
在求学期间狄莫弗对数学有了极大的兴趣,在《论赌博中的机会》《几何原本》等一些著作的影响下,他开始奋发学习数学知识。
他在19岁那年,他为了保护卡尔文教徒的南特兹赦令不被废除而遭监禁,做了两年牢。
南特法令别摒除后,他为求生计,去了英国伦敦。
在伦敦的学习狄莫弗找到了更多更加优秀的作品,学到了更加丰富的知识,后来通过自己的不断努力他当上了英国皇家学会会员,他的一生有许多的成就其中最重要的就是正态曲线的发现。
[2]
狄莫弗对统计意义主要有:
他用频率估计概率,观察值的算术平均的精度,与观察次数N的平方根成比例,这对当时来说是一个非常大的进步。
还有他的最大贡献当然是以他名字命名的中心极限定理,后来拉普拉斯在他40年自后才才得出了中心极限定理的公式。
后来统计学家发现,许多的统计学中的基础量,在样本无限时,他的分布都与正态分布有契合的地方,这成为数理统计学量的基本模型。
一直到今天,这样的模型依然有着很重要的地位,可见狄莫弗所给后人带来了无穷无尽的财富。
2.1古典统计时期的概率论
概率论和统计学是一对兄弟学科,两门学科一同形成完善,共同创新并影响着,你中有我,我中有你。
概率论发源于赌博活动中,概率论的发展推动者统计学的进步,而统计学的进步尤为概率论的世纪应用找到了方向。
我们通常把统计学的形成分成三个时期:
古典统计时期、近代统计时期和现代统计时期。
古典统计时期大约是17世纪中叶到18世纪中叶,这一时期欧洲在各个方面都有着天翻地覆的变化,概率论和古典统计学就是在这特殊的情况下出现的。
我们一般认为概率论的出现源于帕斯卡和费马,两个伟大的数学在特殊时期的发明。
2.2二项式正态逼近——狄莫弗
在任何实验中,当实验次数足够多时,时间出现的频率就接近于事件发生的概率。
当无限次地进行实验室,人们就能准确的计算所有事件的概率。
当时在英国的狄莫弗通过学习对数学有了极大的兴趣,尤其是对概率论的兴趣,他对概率论有着诸多的灵感,他不断的摸索其中的奥秘。
在1711发表了关于概率论研究的论文,在1733年,一个赌博问题刺激着狄莫弗--
A,B在赌场里赌钱,A,B赢概率是p,B赢的概率是q=1-p,赌n次,假如A赢的次数X>
np,就A给赌场X-np元,不然B给赌场np-X元。
求赌场能获得理论的期望?
最后求得的结果期望值是
棣莫弗用公式得到了当p=1/2时
这是狄莫弗由赌博问题计算出来的式子,在概率论应用与统计学中有着非常崇高的地位。
从这开始,在拉普拉斯等其他学者的共同发展下,中心极限定理最终形成,称为狄莫弗-拉普拉斯中心极限定理:
[3]
设随机变量X_n服从参数为p的二项分布,则对任意的x,恒有
狄莫弗在二项分布的推算中只看到正态曲线的外貌,他未能真正看到这条曲线的迷人之处,他的研究也到此为止了。
2.3为何当时正态分布未能有大发展
从现代的眼光来看狄莫弗对正态分布的出现有着历史性的作用,他为正态分布的出现埋下了一颗希望的种子,可在当时狄莫弗所做的研究没有引起很多人的的重视,正态分布还处在一个萌芽状态,根本谈不上有什么应用。
我觉得还有以下原因:
首先,在那时人们随意概率论有着偏见,认为概率论的来源是赌博,人们反对将他归入到科学领域,束缚的他的发展,那时的大数法则被推上的很高的位置,人们都无法挑战铁律。
其次,一个理论的发展需要现实的需要,而当时统计学的作用中用于人口的统计,非常有局限性,那时统计学中的二项分布运用的比较多,二正态分布由于不被社会所需要所以他的成长还需要一些过程。
再次,当时除了狄莫弗,当时的数学家对于概率论的研究都不是非常的感兴趣,他所得到帮助非常少。
最后是历史原因,在书写概率论的发展史中狄莫弗二项式正态逼近被遗漏了,他对概率论所做的贡献在很长一段时间被遗忘了,知道拉普拉斯和高斯等人的出现,对正态曲线有进一步的发展,人们才认识到狄莫弗的贡献。
3.正态分布的重新出发
人们对事物的检测,无可避免或多或少总会出现一些误差,不管是检测哪方面的,人们很早就知道了这一点,不过对检测结果的不确定性,人们总是不清楚,看法始终不能一致。
到了18世纪,数学有了一个变化,人们研究数学是为了解决生活中的问题。
人们对概率论有了新的认识,概率论在日常生活中的应用也越来越多了,推动了误差问题的前进。
天文学的迅速发展,许多天文学家在研究天文问题时都涉与到天文数据的测量计算,这些为正态分布的发展提供了温床。
3.1天文中的误差
天文学从古代至18世纪一直是应用数学中最发达的领域,观测和数学天文学,给出了建模与数据拟合的最初例子。
正态分布的新生则是其中非常经典的例子。
人们对天文问题的研究促使天文学家非常关心在数值分析是算术平均是否合理,并开始从误差的角度来进行分析。
测量误差,一个无法避免的问题,在天文的一些数据测量中,不同的测量机构,不同测量机器,不同的测量人员等等都难免会有差异,所以测量结果页肯定会有差异,当去平均时可是受到的干扰最小,结果更接近真实值,测量值有误差,但基本都在真实值附近。
[4]
在进行对天体观测数据的计算过程中发现了许多正态分布的特征,认为在观测中引起的误差与在计算中引起的误差是不一样的,小的观测值变化同意可以是距离值有很大的变化。
伟大的天文学家伽利略是第一个在作品中提出观测误差这个概念的,由于那时的概率论的知识有限,没能很好的解决这个问题。
后来辛普森对误差问题的研究也并没有取得很多的进展。
3.2误差论的形成
卡尔·
弗里德里希·
高斯,德国著名数学家、物理学家、天文学家、测量学家,与牛顿、阿基米德被称为为历史上最伟大三个数学家,是近代数学奠基者之一。
在他18岁的发现了质数分布定理和最小二乘法。
通过对足够多的测量数据的处理后,可以得到一个新的、概率性质的测量结果。
在这些基础之上,高斯随后专注于曲面与曲线的计算,并成功得到高斯钟形曲线,正态误差理论正式被提出,在70年后狄莫弗推导出来的式子进入了概率的家庭中。
这一函数被命名为标准正态分布,在概率计算中被大量使用。
3.2.1拉普拉斯的概率论
拉普拉斯(1749-1827)是法国、数学家、分析学家、概率论学家和物理学家,法国科学院院士。
1749年生于法国,1816年被选为法兰西学院院士,1817年任该院院长。
他是天体力学的主要创作人,天体演化学的创立者之一,在概率论的发展史中,拉普拉斯是古典概率论的第一人,所以说在数学界他是当时的先锋人。
在他1812年发表了代表作《概率分析理论》,在书中总结了当时整个概率论的研究,介绍了概率论在当时的应用。
书中包含了他毕生对概率论的研究成果,他用数学中的各种工具来对概率论进行分析,对概率论的发展有着举足轻重的作用。
他非常喜欢用归纳和类比的研究方法,是一位分析学大师。
在概率论史上,拉普拉斯被认为是古典概率论的集大成者,他运用许多的分析方法,把概率论的基本理论统统做了系统性整理,把概率论变成了一门系统的学科,为概率论的发展做出了伟大的贡献。
他继承17世纪伯努利对概率论的成果,把概率论应用到当天文地理、人口统计、赌博输赢、人寿保险、法庭判决等各个领域中去。
[5]
3.2.2高斯分布
在数学界我们把高斯称为“数学王子"
,高斯一生的研究涉与到很多的领域甚至他开创了许多新的领域。
在他的观念中,他宁愿少的发表文章,他要让他所发表的东西是非常完整的。
高斯受拉普拉斯的影响非常深,他的概率论研究资料并没有出版成册,而是在他大量的论文中。
我们都知道高斯的一生很长一部分他的职务是任格丁根天文台台长,所有对天文学的研究从未间断,前面提到了天文学的误差论,高斯对此很感兴趣做了大量的研究,
1809年,高斯发表了数学和天体力学专著《绕日天体运动的理论》其中涉与的误差分布的问题,他推导出来了正态分布的表达式
测量的误差是有许多原因形成的,但每个原因的影响都不是十分巨大,按照中心极限定理,他的分布近似于正态是无法阻挡。
拉普拉斯没有把这个成果用到误差分布上,而高斯做到了,高斯创造性把正态分布和中心极限定理联系在了一起,演化出了新的中心极限定理,其中就包含正态分布。
紧接着高斯提出了--元误差学说,既误差并不是仅由一种原因形成的,而是由许许多多的元误差组成最后产生的误差。
这理论对于给正态误差论一个非常合理、非常令人相信的解释有巨大的意义。
因为,高斯从算术平均的优良性出发的,推导出误差肯定服从正态分布;
反之,又由误差服从正态分布得出算术平均和最小二乘估计的优良性。
[6]
1809年,高斯发表了误差正态分布完整理论系统,后来他又发表了最小二乘法,中心极限定理的公式与其理论,在整个概率论的发展有着举足轻重的作用,由于这个原因,正态分布又称高斯分布,可见数学家高斯对整个数学界的地位,在高斯的所有成就中,正态分布岁整个社会影响最大,这也体现了正态分布在概率论中的无法撼动的地位。
3.3基本误差假设
高斯推演出了正态概率密度函数,他的目的就是能让算术平均值能够作为真值的自然估计。
1810年,拉普拉斯在他日常对统计数值的计算分析时,得到了一样的密度函数,这是对高斯函数的一次证明。
当然新的理论还需要更多的被证明,而一些经验性的得出误差分布符合正态分布在数学上显然是站不住脚的。
贝塞尔在1838年非常完整的提出来了基本误差的一般性假设,中心极限定理有了另一只新的证明方式。
他的这么做的原因就是我们虽检测到的误差出现的原因。
原因有:
整体的误差是由一些相互独立的一样量阶他们的联合形成的
,如果用算术平均假设和最小二乘法计算这个概率结果是一样的。
[7]贝塞尔提出的基本误差假设是关于有限矩的对称分布的随机变量,由此得出的有限矩的对称分布的和的分布的渐近展开。
同时他认为,只要基本误差互相独立的,所有的基本误差的方差对误差和的方差有着支配作用,那么此时我们就认为正态分布就是实际误差的分布,误差非常小可以忽略不计。
[8]
误差论的形成发展在当时并没有得到重视,对统计学的发展也没用体现出应有的作用,高斯的误差理论也一直没有应用到其他的方向,由于他产生于天文也一直用于天文,初具雏形的正态分布也始终没有在统计学中没有得到承认。
其原因就是在那时误差论和统计学就是两个完全没有关系的领域,误差论主要是对观测数据的分析计算,所用的知识都是高等数学方面的;
而统计学只是对所得到的数据进行统计。
4.正态分布的近代统计学之路
近代统计学,是指18世纪中末叶至19世纪中末叶中统计学,是古典统计学到现代统计学的过中间过程。
在古典统计时期的概率论发展史非常孤单的,与统计学的交流也非常少,概率论与统计学的水乳交融没有真正的实现。
到了近代统计时代,拉普拉斯带带来了许多新鲜的事物。
拉普拉斯首次提出了概率的古典定义,他把一些概率论的理论做为基本理论,在此对中心极限定理进行证明,进一步完备了观测误差理论(其中含有最小二乘法)。
首次把概率论的应该扩到社会生活方面,最典型的例子就是概率论在人口统计上的应用,拉普拉斯所做的贡献是他在继承前人理论知识的基础上又进行了一次伟大的创新。
[9]
在19世纪50念叨,人口统计空前发展出现了许多与人口统计相关的研究,如人的保险,医疗等,在经济上统计学也被用于农业,工业的分析。
统计学进一步得到了发展,在这个时期凯特莱出现了,他对统计学的推动可谓是巨大的。
4.1“近代统计学之父”—凯特莱
比利时人口学家、数学家、天文学家,人口统计家。
他用大量的概率论中的原理用于对自然和社会现象的测量,然后统计大量数据,总是表现出统计的大数定律,这些数据所反映出来的一些规律可以提现一些事物的变化,甚至能预测未来事件发生的可能性。
在他的理论中,人的出生、成长和死亡是有一定规律可循的,就是揭示这些规律。
他觉得人口动波动的原因有自然的原因以与扰乱的原因。
自然原因可以从性别、年龄、季节等方面进行分析,扰乱原因可以从从社会、经济、政治与道德背景进行分析。
在此分析的结果上,他又以恒常原因、可变原因和偶然原因对人口统计进行分析。
由此提出了“平均人”学的说法,他认为在社会上的人概况起来都有一个平均值,每个人都按照平均值上下波动。
这个平均人在现实中是非常典型的例子。
根据这个典型的例子,我们能看到地球上人口状态的共同形式,一所有社会所特有的形象都在这种平均人中巧妙地、曲折地反映出来。
凯特莱根据人口统计资料研究了婴儿性别比、妇女生育率、分年龄死亡率等等。
由于他首创地在人口统计中使用到了概率论的知识,用数学知识理论研究人口问题,使得人口调查和人口统计有了新的发展。
西方统计学界根据他在建立数理统计学方面所做的贡献,称他为“近代统计学之父”,他对正态分布的见解非常的独特。
[10]
4.2凯特莱对正态曲线的拓展
18世纪的统计数据分析问题主要是二项分布,狄莫弗引入的正态分布并没有别当时所注意;
到了19世纪初,由于拉普拉斯的中心极限定理,高斯的正态误差理论,正态分布逐步有了它发回的机会,但是真正把正态分布拓展出去的是凯特莱,他把正态分布应用到天文,地理,物理,数学,生物,社会等各个领域,凯特莱把正态曲线推广到误差理论应用到新的领域和他所提出的“平均人”的概念中。
1826年,凯特莱成为比利时国家统计局的地区通信员,他的工作大多与统计相关。
他的做法是通过某一个地区的人口调查分析来对全国人口进行估计。
这遭到了一些社会学家的反对,他们认为影响人口的因数非常多,如环境的好坏,文化程度,工作,饮食等等,在这些因数影响下的数据进行分析非常的不合理,得到的结果也不准确,凯特莱用了一个大胆的方法,在一批数据中,用这些数据是否服从正态分布作为这些数据是否是同一性质的标准,最后他通过实验验证了这样方法。
[11]后来,他把这一方法进行延生,引入了正态曲线,把正态分布从观测误。
差推广到各种来源的数据,为在社会科学与人文学中使用统计方法迈出了决定性的一步。
1835年,凯特莱首次提出来“平均人"
的概念,他把误差法则、正态分布的理论引入到人事研究中去。
凯特莱通过他的努力使统计学得到各个领域的关注,使理论的完善和新理论的诞生有着不可磨灭的作用。
4.3高尔顿对正态分布的创新
高尔顿本来是学医的,后来进入了剑桥大学学习,接触到了统计学方面的知识,他的家庭可以说是书香门第,父亲也是研究统计学方面的,祖父、叔祖父都是英国皇家学会会员,可能是从小受到家庭的影响,他对学术研究有着非常浓厚的兴趣。
他是凯特莱的接班人,受凯特莱影响非常大,在凯特莱之后他致力于研究正态分布。
高尔顿相信正态分布适用于自然,社会中的所有问题,在所有问题中,它都有它的适用性。
他创造性地在生物学角度方面用到了正态分布,他发现两代人遗传方面符合正态曲线,总朝着一平均数发展。
高尔顿原来是学医的,所以他从生物学的角度来分析正态分布,他在亲子两代的身高问题的研究中发现,亲子两代的身高服从正态分布,对此它产生了两点思考:
l、在中心极限定理中,正态分布的形成有许许多多的原因,而整个曲线的形成是有这些原因共同结果而成,这样的话遗传问题如何解释?
2、我们都知道身高是遗传的,一般来说会把优势遗传,由此形成的结果是两级分化严重,但是第二代,通过数据的分析还是与正态分布想符合,这有如何解释?
[12]
高尔顿做了一个名为“正态漏斗”的实验,他得到的结果是虽然遗传是一个大的因数,可以认为这个大的因数室友许许多多的小因数组成的。
高尔顿通过这个实验发现,虽然在表面上表现为同一性质,也可能有许多不同性质成分的存在,这就是正态分布为什么能在各个方面有应用的原因。
高尔顿又做了一个—豌豆试验,他发现:
只要种子的大小是一样的,这些种子所产出的果实依旧符合正态分布,子代各个数据的平均值和母代有一定的联系,并且非常地接近母代的平均值,基本上与一般平均值相符合,这个实验基本回答了高尔顿第二点的疑惑。
[13]
由于凯特莱和高尔顿的创新和应用中,使我们看到了正态曲线那无与伦比的身姿正慢慢地浮现在我们眼前,在19世纪中到19世纪末的发过程中,正态分布使概率论的数学计算的实现提供的可能。
5.现代统计学中的正态分布
从19世纪期起,以契比雪夫、马尔可夫等为代表的俄罗斯学派,通过引入随机变量
的概念,建立了随机变量的独立非独立的标准,以与收敛到正态分布的充要条件,从而
在大数定律和中心极限定理上实现了数学的严谨性。
此