正态分布的由来Word文档格式.docx

资源描述

正态分布的由来Word文档格式.docx

《正态分布的由来Word文档格式.docx》由会员分享，可在线阅读，更多相关《正态分布的由来Word文档格式.docx（13页珍藏版）》请在冰豆网上搜索。

正态分布的由来Word文档格式.docx

二、正态分布概念

正态分布是应用最广泛的一种连续型分布。

十九世纪前叶由高斯推广，所以通常称为高斯分布。

三、正态分布的起源背景

高斯在《绕日天体运动的理论》末尾，他写了一节有关“数据结合”（data　combination）的问题，实际涉及的就是这个误差分布的确定问题。

他的做法与拉普拉斯相同。

但在往下进行时，他提出了两个创新的想法。

一是他不采取贝叶斯式的推理方式，测量误差是由诸多因素形成，每种因素影响都不大。

按中心极限定理，其分布近似于正态分布是势所必然。

其实，早在1780年左右，拉普拉斯就推广了狄莫佛的结果，得到了中心极限定理的比较一般的形式。

可惜的是，他未能把这一成果用到确定误差分布的问题上来。

高斯的第二点创新的想法是：

他把问题倒过来，先承认算术平均是应取的估计，然后去找误差密度函数条件下才能成立，这就是正态分布。

一种概率分布。

正态分布是具有两个参数μ和σ2的连续型随机变量的分布，第一参数μ是遵从正态分布的随机变量的均值，第二个参数σ2是此随机变量的方差，所以正态分布记作N（μ，σ2）。

遵从正态分布的随机变量的概率规律为取μ邻近的值的概率大，而取离μ越远的值的概率越小；

σ越小，分布越集中在μ附近，σ越大，分布越分散。

正态分布的密度函数的特点是：

关于μ对称，在μ处达到最大值，在正（负）无穷远处取值为0，在μ±

σ处有拐点。

它的形状是中间高两边低，图像是一条位于x轴上方的钟形曲线。

当μ＝0，σ2＝1时，称为标准正态分布，记为N（0，1）。

μ维随机向量具有类似的概率规律时，称此随机向量遵从多维正态分布。

多元正态分布有很好的性质，例如，多元正态分布的边缘分布仍为正态分布，它经任何线性变换得到的随机向量仍为多维正态分布，特别它的线性组合为一元正态分布。

　　正态分布最早由A.棣莫弗在求二项分布的渐近公式中得到。

C.F.高斯在研究测量误差时从另一个角度导出了它。

P.S.拉普拉斯和高斯研究了它的性质。

正态分布概念是由德国的数学家和天文学家Moivre于1733年首次提出的，但由于德国数学家Gauss（CarlFriedrichGauss，1777—1855）率先将其应用于天文学家研究，故正态分布又叫高斯分布。

高斯这项工作对后世的影响极大，他使正态分布同时有了“高斯分布”的名称，后世之所以多将最小二乘法的发明权归之于他，也是出于这一工作。

在高斯刚作出这个发现之初，也许人们还只能从其理论的简化上来评价其优越性，其全部影响还不能充分看出来。

但随着各种理论的深入研究，高斯理论的卓越贡献日显重要。

高斯与误差正态分布

1809年，高斯（CarlFriedrichGauss，1777—1855）发表了其数学和天体力学的名著《绕日天体运动的理论》。

在此书末尾，他写了一节有关“数据结合”（datacombination）的问题，实际涉及的就是这个误差分布的确定问题。

设真值为

，

个独立测量值为

。

高斯把后者的概率取为

其中

为待定的误差密度函数。

到此为止他的做法与拉普拉斯相同。

　　一是他不采取贝叶斯式的推理方式，而径直把最大的

作为

的估计，即使

成立的

现在我们把

称为样本

，参数

的似然函数，

是

的极大似然估计量。

这个称呼是追随费歇尔，因为他在1912年发表的一篇文章中，明确提到以上概念并非针对一般参数的情形。

他把问题倒过来，先承认算术平均

是应取的估计，然后去找误差密度函数

以迎合这一点，即找这样的

使

就是

从而高斯证明了正态分布

　　高斯这项工作对后世的影响极大，他使正态分布同时有了“高斯分布”的名称，现今德国10马克钞票，其上还印有正态分布

的密度曲线。

正态分布是一种概率分布。

遵从正态分布的随机变量的概率规律为取μ邻近的值的概率大，而取离μ越远的值的概率越小；

它的形状是中间高两边低，图像是一条位于x轴上方的钟形曲线。

当μ＝0，σ2＝1时，称为标准正态分布，记为N（0，1）。

正态曲线及其性质

标准正态曲线

标准正态曲线N（0，1）是一种特殊的正态分布曲线，以及标准正态总体在任一区间（a，b）内取值概率。

一般正态分布与标准正态分布的转化

由于一般的正态总体其图像不一定关于y轴对称，对于任一正态总体，其取值小于x的概率。

只要会用它求正态总体在某个特定区间的概率即可。

“小概率事件”和假设检验的基本思想

“小概率事件”通常指发生的概率小于5%的事件，认为在一次试验中该事件是几乎不可能发生的。

这种认识便是进行推断的出发点。

关于这一点我们要有以下两个方面的认识：

一是这里的“几乎不可能发生”是针对“一次试验”来说的，因为试验次数多了，该事件当然是很可能发生的；

二是当我们运用“小概率事件几乎不可能发生的原理”进行推断时，我们也有5%的犯错误的可能。

正态分布-正态分布的发展

正态分布概念是由德国的数学家和天文学家Moivre于1733年受次提出的，但由于德国数学家Gauss率先将其应用于天文学家研究，故正态分布又叫高斯分布，高斯这项工作对后世的影响极大，他使正态分布同时有了“高斯分布”的名称，后世之所以多将最小二乘法的发明权归之于他，也是出于这一工作。

拉普拉斯很快得知高斯的工作，并马上将其与他发现的中心极限定理联系起来，为此，他在即将发表的一篇文章（发表于1810年）上加上了一点补充，指出如若误差可看成许多量的叠加，根据他的中心极限定理，误差理应有高斯分布。

　　其实，他提出的形式有相当大的局限性：

海根把误差设想成个数很多的、独立同分布的“元误差”之和，每只取两值，其概率都是1/2，由此出发，按狄莫佛的中心极限定理，立即就得出误差（近似地）服从正态分布。

拉普拉斯所指出的这一点有重大的意义，在于他给误差的正态理论一个更自然合理、更令人信服的解释。

反过来，由后一结论又推出算术平均及最小二乘估计的优良性，故必须认定这二者之一（算术平均的优良性，误差的正态性）为出发点。

拉普拉斯的理论把这断裂的一环连接起来，使之成为一个和谐的整体，实有着极重大的意义。

正态分布-正态分布的主要特征

　　1、集中性：

正态曲线的高峰位于正中央，即均数所在的位置。

　　2、对称性：

正态曲线以均数为中心，左右对称，曲线两端永远不与横轴相交。

　　3、均匀变动性：

正态曲线由均数所在处开始，分别向左右两侧逐渐均匀下降。

　　4、正态分布有两个参数，即均数μ和标准差σ，可记作N（μ，σ）：

均数μ决定正态曲线的中心位置；

标准差σ决定正态曲线的陡峭或扁平程度。

σ越小，曲线越陡峭；

σ越大，曲线越扁平。

　　5、u变换：

为了便于描述和应用，常将正态变量作数据转换。

正态分布-正态分布的应用

1．估计正态分布资料的频数分布

例1.某地1993年抽样调查了100名18岁男大学生身高（cm），其均数=172.70cm，标准差s=4.01cm，①估计该地18岁男大学生身高在168cm以下者占该地18岁男大学生总数的百分数；

②分别求、、范围内18岁男大学生占该地18岁男大学生总数的实际百分数，并与理论百分数比较。

本例，μ、σ未知但样本含量n较大，按式（3.1）用样本均数和标准差S分别代替μ和σ，求得u值，u=（168-172.70）/4.01=-1.17。

查附表标准正态曲线下的面积，在表的左侧找到-1.1，表的上方找到0.07，两者相交处为0.1210=12.10%。

该地18岁男大学生身高在168cm以下者，约占总数12.10%。

其它计算结果见表3.1。

表：

1100名18岁男大学生身高的实际分布与理论分布

正态分布

2．制定医学参考值范围

亦称医学正常值范围。

它是指所谓“正常人”的解剖、生理、生化等指标的波动范围。

制定正常值范围时，首先要确定一批样本含量足够大的“正常人”，所谓“正常人”不是指“健康人”，而是指排除了影响所研究指标的疾病和有关因素的同质人群；

其次需根据研究目的和使用要求选定适当的百分界值，如80%，90%，95%和99%，常用95%；

根据指标的实际用途确定单侧或双侧界值，如白细胞计数过高过低皆属不正常须确定双侧界值，又如肝功中转氨酶过高属不正常须确定单侧上界，肺活量过低属不正常须确定单侧下界。

另外，还要根据资料的分布特点，选用恰当的计算方法。

常用方法有：

（1）正态分布法：

适用于正态或近似正态分布的资料。

　　双侧界值：

单侧上界或单侧下界：

（2）对数正态分布法：

适用于对数正态分布资料。

单侧上界或单侧下：

　　常用u值可根据要求由表3.2查出。

　　（3）百分位数法：

常用于偏态分布资料以及资料中一端或两端无确切数值的资料。

P2.5和P97.5；

单侧上界P95，或单侧下界：

P5。

　　表：

常用u值表

3．正态分布是许多统计方法的理论基础

如t分布、F分布、分布都是在正态分布的基础上推导出来的，u检验也是以正态分布为基础的。

此外，t分布、二项分布、Poisson分布的极限为正态分布，在一定条件下，可以按正态分布原理来处理。

4.正态分布是概率论中最重要的分布

正态分布有极其广泛的实际背景，生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。

例如，在生产条件不变的情况下，产品的强力、抗压强度、口径、长度等指标；

同一种生物体的身长、体重等指标；

同一种种子的重量；

测量同一物体的误差；

弹着点沿某一方向的偏差；

某个地区的年降水量；

以及理想气体分子的速度分量，等等。

一般来说，如果一个量是由许多微小的独立随机因素影响的结果，那么就可以认为这个量具有正态分布（见中心极限定理）。

从理论上看，正态分布具有很多良好的性质，许多概率分布可以用它来近似；

还有一些常用的概率分布是由它直接导出的，例如对数正态分布、t分布、F分布等。

正态分布论（正态哲学）的主要内涵：

在联系自然、社会和思维的实践背景下，我们以正态分布的本质为基础，以正态分布曲线及面积分布图为表征（以后谈及正态分布及正态分布论就要浮现此图），进行抽象与提升，抓住其中的主要哲学内涵，归纳正态分布论（正态哲学）的主要内涵如下：

正态分布整体论（静态）

正态分布启示我们，要用整体的观点来看事物。

“系统的整体观念或总体观念是系统概念的精髓。

”正态分布曲线及面积分布图由基区、负区、正区三个区组成，各区比重不一样。

用整体来看事物才能看清楚事物的本来面貌，才能得出事物的根本特性。

不能只见树木不见森林，也不能以偏概全。

此外整体大于部分之和，在分析各部分、各层次的基础上，还要从整体看事物，这是因为整体有不同于各部分的特点。

用整体观来看世界，就是要立足在基区，放眼负区和正区。

要看到主要方面，还要看到次要方面，既要看到积极的方面还要看到事物消极的一面，看到事物前进的一面还要看到落后的一面。

片面看事物必然看到的是偏态或者是变态的事物，不是真实的事物本身。

正态分布重点论

正态分布曲线及面积分布图非常清晰的展示了重点，那就是基区占68.27%，是主体，要重点抓，此外95%，99%则展示了正态的全面性。

认识世界和改造世界一定要住住重点，因为重点就是事物的主要矛盾，它对事物的发展起主要的、支配性的作用。

抓住了重点才能一举其纲，万目皆张。

事物和现象纷繁复杂，在千头万绪中不抓住主要矛盾，就会陷入无限琐碎之中。

由于我们时间和精力的相对有限性，出于效率的追求，我们更应该抓住重点。

在正态分布中，基区占了主体和重点。

如果我们结合20/80法则，我们更可以大胆的把正区也可以看做是重点。

正态分布发展论（动态）

联系和发展是事物发展变化的基本规律。

任何事物都有其产生、发展和灭亡的历史，如果我们把正态分布看做是任何一个系统或者事物的发展过程的话，我们明显的看到这个过程经历着从负区到基区再到正区的过程。

无论是自然、社会还是人类的思维都明显的遵循这这样一个过程。

准确的把握事物或者事件所处的历史过程和阶段极大的有助于掌握我们对事物、事件的特征和性质，是我们分析问题，采取对策和解决问题的重要基础和依据。

发展的阶段不同，性质和特征也不同，分析和解决问题的办法要与此相适应，这就是具体问题具体分析，也是解放思想、实事求是、与时俱乐进的精髓。

正态发展的特点还启示我们，事物发展大都是渐进的和累积的，走渐进发展的道路是事物发展的常态。

例如，遗传是常态，变异是非常态。

总之，正态分布论是科学的世界观，也是科学的方法论，是我们认识和改造世界的最重要和最根本的工具之一，对我们的理论和实践有重要的指导意义。

以正态哲学认识世界，能更好的认识和把握世界的本质和规律，以正态哲学来改造世界，能更好的在尊重和利用客观规律，更有效的改造世界。

正态分布-人格

人格（personality）或称个性，是用来描述个体心理差异的，指个体总的精神面貌，是人体心理特征的总和。

由于人格差异，个体在各种不同的环境中表现出各自不同的稳定而持久的行为模式。

或者说，人格给个体的行为打上了独特的烙印。

人格包含性格、气质、能力、兴趣、爱好等成分。

其中性格为表现在人的态度和行为方面的特征，主要由于后天学习和生活锻炼而形成的，是人格重要组成部分。

气质俗称“脾气”，主要指由于先天遗传，加上后天影响，形成一般较小的特征，如情绪体验的快慢、强弱以及动作反应的敏感迟钝，就属于气质范畴。

它不能决定人格特征的内容，只能使人的人格带上一定的色彩。

了解个体的人格特征，不但可以预测个体在特殊情况下的行为反应，而且，不同的人格可能表现出不同的患病倾向。

例如，近代研究表明，A型行为与冠心病明显相关，被认为是易患冠心病的危险因素。

在精神病学临床上，病人的人格不仅决定了他患病后的行为，而且为某种精神疾病的发生准备了基础。

例如，强迫症病人常有某种焦虑、刻板、固执、自信不足的精神衰弱人格，癔症病人常有情感不稳、易受暗示、自我中心的表演性格。

有时，人格所表现的独特行为方式可能和精神疾病混淆起来，导致论断错误。

人格的差异有不同的程度。

有些人的人格较为健全，在面对应激性事件时，依然能够很好应对。

有些人的人格较为脆弱，在应激性事件作用下，易于发生神经症性障碍。

对于细小的事情总是忧虑的人，在困难的情境中更容易产生焦虑障碍，而相同的情境对其他人却没有这种影响。

如果人格更为脆弱，那么，异常行为可能在没有应激性事件的情况下出现。

有时，这种异常行为表现非常明显，以致难以判断这些行为是由于人格还是由于精神疾病所致。

（注Ａ型行为：

美国心脏病医生梅伊＆弗瑞德曼在诊室里接待了一位来家具的修家具商。

家具商说他一定是接待了许多焦虑不安的人，医生问他为什么？

他说办公室里沙发和椅子的手柄磨损得特别快，这表明医生的许多病人坐下以后都必定是焦虑不安地握住扶手。

根据这一灵感，弗瑞德曼和他的同事瑞.罗森曼开始了他们的研究工作，最后形成了Ａ型行为类型的理论。

在现实生活中，有这么一种人，做一件事总想一下子干完，不干完不踏实。

他总觉得时间紧张，不够用；

走起路来风风火火，上楼梯也是三步并两步；

坐公共汽车，遇到交通拥挤车开得慢，他坐立不安，恨不得把司机换下来，自己开；

若要排长队买东西，他宁可不买;

做工作总要尽善尽美，比别人好，让领导说不出什么；

也不喜欢别人插手的工作，总觉得不如自己干得好；

他有很强的竞争欲，也有很强的嫉妒心，人际关系也比较紧张。

这种行为方式被称为：

“A型行为”。

与之相对的行为方式则被称为“B型行为”。

弗瑞德曼和罗森曼通过近十年的研究，发现Ａ型行为被试者冠心病的发病率是B型被试者发病率的２倍以上。

A型行为类型并不是一种单一的心理素质和行为表现方式，而是包含了以人格为基础的行为，性格和情感元素的一个复合因素群或行为群。

是不同的人格由相应的竞争和挑战性环境塑造的一整套的外显行为，是介于典型的Ａ型行为到典型的非A型行为之间的行为连续体。

目前把行为类型分为五型：

A、mA、M、ｍB、B。

A型是A型行为人的极端型，有强烈的进取心和竞争欲。

有时间紧迫感，人际关系不协调，有敌意倾向。

mA是一种不那么明朗和极端的A型人。

B是B型行为人中的极端型，是与A型行为相反的一种类型，缺乏竞争性，喜欢不紧张的工作，喜欢过松散的生活，无时间紧迫感，有耐心，无主动的敌意。

ｍB不像B型表现得那么明朗和极端。

M是介于A型和B型之间的一种混合型。

）

人格和疾病在概念上的区分，在临床上具有重要价值，但这种区分并不都容易。

核心在于能否确定行为异常的病程。

如果一个人以前行为正常，以后产生了异常行为，他被认为有病。

如果他的行为以往和现在一样反常，他被认为可能有人格障碍（personalitydisorder）。

这种区分在行为改变急速显著时容易做到，如急性躁狂症。

但在行为改变缓慢不显著时，这种区分就有困难，例如，某些精神分裂症。

由于人们的人格特征存在许多差异，于是就产生了人格类型的概念。

C.G.Jung把人格分为“内倾”和“外倾”两类。

孤僻好静，自负清高、不苟言笑、不善交友、不爱劳动、不肯合群、不喜欢参加集体活动、对人冷淡、胆小怕羞、生性多疑、多思多虑、怕负责任、有时想入非非、脱离现实，是“内倾”人格的典型特征。

而“外倾”的人格特征则与此相反。

Kretschmer曾将病人的人格、体型与所患的精神病联系起来研究，提出了所谓“分裂症型”和“情感性循环型”两种。

实际上“分裂症型”类似Jung的“内倾型”，“情感性循环型”类似“外倾型”。

他认为内倾人格患病多为精神分裂症，而外倾人格多为躁狂抑郁症。

有些人的人格是明显异常的，例如，反复伤害人而从无悔恨之心的狂暴冷酷的人。

但人格障碍的概念却不易说明，因为对人格的正常或异常并无明确的划分标准。

有两种标准对确定这个问题有帮助。

其一是统计学标准，假定人格的每一种心理特征也像身高、体重、智能一样在人群中呈近似正态分布。

那么，变态人格（abnormalpersonality）是正常人格的量的变异，其界线由统计学评分结果人为地规定。

如果一个人的某些心理特征发展到变动的极端，就可以认为他有人格障碍。

正态分布是许多统计方法的理论基础。

检验、方差分析、相关和回归分析等多种统计方法均要求分析的指标服从正态分布。

许多统计方法虽然不要求分析指标服从正态分布，但相应的统计量在大样本时近似正态分布，因而大样本时这些统计推断方法也是以正态分布为理论基础的。

正态分布与标准正态分布的区别与联系？

正态分布也叫常态分布，是连续随机变量概率分布的一种，自然界、人类社会、心理和教育中大量现象均按正态形式分布，例如能力的高低，学生成绩的好坏等都属于正态分布。

标准正态分布是正态分布的一种，具有正态分布的所有特征。

所有正态分布都可以通过Z分数公式转换成标准正态分布。

两者特点比较：

（1）正态分布的形式是对称的，对称轴是经过平均数点的垂线。

（2）中央点最高，然后逐渐向两侧下降，曲线的形式是先向内弯，再向外弯。

（3）正态曲线下的面积为1。

正态分布是一族分布，它随随机变量的平均数、标准差的大小与单位不同而有不同的分布形态。

标准正态分布是正态分布的一种，其平均数和标准差都是固定的，平均数为0，标准差为1。

（4）正态分布曲线下标准差与概率面积有固定数量关系。

正态分布-智力、能力

理查德·

赫

展开阅读全文