统计学的故事Word下载.docx

资源描述

统计学的故事Word下载.docx

《统计学的故事Word下载.docx》由会员分享，可在线阅读，更多相关《统计学的故事Word下载.docx（23页珍藏版）》请在冰豆网上搜索。

统计学的故事Word下载.docx

太阳每天从东方升起，但天安门广场上与太阳同时升起的国旗其升旗时间却每天不同；

冬天过去春天就要来临，但今年的春色比去年更加明媚；

物体失去支撑就会坠落,但受风速、风向、地心引力等很多细小因素的影响，两个同样重的物体坠落速度和落点会有差别;

“神舟五号”飞船按设计的轨迹运转，但每次经过我国领空的时间都略有差距;

经济按市场规则运行,但今年的GDP比去年增长8%；

奔波的人们按自己的哲学度日，但一年又一年我们的生活逐渐发生了改变。

因此，任何科学都只能预见大体上的重复现象.

行笔至此，我们是否感到统计学太重要了。

统计学就是通过差异描述规律；

透过现实走向理性，走出混沌，走向秩序的学科。

“可以毫不夸大地说，现代科学的发展是在关注大数目现象的标志下进行的，很快就不会有不了解研究的随机性——统计方法的知识分支了”。

的确，理、工、农、医、文，今天很难找到一个不使用统计的学科了，它在解决现代科学的那些最重要的和最多样化的课题中起着主导作用。

统计学是科学的“母亲"

和“仆人”。

说她是“母亲”，因为统计学为其他学科起着孕育、生产新思想的作用；

说她是“仆人”,因为统计学是其他学科的工具,用统计规律逼近客观规律的工具.

但是,故事总有插曲，关于统计学客观基础问题的争论，从来未停止过。

从古希腊思想家那里开始到现在，一直存在两种对立的意见。

一种意见认为，世界的本质是确定的,随机性只是由于人们认识的局限性而产生的噪音，他们总是将所有现象都解释成无微不至的事物秩序所产生的结果，在事物的重复出现中会因很多细节而产生差异，但这种差异只是目前人们还不了解这些细节而已。

统计学只是对随机性差异的度量，是主观内容的范畴，在客观世界中没有什么对应他们的东西。

虽然，统计学在科学研究中起着重要作用，但这个作用只是在认识过程中由相对真理到绝对真理的迈进中的作用。

因而,这种意见认为，只有数学才能牢固把握客观世界的所作所为，能瓦解玄秘并代之以规律和秩序.而统计学则是由于人力所不及不得已而为之的方法,其基础不是客观的，只是人们知识不足和信息不完备的代名词，虽然统计学是我们人类自己发明的探索客观规律最好用的方法，但数学才是上帝的宠儿，统计学只是人类的智慧.爱因斯坦给波尔的一封信中有这样一句名言：

“你信仰掷骰子的上帝,我却信仰客观存在的世界中完备的定律和秩序”。

文中暗表，那个时期人们所说的上帝似乎有两种意思，一种意思是神学中的上帝，和中国的玉皇大帝、灶王爷之类的东西相似；

另一种意思是好像是指不为人们的意志为转移的客观规律，斯密的“看不见的手”与其有点相近.在那个神学和科学混合的时代，这两种意思很难分清楚，只好麻烦读者自己判断.直到20世纪初,科学界一直是这种观点，即机械决定论占统治地位。

牛顿力学被称为科学思想的典范，学者们总是力图使科学规律符合严格确定性的理想.

关于统计学客观基础问题的另一种意见认为,随机性本身也是客观的,统计学则反映的是知识体系中不依赖于人的关于客体的内容，上帝和人间的赌徒一样,也喜欢掷骰子。

有一个著名的故事:

拉普拉斯把他写的《天体力学》献给拿破仑。

《天体力学》是一本极具影响力的书，描述了如何根据地球上的观测数据，来计算行星与彗星的位置。

拿破仑看后说：

“拉普拉斯先生,你写了这本关于宇宙系统的书，却根本没有提到他的创造者——上帝”。

据传说,拉普拉斯回答道：

“我不需要这个假设条件”.

拉普拉斯的《天体力学》虽不需要上帝，但它需要另一种东西，叫误差函数。

从地球上观测行星与彗星的位置与预测值并不完全吻合，拉普拉斯将其原因归结为观测误差,包括随机误差和人为误差，并都放入误差函数中.当时的科学家都认为，随着测量越来越精确，最后一定不再需要这项误差函数。

谁知，到19世纪末，随着测量越来越精确，反而越来越测不准了。

最终人们发现，这些误差一方面是由于测量技术问题，另一方面是由于被测量的客体本身具有随机性。

机械式的宇宙观开始动摇，一些企图寻找生物学定律和社会学定律的努力也徒劳无功，甚至有些传统学科领域，如物理学和化学当时所用的那些定律，也被认为仅仅是粗略的逼近。

科学家从理论上和实践上都充分证实了严格决定论对描述客观现象的不适应性和不可归结性。

布朗运动、混沌动力学、量子力学、耗散结构都证明了经典决定论已逐渐向统计决定论转移。

人们的科学观念发生了新的变化。

自然和社会中不规则、不连续、不稳定、非平衡的领域不断扩大,其中充满了涌现、转化、意外和机遇。

科学探索也达到了这样的境界:

科学家对客观事物的描述和预测的精度已不能通过改进操作技巧，提高测量的精密度加以改善，他们发现根本没有可能发现严格的因果依赖性，可以找到的只是统计的因果规律。

您瞅瞅，统计的用处有多大，尽管统计学的客观基础问题还在争论不休，但统计已改变了世界，已成为科学与管理的工作母机,现在，谁也离不开统计了。

人们形容一个智障的人时常说:

“这个人缺数”,译成专业术语就是：

“这个人不懂统计”。

统计也成为现代人基本素质的构成要素,成为我们世界观的一个组成部分。

人类的处境挺可怜的，我们是广褒宇宙中的流浪汉，孤单地生存在一个冷酷、陌生的空间里.我们可能是在最近一个冰川期后起源的，在自然的劫后余迹前孤立无援，生存在茫茫的时间中。

我们依靠地球提供衣食，我们每个个体的出生都是随机事件的牺牲品.为了解决生命的寂寞、穷困、艰险和短暂，我们要与天斗、与地斗,不知为什么还非要与人斗.斗争中却也其乐无穷，凭着一点有限的感性知识和大脑,人类开始探究自然和自身,寻求真理和秩序，建立可以帮助我们获取有关生存环境奥妙的知识体系和解释模型，而我们的辉煌成就之一就是统计学.尽管我们现在还不很清楚,统计学的出现是由于人的聪明，还是“天籁之音”。

多少年来，在深奥的学术争论和枯燥的统计数据背后，有好多美丽的故事和动人的传说。

我们试图收集一些讲给大家听.一般故事中没有美女，便不引人入胜，为满足大家对美的渴望,本文下期便有美女出现，请君欣赏，请看第二回：

美女午间品茶费雪突发灵感。

参考文献：

［1］《统计,改变了世界》萨尔斯伯格著,叶伟文译，台湾天下文化书坊,2002。

[2］《世界统计名人传记》龚鉴尧著，中国统计出版社，2001.1

[3］《统计发展史》陈善林、张浙编著，立信会计图书用品社，1987.9

［4]《殴美统计学史》高庆丰，中国统计出版社，1987.8

第二回美女午后品茶费雪突发灵感

养猴人心中暗笑:

“朝四暮三和朝三暮四，不是都等于七吗？

这畜牲就是不如人聪明。

”猴子们窃窃私语：

“朝四暮三和朝三暮四，虽然吃到肚子里都等于七，但朝四暮三更符合早吃饱，晚吃少的科学道理，不信去问问费雪。

人虽然比我们聪明，但没学过统计的人，智商还真不如我们高.”

-—新《齐物论》

二十世纪二十年代后期的一个夏日午后，一群风度翩翩的学者偕夫人及漂亮的女友，正在英国剑桥的户外餐桌旁，悠闲的品茶论道。

席间，一位美丽的女士惊呼，午茶的调制顺序对味道有很大影响。

把茶加进牛奶里和把牛奶加进茶里，喝起来风味完全不同。

出于对女性的尊重,那些学者们面带绅士的微笑，内心却不以为然，甚至是藐视，依据他们的科学头脑分析,茶和牛奶两种物质混合结果的化学成份不会因为调制顺序不同而产生不同，怎么会喝起来不一样呢？

文中暗表，这个命题的假定前提是不论调制顺序如何，牛奶和茶的比例是固定的或是基本不变的。

美丽女士提出的问题是朝四暮三和朝三暮四的关系，而不是朝四暮三和朝四暮四的关系。

古板的英国绅士一定会把古板的精神带到生活细节中,所以这个假设前提一般会成立。

书归正传，正当众学者对美丽女士的说法嗤之以鼻时，有个身材瘦小的，嘴上留着灰白胡子的绅士挺身而出，抓住了这个问题。

此人便是在统计发展史上地位显赫、大名鼎鼎的费雪（RonaldAylmerFisher，1890－1962），伦敦人氏，英国统计学家.费雪当时显得非常兴奋，好像发现了大元宝。

“让我们来检定这个命题。

”说着,在众位学者的帮助下,他开始进行实验。

他们设计并调制出很多杯不同的茶，有些先放茶水再加牛奶，有些先放牛奶再加茶水，然后按照既定的顺序一杯一杯拿给美丽女士品尝分辨，但她并不知道每杯茶的调法。

费雪端给她第一杯茶,她尝了一口，然后说出这杯茶是先放茶水后加的牛奶，还是先放牛奶后加的茶水.费雪记录下她的说法，再送上第二杯，……。

读者可能会问，这个看上去没什么科学价值的实验，是我们的这位尊敬的费雪先生从事科研之余闲着没事干，找个由头和美女套近乎，还是有什么别的原因。

说来话长,从16世纪甚至更早的时候起,科学实验已经进行了几百年。

实验是发现、检验和积累知识的工具。

但是在费雪时代以前，实验带有科学家个人浓厚的独特风格，并没有科学的规范、程序，更谈不上实验设计。

一流的科学家可以做出很有价值的实验，产生新知识;

而不入流的科学家只是盲目地进行实验，虽然生产出一些数据，但对生产和积累知识没什么用处。

此外，19世纪以前的科学家很少发表自己的实验结果，他们仅描述研究结论，并公布那些能证明此结论真实性的数据。

至于实验过程和实验结果的科学性和可靠性我们不得而知.虽然科学是从发现问题、周密思考、观测与实验发展而成的，但究竟要怎样做实验,却从来没有被提及.经过多年的成功与失败，实验设计的理论和方法才发展起来。

1857年,奥地利统计学家孟德尔（GregorJohannMendel，1822－1884）不知为什么突然对豌豆情有独钟,非要把豌豆及遗传规律弄明白不可。

他在教堂的后花园内一块不到2400平方英尺的畦田上，对豌豆及和豌豆有关的属类进行了实验，一干就是八年。

经过八个春秋的耐心实验、仔细观测、不厌其烦,终于从宝贵的实验数据中获得了具有普遍意义的遗传统计规律.孟德尔成功的诀窍之一就是在整个实验进程中,自始至终都闪烁着可贵的统计思想。

孟德尔靠自己敏锐的直觉，无意中按照现代推断统计的初步原则，粗糙地进行了实验设计。

也就是说要设计一种较少规模的实验，既要保持植物天然杂交的程序,具有一定的代表性,又要尽量简化不必要的过程和减少偶然的随机干扰，便于观察研究。

费雪在1936年指出：

孟德尔是在总结前人实验的基础上，已经从理论上预料到会出现什么样的数据，然后才去安排实验的，因而只需要不多的数据就得出完美的结果。

但是孟德尔只是公布了能够证明结论的数据，而不是全部实验数据。

1940年,费雪检验了孟德尔公布的数据，发现这些数据完美得像真的，根本没有展现应有的随机程度。

在孟德尔之后,统计实验有了很大的发展，以剑桥学派首要人物贝特森（WilliamBateson,1861－1926）教授为首的遗传实验学派主张在实验中贯彻样本统计推断思想,以园田小样本实验为基本方法。

他们认为没有一定实验设计在事先指导,就是把数据收集得再多，也难说是很充分的,说不定还可能是没有价值的.如果事先有了精心的实验设计，就不需要大样本,其结果也能够接近理论预测水平。

可见,贝特森学派的统计实验已接近现代推断统计。

以英国生物学家和统计学家皮尔逊（KarlPearson,1857－1936）为首的生物统计学派以统计观察和描述作为进化和遗传的研究方法.他们认为：

从大量信息中提取出的数据是得出一切正确结论的充要条件，其有效性是不可怀疑的。

而仅仅做几个实验就推出全面的结论，在他们看来只是井底观天，是危险的。

令人反感的（Naughty）从大量观察中整理和计算出有说服力的数据才是实验的关键.因而生物统计学派在整理手段和计算手段上取得了很大的成绩，如卡方检验、相关法、回归法的发展和完善等。

1899年，英国统计学家戈塞特（WilliamSeelyGosset，1876－1937）在都柏林找到了一个令笔者垂涎的职业，到一家酿酒公司担任酿造化学技师，从事统计和实验分析工作，可以边喝啤酒边搞科研。

但戈塞特首先碰到的困难，是供应实验用的麦子数量有限，无法采用当时通行的大样本观察和推断理论，而且每批进厂原料的质量都有所波动,对温度的变化也很敏感.万般无奈，戈塞特着手从小样本开始分析实验数据。

小样本数据存在两个问题:

一是误差怎样解决,二是如何从中尽可能得到较为可靠的结果。

酒是个好东西,李白斗酒诗百篇,戈塞特的酒也没白喝。

他经过反复研究实验，确立了小样本理论。

1908年戈塞特以学生（student）为笔名，在《生物计量学》杂志上发表了“平均数的概率误差”。

由于这篇文章确立了“学生t检验"

的基础，因而许多统计学家把1908年看作统计推断理论发展史上的里程碑。

将戈塞特称为小样本理论的创立者和实验分析的先驱。

费雪称他为“统计学史中的法拉第”。

费雪生的挺是时候，前面有很多科学家在实验设计方面积累了经验和教训，眼下又有美女相伴引发了灵感，更重要的是他的天赋和勤奋，创立和完善了实验设计理论和方法。

自1919年起，费雪在卢桑姆斯坦德农业实验站工作了14年,在实验活动中，不断收集肥料、雨量、遗传、土质、细菌、收获量等资料.与孟德尔修道院的后花园的条件相比，实验的环境更不易控制.引起实验结果差异的因素主要有两个：

一是在田间实验中，土质、光照等客观条件不同；

二是实验方法不同。

由于这两个因素往往同时起作用，因此，如何从总差异中分解出这两个因素各自的影响以及如何测定它们，是费雪所面临的问题。

经过多年的努力，自1923年费雪陆续发表了关于在农业实验中控制误差的论文。

首次提出了方差分析、随机区组、拉丁方等控制、分解和测定实验误差的方法。

这样，费雪的主要实验设计方法在20至40年代完成。

1935年，费雪完成了在科学实验理论和方法上具有划时代意义的一本书《实验设计》。

在书的第二章，费雪就提到了剑桥午后的品茶和那位美丽的女士.当时,费雪设计了各种可能的实验方法，来测试美丽女士能否分辨出不同的茶。

问题是，如果美丽女士只是哗众取宠而没有真本领能分辨出不同的茶，那么拿一杯茶给她品尝，她也有50％的机会猜出这杯茶的调制方法；

如果给她两杯茶，她还是有猜出的可能；

如果给她两杯调制方法不同的茶，她可能一次全部猜错或全部猜对。

如果美丽女士有真本事，确实能够分辨调制方法不同的茶，但她还有可能弄错，或是茶水和牛奶没有混合好，或茶水温度不够影响了味道，或她喝了很多杯以后感觉已经不太灵敏。

总之，品了十杯茶，有可能会弄错一杯。

在书里,费雪讨论了各种可能结果，描述了该准备多少杯茶,依照什么顺序拿给她，然后根据她回答的正确与否，计算出各种结果的概率。

这就像笔者给学生出考卷一样，根据教学的内容，一份考卷应出多少道题，各类题的顺序如何，选择题的备选答案如何排列。

总之，是为了让学生考出水平,让好学生可以得高分，让不好好学习、仅凭临阵蒙事的学生，可能蒙对一、两道题，但还是不及格.

费雪的成就引起了广泛关注，首先是农业科学家了解到实验设计的伟大价值。

不久，费雪的方法成为农业科技上的主流学派，后来又被他的学生推广到其他科学领域.

至于剑桥午后品茶的那位女士，据说她能分辨出每一杯茶，全部答对，看来,这位女士不仅仅是美丽。

哲人说得好,女人是感性动物,男人是理性动物。

如果感性动物与理性动物联起手来，科学的天空将更加美丽.请看第三回：

彩虹为何眩目且听统计描述。

［1]《统计，改变了世界》萨尔斯伯格著，叶伟文译,台湾天下文化书坊，2002。

［3］《统计发展史》陈善林、张浙编著，立信会计图书用品社，1987。

［4]《殴美统计学史》高庆丰，中国统计出版社，1987。

第三回彩虹为何眩目且听统计描述

如果人总是从一滴水中观察光线的反射,他就很难理解美丽的彩虹现象

——凯特莱

有一句歌词写的挺好:

“不经历风雨怎能见彩虹”。

好就好在写得有些道理.

第一,这句歌词写清楚了风雨和彩虹的关系。

风雨在前，彩虹在后；

风雨是因，彩虹是果；

风雨是解释变量，彩虹是被解释变量.

第二,这句歌词还告诉我们，透过一滴雨水是看不见彩虹的。

虽然歌词没有讲清楚能够看见彩虹的雨是中雨、大雨、还是暴雨，但必须是有足够多的雨滴组成的雨。

词作者可能不懂统计,但他有大数定律的朴素思想.

但是，歌词写得虽好，在理论上还存在一些问题.在自然现象中，风雨一般是结伴而行的，有一句话叫“风雨交加”嘛。

但经科学分析，我们可以得出结论，风和彩虹没什么相关关系，将风雨加在一起写进歌词,好像风和雨对彩虹的出现各有50%的贡献，与事实不符。

显然，词作者在这方面的知识不如凯特莱，至少他不懂变量筛选技术。

更严重的问题是,词作者遗漏了一个更重要的变量，即雨后的阳光.不论雨量大小多么适合彩虹出现，如果雨停的时间正好是后半夜，也绝见不到彩虹.

如果笔者写这句歌词，绝不会出现上述的不严密。

比较准确的表述是：

雨后的天空，当雨滴还飘散在空气中，来自远距离的太阳光线投射在雨滴上，产生一系列的彩色圆弧,可分解为赤、橙、黄、绿、青、蓝、紫七色光带，此时天空中的景色异常美丽，这就是人们通常所说的彩虹现象,简称彩虹.有时在彩虹的外侧还能看到第二道虹，光彩比第一道彩虹稍淡，称为霓。

虹和霓的色彩排列次序正好相反。

虹的色序是外赤内紫,而霓的色序是外紫内赤。

以上表述便是彩虹的比较全面的定义。

此定义虽比原歌词严密,但估计谱上曲子唱出来，可能没有原歌词上口。

多少年来,在人们看来,彩虹是美丽而神秘的.史书有记载，民间有传说,少女借其抒情，词人借其咏志.早年间，希腊女神Iris把彩虹作为警示和希望的征兆；

在非洲的神话中，彩虹被认为是暴风雨过后出来掠物的巨蟒；

我国殷代甲骨文中，认为彩虹是龙在雨后的显形，所以虹字带上了“虫”字旁,并一直沿用至今。

科学家，这里主要指物理学家和统计学家忒不会浪漫,他们非要打破人们对彩虹的七色梦幻，还其以一个用科学解释和变量描述的本真。

经过他们几百年的努力,彩虹的谜团正在解开。

“赤橙黄绿青蓝紫，谁持彩练当空舞"

。

是什么东西决定了彩虹的出现，彩虹为什么有七种颜色，七种颜色为什么又有特殊的排列，彩虹为什么在当空舞成一个抛物线,即一段圆弧，“当空”到底有多高，即什么决定了彩虹的高度，为什么虹出现以后，有时还会出现霓，等等。

从十四世纪开始,科学家包括笛卡尔、牛顿等一些科学巨匠就开始捉摸这些问题。

逐渐地，人们开始认识到彩虹与雨滴对光的反射和折射有关。

任何一门应用统计，都是统计理论与方法和所应用领域学科的结合。

经济统计学就是统计理论与方法和经济理论的结合。

彩虹问题也不例外，应当是光学与统计学的结合。

但笔者的光学知识甚少，只停留在光线太暗了什么都看不见，光线太强了刺眼的水平上。

所以，在彩虹问题上笔者出现的系统误差请读者不要太挑剔.

远在1657年,法国数学家、物理学家、概率统计的奠基人费尔马（PierredeFermat,1601—1665）提出了著名的Fermat原理。

费尔马发现光线是沿直线传播的,遇到障碍物又能拐弯，由于介质不同或不严格地说障碍物不同，光线的拐弯可分为反射和折射。

我们假定天空中的雨滴是一个球体.太阳光从远处通过空气射到雨滴，由于远处很远，所以可以假定太阳光线是相互平行的。

阳光从空气穿过雨滴的过程中，一部分光线被反射,另一部分光线通过折射而进入雨滴内部,进入雨滴内部的光线又经过反射和折射,最后再折射回空气中，便形成了虹。

如图所示：

A点为光线的照射点，即光线通过空气和雨滴的交接点。

一部分光线经过A点反射出去,其余光线通过雨滴而折射，α是入射角，β是折射角,当光线折射到B点，再B点光线又经过反射通过C点，最后在C点折射回到空气中，这一过程称为一次反射途径。

如图所示,只要A点在雨滴的左侧上方任何一点，它都在雨滴的下半部离开雨滴.虹的出现与光线离开雨滴时的方向折射情况有关，即与光线的折射的角度有关。

若光线是沿着圆的直径方向进入雨滴,则入射角为0°

，折射角也是0°

，最后光线从雨滴的后面反射出来退出雨滴，从顺时针方向来看,总的折射角是180°

由于圆是对称的,因而只需考虑左上部的四分之一圆上的点即可，即对于

在A点经折射，折转了

，在

点经反射又折射了

，最后在C点再折射

，设

为光线折射的角度，则：

根据折射定理：

入射角的正弦与折射角的正弦之比为常数，即有

，称

为折射率。

因此

令

，得

由

可以得到

，即

实验证明，光在空气中的速度大于在水中的速度.由于雨滴是水，折射率

，所以有

并且有：

由于

，

其中

所以

，故

，这表明在

时，

取得最小值。

这就是虹出现的位置，射入角为59.6°

的光线为虹光线，42。

5°

=180°

–137.5°

为虹角。

因此，雨滴在观测者的特定角度下，它将呈现较亮的光线。

如果观测者处于顶角为二倍虹角的圆锥顶点处,这时用垂直于轴的平面去截圆锥，就会得到一个圆形的截面，每个锥表面上的雨滴都构成虹角，于是观测者就看到了天空中一条明亮的圆弧，这就是虹。

虹出现的高度依赖于太阳的高度。

对于地面上的观察者来说，虹最多是个半圆.如果观察者能飞行到一定高度,虹则是一个完整的圆.

虹为什么有七种颜色呢，因为光线是一种电磁波，具有连续的波长光谱。

波长在6470—7

展开阅读全文