增加深度的窍门1.docx
《增加深度的窍门1.docx》由会员分享,可在线阅读,更多相关《增加深度的窍门1.docx(17页珍藏版)》请在冰豆网上搜索。
增加深度的窍门1
注重思想、原理、概念
李:
我们现在进一步讨论如何增加深度。
怎么学才能增加深度?
有些什么办法?
教:
我有个体会。
不管这东西有多复杂,可能数学描述非常复杂,但是它背后的思想并不复杂。
一篇论文,如果能先了解它背后隐藏的思想,再去看那东西,会容易得多。
李:
背后的思想复杂,就不会有多少生命力。
重要的思想都比较浅易,这就是我们在谈研究策略时说的简易性。
我们要注重原理、思想,“好学深思,心知其意”(司马迁之语),而不是技术细节。
对基本思想、原理和概念要尽可能理解透彻,不仅知其然,而且知其所以然。
“实事求是”还不够,还应“求其所以是”。
这一条对加深理解至关重要。
善于弄清概念是数学家的看家本领。
如果有一个感兴趣的重要东西不清楚,我心里常常会不舒服,想要弄明白。
在此过程中,可能会出现别的不清楚的东西,这样一环套一环地弄明白,就加深了。
不过,所花的功夫也只有自己知道。
我挺喜欢这个警句:
小人议论他人,凡人谈论事件,伟人讨论思想。
(Littlepeoplediscussotherpeople.Mediumpeoplediscussevents.Bigpeoplediscussideas.)它简明扼要地说出不同人的区别。
老在议论别人,张家长李家短,这是比较庸俗的人,爱说是非者,定是是非人。
一般人爱谈论事件。
真正行、高瞻远瞩的人看重的是思想。
我们要力争多注重思想,避免大谈特谈事件,尽量少议论他人。
教:
我们在学习时,要看清问题的本质。
举个例子。
线性代数有很多内容,学了之后,我们应该问:
它到底是什么,能解决什么样的问题?
后来我知道线性代数本质就是一个数学工具,它是矩阵的描述工具,是从解线性方程来的。
所以,不应被问题的解法所局限,要把握问题的本质,抽象概括后,就会有更好的领悟。
李:
说线性代数是矩阵的描述工具,不大妥当。
我们讨论研究策略时强调过,就是四部曲:
问题、描述、解法、评估。
首要的是:
问题的本质是什么,一定要搞清。
这是四部曲里最重要的,但是大家往往只注重解法。
著名计算机学家DonaldKnuth说:
我当学生时,老是徜徉于数学书的第一章,思考定义并尝试对之做些小改动,由此出发看看能发现什么、做些什么。
(AllthewaythroughmystudentworkIhadbeenjoyfullystuckinChapterOneofmymathbooks,thinkingaboutthedefinitionsofthingsandtryingtomakelittlemodifications,seeingwhatcouldbediscoveredandworkingfromthere.)
教:
以前在学线性系统的时候,做了好多题去判定一个系统是否能控、是否能观,等做了很多题以后,对于什么是能控、什么是能观,还是有些概念模糊。
李:
是啊,很多时候并未搞清本质。
把Controllability和Observability译为“可控性”和“可观性”比“能控性”和“能观性”更好。
“能”表示主观能力所及,“可”表示客观条件容许,“能”是主动的,“可”一般是被动的,而这儿是被动的。
比如说某人“可爱”和“能爱”、“可笑”和“能笑”是完全清晰而截然不同的,说某人是“可人”和“能人”根本不同,说某物“可口”而某人“能吃”,或者“他很能说,不愁没有可说之事”。
同理,我们有“可控硅”而不是“能控硅”;可靠性、可塑性和可视性中的“可”都不是“能”;不可理喻、不可救药、不能自拔、不能自已中分别是“可”和“能”。
一个“能控”、“能观”的系统应该是一个能够控制、观察其他东西的系统。
某状态可控就是“存在一个控制,它能在有限时间内,将系统从该状态转移到任何其他状态”。
某状态可观就是“该状态可由系统在有限时间内的输出(及输入)唯一确定”。
系统可控和可观的本质分别是,它的所有状态可以被有效地控制或者由外部信息唯一确定。
学:
汉语里有些时候被动被隐藏起来了。
说“能控”就是“能够被控制”,“能观”就是“能够被观测”。
“能”用得比“可”更多一点。
教:
我觉得没有什么大不了的。
“能控”可以理解为“能够被控制”,有必要这么死抠字眼么?
李:
如果这么不求甚解,那我几乎无话可说,这决不是做学问的态度。
做学问没有“一名之立,旬日踌躇”的学风是难以深入的。
大家知道,可控性和可观性是控制系统理论中最基本、最重要的概念之一。
照你们这么说,“他很能爱”也可以理解为“他很能够被爱”了,贾岛和韩愈也没必要苦心“推敲”到底是用“推”字好还是用“敲”字好。
史学大家陈寅恪晚年双目失明,著述需要助手帮助,有时晚上想到一种写法或修改,生怕睡后忘了,不敢睡觉,直到第二天助手来了。
他宁可不出版,也不许出版社更动一字。
如此认真,难怪成就如此之高。
高斯对用cos2(x)表示[cos(x)]2不以为然,认为cos2(x)应理解为cos[cos(x)]。
用cos2(x)表示[cos(x)]2之所以流行,我想是因为cos2(x)到底比[cos(x)]2简单些,而“能控性”并不比“可控性”简单。
这还使我想起国际著名数理逻辑学家、计算哲学家王浩的一个关于演讲题目的故事。
八十年代他在北大做演讲,曾考虑过以“中国与西方哲学”为题,但这个题目有歧义,既可理解为他的原意“‘中国’与‘西方哲学’”,也可理解为“‘中国哲学’与‘西方哲学’”。
为避免歧义,他想改成“西方哲学与中国”,但这又显得前重后轻,前长后短,比重、强调不当。
他颇费踌躇,为此专门请教著名语言学家朱德熙。
朱说“西方哲学与中国”这个表达没有问题。
即便如此,王浩仍不放心,开场时就说:
“朱德熙说没有问题,那应该没有问题。
但如果有问题,你们找他。
”(我觉得,也许“东方中国与西方哲学”更妥,既无歧义,又可免去上述顾虑。
)你看,大学者们是多么一丝不苟、反复推敲!
难道这都是偶然巧合?
另外,用“可”比用“能”更雅一些。
这里翻译得文气一点可能更好。
总之,从“信、达、雅”各方面来说,“可”都更好一点。
“能”和“可”的区别也很像英语“can”和“may”的区别。
不求甚解者可能也认为它们没有区别。
言归正传。
要注重思想、原理、概念,对它们的理解要精益求精。
此外,多问为什么有利于加深理解。
仅仅知道对错,还不够。
举例来说,“独立”是概率论中的基本概念,它的深层本质是什么?
教:
就是两个东西不相关,互相不影响,没有关系。
李:
这是拘文牵义,等于说:
“独立”就是独立。
这是用日常语言来解释日常的“独立”概念。
事实是:
联合事件的概率不好算,而各事件概率之积好算得多。
不过,它们相等是有条件的。
为了方便起见,这条件简称为“独立”。
起这个名字,是因为它与日常生活中的相互独立(不相关、没影响)概念有不少相通之处。
所以,独立事件概念的本质是:
事件之积的概率等于事件概率之积。
换言之,概率运算与乘积运算可交换的条件就称为“独立”。
与此类似,“互斥”这一概念的本质是:
事件之和的概率等于事件概率之和,互斥事件的交集为空。
在这两例中,“独立”和“互斥”这两个词选得不错。
尽管如此,在理论中套用日常生活概念仍可能出错。
有时,科技术语选词并不贴切,这时更应特别留心。
比如,两个随机变量的“相关系数”就很有误导性。
所谓“相关系数”,其实是“线性相关系数”,说到底是它们“接近于直线的程度”(可称为“似直度”)的度量,即它们的“联合分布近似地成为一条直线”的程度的度量,并非它们相关程度的度量。
这儿,“相关系数为零”(uncorrelated)与“独立”(independent)有天壤之别。
我经常看到社会学科、人文学科、甚至自然科学(比如生物学或生理学)的不少领域,在对实验数据的统计分析中犯这种把“相关系数为零”理解为“独立”或“无关”的严重错误。
这个常见错误与“相关系数”这一名称的误导脱不了干系。
另外,有些科技术语没有对应的现成的日常概念,比如随机过程的ergodicity被勉强译为“遍历性”或“各态历经性”。
总之,对于科技概念和术语,千万不要望文生义,执著于词汇的本义,虽然可以借鉴日常之义,但不能用它来代替科技术语的真正含义。
与此相关的是:
似是而非、一知半解、不求甚解是治学的大忌,尤其是力求精深的宿敌。
应该不懈地追求真知灼见。
教:
关于望文生义,我觉得有两方面。
一是“望文生义”可能恰恰是求甚解的必经阶段。
尽管刚开始时所生的“义”不是本质的义,但应该有些关联,虽然有偏差。
随着慢慢积累,可以将其“义”逐渐修正到本质的义。
另外,教材的作者可能就是望文生义,以讹传讹。
国内导航领域的教材就没法看,只有看了国外原版才真正懂得说的是什么。
李:
是的,要“想实然”而不是“想当然”,不要拘文牵义,更不该望文生义,但要循名责实、顾名思义、执名索义。
“望文生义”是执著于词汇的字面义,穿凿附会,郢书燕说,曲解原意。
而“执名索义”指的是透过名称、定义和描述,努力把握本质、真义和背景。
还有,我们现在讨论的是如何增加深度,要求理解深刻到位,所以不该望文生义,不求甚解。
泛读时不得已而“望文猜义”也未尝不可。
总之,要积极执名索义,切忌望文生义。
教:
照您所说,“独立”等概念的引进纯粹是为了方便,没什么大不了的?
李:
能够带来方便,绝非小事,甚至可以说是“大莫甚焉”。
负数的引进是为了便于做减法,有理数的引进是为了便于做除法,实数的引进是为了便于开方等运算,复数的引进是为了便于方程求根等。
向量、矩阵、张量、势、群、环、域等等的引进无不由于处理某些数学问题的方便。
语言、概念的产生也是出于方便。
一个重要概念的提出,能够给思维提供方便,进而大大简化思维过程,那就是丰功伟绩。
其实,几乎每一概念都含义颇深,人类知识和认识的传承离不开概念化。
人类不断把以往的知识和认识提炼、浓缩为概念,后代只要理解这些概念就得到了精华,不需要纠缠于细节。
所以,每一科学概念大都是丰富知识的凝聚,值得好好理解体悟。
我想到一个例子。
先问一个问题:
给定一个随机变量的分布,它的20阶矩是否必定唯一?
学:
不一定……
教:
肯定唯一,除非积分发散。
李:
积分发散是什么意思?
教:
……
李:
事实是:
矩如果“存在”或说“收敛”,必定唯一。
积分发散就是积分取多值,其值取决于如何求积。
数学不能容忍歧义。
所以,数学不考虑发散的情况。
这是吸取惨痛教训后得到的。
大数学家欧拉研究无穷级数,硕果累累,但也错误百出。
比如,他研究级数1-1+1-1+1-1+……,结论是:
它的和等于1/2。
我们现在会哑然失笑。
无穷级数真是有趣、神秘,它可以给出各种不同的数值,使人大开眼界。
当时的混乱,不亚于后来康托尔草创集合论时给认识带来的混乱。
后来,人们发现,有些无穷级数确实可取多值。
为了坚持“数学不能容忍歧义”这一原则,数学家们忍痛割爱,不考虑、不理睬发散级数,只研究收敛级数,得到不少级数收敛的判据,以及不少级数的收敛值,也就是唯一值。
极限、积分等概念也都类似。
所以说穿了,极限存在=极限有唯一值;级数收敛=级数有唯一值;积分存在=积分有唯一值。
注意,这儿“存在”远不如“收敛”更贴切,其实“单值”更准确。
多值的积分难道不存在吗?
它们大量存在,甚至比单值积分还多得多,只是数学王国迄今拒斥它们而已。
为了避免歧义,数学家们“睁着眼睛说瞎话”,不承认多值积分、多值极限、多值级数的“存在”或者“意义”。
学:
您都是从哪些地方看到这些说法的?
当一个级数取值为无穷大时,我们有时说它发散,有时说它等于无穷大。
这是为什么?
这种级数的取值唯一吗?
李:
不是看来的,是自己逐渐体悟出来的。
无穷大并不唯一,那是一整个世界,是集合论的研究对象。
一般来说,这样一个发散级数可能取各种不同的“无穷大之值”。
所以,比较严格时一般只说该级数发散。
然而,从“非有限大”这个含义来说,无穷大是唯一的:
只有无穷大不是有限的,没有其他的“非有限大”。
所以,发散到无穷大有特定的含义,与其他类的发散大不相同。
正是在这种含义下,我们可以说该级数等于无穷大,因为我们只关心它是否有限,而不关心它到底是哪个无穷大。
也正因为如此,比较这样两个无穷大级数的大小一般没有意义。
当然,说该级数“发散到无穷大”更好。
教:
为什么数学不能容忍歧义?
李:
数学追求普遍适用而又明确的真理,所以,它不能容忍可能导致不同结果的合理理解或解释,也就是歧义。
这跟政治恰恰相反。
数学的这种无歧纯一性要求,与科学要求分离各种因素的影响,异曲同工。
它们有利有弊。
不利的是,它与现实多少有些脱节,因为现实错综复杂,并没有这种纯一性。
这也许部分说明了为什么有些优秀数学家对现实生活无所适从。
积分不“存在”实际上是它的取值不唯一。
其实,对于这样的积分,我们可以采用研究策略中的“条件法”,增加限制条件,使其取值唯一。
数学家们就是这么干的。
各种随机积分就是这么得到的,这些积分在一般意义下是发散的。
我们要钻研基本概念,弄清其然和所以然。
学:
您是怎么达到这一点的?
李:
这要明确目标,下功夫,我还在继续不断努力中。
要增加深度需要花很大的力气。
关于这一点,北宋政治家、文学家王安石在他的名文《游褒禅山记》中说得既形象又明确:
“入之愈深,其进愈难,而其见愈奇。
……盖其又深,则其至(到者)又加少矣。
……夷以近(平坦而路近),则游者众;险以远(艰险而路远),则至者少。
而世之奇伟、瑰怪、非常之观,常在于险远,而人之所罕至焉,故非有志者不能至也。
有志矣,不随以止也(不随他人而停止不前),然力不足者,亦不能至也。
有志与力,而又不随以怠(不随他人而松懈怠惰),至于幽暗昏惑而无物以相(助)之,亦不能至也。
”他强调要有志向、有能力、有工具和方法,尽力而为。
争取了解历史和产生经过
学:
如果一个东西,不知道是做什么用的,就不会给我留下什么印象,即使学完了,也很难理解它。
李:
对此,有一条相当不错的路可走,就是争取了解产生经过,比如看传记、故事。
我喜欢这样做,也尝到了甜头。
比如说,对文学作品的理解、把握,讲究要知人论世,摸清来龙去脉,特别是了解作品产生的背景。
与此类似,要学好一个理论,它是某人提出的,最好去看他的传记,了解背景、动机和影响。
更进一步,还应该读有关的历史,究原竟委,弄清源流,明白它到底是什么、从何而来、流向何处、有什么用处。
马赫(ErnstMach)说:
不了解一个理论是如何产生的,就无法理解它。
(Youcannotunderstandatheoryunlessyouknowhowitwasdiscovered.)这个马赫,就是赫赫有名的马赫主义的马赫,他既是经验主义的一位著名哲学家,又是一位杰出的物理学家。
大全才莱布尼兹说:
没有什么比了解发明的源泉更重要,依我之见,它比发明本身更有意思。
(Nothingismoreimportantthantoseethesourcesofinventionwhichare,inmyopinion,moreinterestingthantheinventionsthemselves.)大师们对来龙去脉无不了如指掌,这绝非巧合。
看背后的故事、传记非常有利于加深理解,认识其价值,也便于发现跟其它东西的联系。
这样做还有众多其他好处。
比如在过程中,耳濡目染,容易为伟人的道德情操、志向抱负所感染和熏陶,品位也会提高。
另一方面,伟人并非高不可攀,他们也是血肉之躯,也有七情六欲,在不少方面也是“凡夫俗子”。
这样也容易增强自信:
原来如此,这个大成就原来有这么多铺垫工作。
不了解途中的艰辛和曲折过程,只知道最后结果,只见其巧,不知其拙,就容易迷信大师、有损自信。
著名科学家亥姆霍兹(HermannvonHelmholtz)说他的成果都是历尽艰辛、不断纠错之后得到的,好比登山,试了不少行不通的攀援而终于成功之后,才发现了一条便捷之道,在描述成果时,就只说这条便捷之道了。
高斯也说:
大楼盖好后,当然要拆除脚手架,否则不是其丑无比?
他不仅决不发表自认为不够完善的成果,还有意抹去踪迹,不让人看出他是如何艰辛曲折地得到结果的。
这也正是前面说过的,研究者得到结果的方法不同于他们表述结果的方法。
学:
您是怎么知道这些的?
李:
这正是我所强调的:
要了解产生经过。
比如,我看过几部高斯传记,包括洋洋好几百页的《Gauss:
TitanofScience》。
举个例子。
函数y=f(x)要求:
对于每个定义域内的x值,都有唯一的y值与之对应。
另一方面,多值函数是怎么回事?
教:
多值函数说:
对于某些x值,可能有多个y值与之对应。
它是单值函数的推广。
李:
果真如此,那么,为什么映射仍然要求镜像是唯一的呢?
我也曾对此迷惑不解,直到了解到历史事实。
事实上,函数的现代定义是狄利克雷在十九世纪三十年代提出的。
此前,对函数有不同的理解和“定义”,欧拉区分了单值函数与多值函数。
所以,自狄利克雷之后,函数只能是单值的,不能是多值的。
现在,多值函数的概念只应存在于数学博物馆中,教科书不该再提它,诱导概念混乱。
当然,教科书的作者对此未必清楚。
教:
那么,x2+y2=1所定义的函数又是怎么回事呢?
李:
它定义了两个(单值)函数,而不是一个多值函数。
钻研经典原著;读课本不利于原创
李:
要尽量阅读经典和大师的论著,避免平庸之作。
这很费劲,但大有裨益。
举例来说,GlennShafer在继Dempster之后创立DS证据理论的过程中,发表了一系列探讨概率论基本定理特别是贝叶斯定理的论文。
我在攻博时读了他的一些这类论文,它们完全是在前辈大师的“故纸堆”里挖掘这些定理的精神实质,给我留下了深刻的印象。
若非如此,Shafer怎能完成创建DS证据理论的壮举呢?
大数学家阿贝尔年纪轻轻,就做出重大成就,有人问他是怎么学成的,他说:
向大师而不是其弟子学习。
(Bystudyingthemasters,andnottheirpupils.)宋朝著名诗学家严羽在其名著《沧浪诗话》中也说:
“学其上,仅得其中;学其中,斯为下矣。
”就是说,向高手学,只能达到中等水平;向中等水平的学,只能是低水平。
所以,要尽可能向大师、高手、经典、名著学。
还有,要尽量阅读原著,阅读教科书不利于原创性研究。
大物理学家麦克斯韦在其名著《电磁学》的序言中说:
任何科学领域的学生,阅读该领域的原著大有裨益,因为科学在它的初期总是最容易被完全吸收理解。
(Itisofgreatadvantagetothestudentofanysubjecttoreadtheoriginalmemoirsonthatsubject,forscienceisalwaysmostcompletelyassimilatedwhenitisinthenascentstate.)爱因斯坦在其文集的日文版前言中也说:
追踪理论在原文中的演变总是相当引人入胜,与经过当代众人润色的对最终结果的系统阐述相比,这类研究往往会产生更为深刻的见解。
(Thereisalwaysacertaincharmintracingtheevolutionoftheoriesintheoriginalpapers;oftensuchstudyoffersdeeperinsightsintothesubjectmatterthanthesystematicpresentationofthefinalresults,polishedbythewordsofmanycontemporaries.)为什么呢?
提出一个理论时,必须说为什么提出、它有什么好、它为什么好。
这在原著中最有体现,教科书把这些略去了,因为该理论已被广泛接受。
而这些略去的东西,恰恰更能让人理解这个理论的精髓。
教科书要面对尽量多的读者,其中绝大多数不是研究者,所以教科书的主要功能是让人易学,因而它要抛光磨平,对不完善、不一致之处略而不谈或轻描淡写、尽量掩饰。
作为转了好几道手的贩子,教科书缺乏“原汁原味”也是理所当然。
教:
关于阅读原著,我深有体会,因为走过很多弯路。
刚读研究生的时候,导师让我做跟踪与融合方面的课题。
当时国内数据融合的书很少。
有一本书,主要介绍JPDA和IMM等,主要是对文献的翻译,做了一些描述上的改动,很多式子是错的。
后来看到JPDA和IMM的一些综述文章,才慢慢搞清。
前两天看到,清华大学千人计划的施一公教授,鼓励研究生,想做研究的话,从一开始就读英文文献。
李:
注意,国外的综述性文章虽然比国内不少半通不通的介绍性论著好多了,但它们并不是原著。
我所说的原著,是指原始文献。
确实,读英文原文一般比读中文的好,译作往往错漏不少。
比如,我前一段时间看一本波利亚的名著,中译本居然老是把亚里士多德和柏拉图错译为“阿里斯多德”和“普拉托”,只能令人苦笑。
与此类似,要想学好国学经典,就得读原著。
遇到费解或有疑问之处,再看注释和译文,不该只看译文,更不要只看二手或三手的转述。
所以梁启超说,“专门喜欢读这类书的人,久而久之,会把自己创作的才能汨没哩。
”我们所说的这些办法都很花时间精力,偷懒不成。
比如读原著可比读教科书难多了,术语、符号、说法、语言都可能与当前流行的不同。
批判精神
李:
还有一条非常重要,就是要坚持批判精神,不轻信,不轻易接受,要多怀疑。
这对增加深度大有好处。
做研究特别需要这种批判精神、怀疑精神。
优秀研究者区别于他人的本质特征之一就是批评怀疑精神。
笛卡尔的四大思维原理之首,就是要怀疑一切,不假设任何东西是对的。
我过去在这儿做《逻辑推理及其变革与改造》报告时讲过:
笛卡尔怀疑一切,他甚至怀疑世界是否存在。
先得到的是他自己存在,就是那句名言:
我思,故我在。
(Ithink,thereforeIam.Cogitoergosum.)既然我能思考,我肯定存在。
他由此出发,一步一步,重构了整个西方哲学体系,推翻了许多旧东西。
我们就需要这种精神。
孟子有句名言:
“尽信书不如无书”(不过,此处的“书”原指《尚书》)。
反过来,做原创研究是培养批判精神的良方。
有时,知识越多越无能、越没创意。
这是原创研究与知识之间的一个难题。
学:
这个难题是怎么回事?
李:
一方面,知识越多,对原创性研究越有障碍。
懂得多不一定好,因为可能被套住了。
但是没有知识,怎么做原创研究?
也不可能。
这是一个进退维谷的两难难题。
到底是多学好呢,还是少学好呢?
培根的名言“知识就是力量”,尽人皆知。
对于原创性研究而言,其实更应该说,
知识既是力量,又是障碍。
英国大诗人拜伦说:
要完全原创,就得多想少读,但这不可能,因为一个人只有先读才会想。
(Tobeperfectlyoriginaloneshouldthinkmuchandreadlittle,andthatisimpossible,foronemusthavereadbeforeonehaslearnttothink.)朱熹也说:
“所读书太多,如人大病在床,而众医杂进,百药齐下,决无见效之理。
”萧伯纳甚至说:
阅读腐蚀心智。
(Readingrotsthemind.)
学:
那么,我们到底要不要多读书学习呢?
李:
其实,孔子在《论语》中早已给出答案:
“学而不思则罔,思而不学则殆。
”这个“罔”就是迷惘茫然,进而莫衷一是;“殆”应该是指殚精竭虑而仍旧疑惑不解。
与此相通,大哲学家康德也说:
知而无感乃空,感而无知则盲。
(Conceptswithoutperceptsareempty;perceptswithoutconceptsareblind.)解脱的关键在于要富有批判精神。
要学,但要存疑地学、批判地学:
不盲从轻信,不随俗从众,不作茧落套,不趋时阿世,不