ImageVerifierCode 换一换
格式:DOCX , 页数:17 ,大小:144.92KB ,
资源ID:3433825      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/3433825.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(写给在统计学院学习的学弟学妹14转载.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

写给在统计学院学习的学弟学妹14转载.docx

1、写给在统计学院学习的学弟学妹14转载统计学的领域(写给在统计学院学习的学弟学妹之一)By 谢益辉 2008-11-25 19:19 标签: 统计学, 表述数据, 分析数据, 学习经历, 学习体会, 收集数据, 整理数据分类:基础统计; RSS订阅本文评论;跟踪引用 作者注:本文是为中国人民大学统计学院本科院刊所写的稿件。走过了四年本科,觉得应该对后来人讲一些负责人的话,以使大家能更高效地学习。我认为人生的奋斗,怕的不是没有动力,而是有动力却不知道方向。因此,我把我所了解的统计学的领域介绍给大家,让大家早日了解一下统计学的基本内容,早日找到自己的方向。当然,仅仅四年的学习,得出的观点或多或少会浅

2、薄,所以也请各位大师多多指点批评。如果学了几年统计,还连统计的那个经典定义都背不出就不应该了,在此我不再啰嗦一遍。统计学也不是什么神秘的学科,它的目的主要是通过数据探索信息,因此也就相应有一系列的流程:收集、整理、分析和表述(数据)。按照这个流程,统计下属的众多学科的地位与作用也就一目了然。今日我取标题为“统计学的领域”,说实话这个题目有些狂妄。够资格写这种题目的人,恐怕至少应该在统计学界混过数十载。不幸的是,本人一向提倡“人不猖狂枉少年”。如果没有足够的热情和斗志,是不可能取得一番成就的。正值青春年少,安能不立鸿鹄之志?此为题外话。1、收集数据一般来说,数据的来源无非是试验和调查。平时我们谈

3、统计学似乎不太注重数据的收集问题,然而试验设计和调查技术(包括抽样等)都是很有用的学问。就我们这种纯粹的统计学院来说,试验设计的地位似乎不太高,而我所了解的生物统计、医学统计等领域对它的要求却特别高,有志于生物医学统计方向的同学一定要注意研究这门课,有些名词诸如正交设计、随机区组试验、拉丁方试验等都是你们将来会遇见的,方差分析一般则是试验设计之后最基本的统计分析方法;对于调查,一方面它是由统计学的理论作背景支撑的(大数定律、数理统计、抽样理论等),另一方面涉及到实务操作方面的技术,做过调查的同学应该都了解调查的“艰辛”,当然如果有统计学的指导,我们也会发现一些让人变聪明的技术,举个例子,对于吸

4、毒问题,受众(调查客体)一般都会低报(不愿意告诉访员自己吸毒),对于这种情况我们该怎么处理?暂且把悬念留在这里;如果事先不知道答案,恐怕是很难想象这件事情与抛硬币有任何瓜葛的。对于我们这个统计学院(素以经济统计强势著称),从收集数据角度来说,国民经济核算与经济社会统计也是两门比较重要的课程,搞经济统计不能不对于经济数据的来龙去脉了如指掌,要不然统计指标都是从何计算而来有何意义都搞不清楚,还从何谈起经济统计?2、整理数据数据不是说收集上来就可以马上作分析,有实践经验的人都知道,在收集数据的过程中,总会有各种意想不到的情况发生,但也是天要下雨娘要嫁人没办法的事情,你总不能把那些在问卷上偷懒空着不填

5、或者乱填一气的同志们抓来严刑拷打。在此我有必要提醒各位,一定要做好心理准备,无论你们在学校里老师教授给你们多完美的理论,到现实中往往会四处碰壁的。空着调查项目不填写的我们称之为缺失值(Missing Value),胡乱填写的可能成为离群点或野值(Outlier),对于这样的数据,我们应该事先做一些处理才能进行下一步的统计分析,不然会对统计结果产生一些不良影响,这些道理用脚趾头想想就能明白(都用不着用膝盖想)。当然数据的整理还包括很多其它内容,诸如重新编码(Recode)或者进行某种综合计算等等,这里不详谈,因为都是很陈旧的内容了。我想把我所知道的统计学中比较近代的技术介绍给大家,让大家对我们的

6、前沿知识有所了解。关于确实值的处理,目前已经发展起来比较完备的插补技术(Imputation),这里面包括均值插补、热平台插补、冷平台插补、最近邻插补、EM算法、Bootstrap、Jackknife、MCMC(Monte-Carlo Markov Chain)等知识。相信如果大家看看近代现代统计学的发展,这些名词一定不会陌生。对于数据中的离群点,也要先思考一下,不要轻易删除,一个穷山村中冒出一个大富翁的可能性不一定就是0,在离群点中反而有可能隐藏对我们有启发的信息(比如一位同学的学分绩太高以至于成了“野值”,我们就不能把他/她从班里“删除”,而应该借鉴学习经验)。3、分析数据不可否认,当今社

7、会对于统计的需求,大部分都在于这一块。数理统计的纸老虎会让很多数学功底不好的同志望而却步,再加上统计中众多术语如P值、置信区间、卡方统计量等又会让很多人觉得费解(曾经有一次我给一位同志解释了好半天X与Y两个变量的相关系数对方死活就不明白,我疯了),如果再来一些稍微前沿一些的统计分析方法例如结构方程模型什么的,他们更是会云里雾里找不着北,然而来自统计分析的打击似乎是无穷尽的,他们最后发现统计软件也不太会用,要花很多钱购买,更可怕的还都是英文的我琢磨着,他们一定心想,苍天呐,如果还有来生,我一定要学统计作为统计人也不要太得意,首先统计分析方法你不一定会用,其次即使你会用也未必能用对地方。这个领域我

8、几乎已经无法介绍,因为数百年的发展,让统计方法扩充得让人很难概括全面了。最简单的分类莫过于描述统计与推断统计了;描述统计大家应该都懂,数据是什么就是什么,在原始数据的基础上稍作加工,提炼一下信息,让人对一个数据集(样本)在心中有一个大致的了解,比如一国的GDP,国家统计局不可能每年都向人民群众公布张三家的鸡下蛋买了多少钱以及某红星工厂钢铁年产值多少钱,等等,而是公布一个总数,让大家对我国的国力有大致的了解;推断统计就需要用到一些比较精深的统计理论了,最重要的支撑莫过于数理统计,所以这门课大家也一定要学好,要知道相比起数学系的数学课,数理统计根本就没什么难度。推断统计中,根据是否需要参数假设又可

9、以分为参数统计和非参数统计,后者出现的年代要晚,因此在理论和应用方面可能不如前者,二者的比较又足以写一大篇文章,此处作罢,但是无论如何,从参数统计到非参数统计,你的统计思维必将经历一个重大转变,如果学得够深入,你甚至可以由此联想人生得失问题;不是和大家开玩笑,有时候统计确实能为我们展现一种人生观。相关名的词恐怕也不是一两页纸能列举完的:相关分析(包括典型相关分析)、回归分析(包括投影寻踪回归、分位数回归)、对应分析、信度分析、生存分析、聚类分析、判别分析、因子分析、路径分析和主成分分析等。如果你至今还只知道普通最小二乘法(OLS)而不知道偏最小二乘法(PLS)这样的名词,那只能说明你还在一个古

10、董世界徘徊,需要加把劲了。关于数据分析方法,当然首先要打好基础,掌握那些基本方法,若想在方法领域有所造诣,那么请回家把概率论与数理统计多翻几遍,然后开始啃国外的教材以及文章。我常常遇到这种情况,就是一种方法,我看国外最早的论文是二十世纪六七十年代的,而国内最早的论文则往往已经是二十一世纪了。可以看出,国内在方法上的研究与国外的差距有多大。聪明人会从这里发现一个“市场”,我就不诱导大家了,这对于国内统计学的长远发展不太有利。还有一点,也是要提醒大家切记,统计分析方法往往都有理论假设或前提,在实际应用时,务必务必要注意!首先要检查数据是否满足我们的理论条件,不要拿来就作分析,即使统计软件会“不假思

11、索”地给你输出漂亮的结果。(统计软件有时候挺害人的,不要完全相信它们)4、表述数据我认为世上不存在不懒的人,因此数据的表述一定也是一门学问。你要是把统计软件输出的P值活生生拿给别人看,八成会被殴;你要是胆敢告诉人家聚类分析碎石图上石头的位置表示特征根的大小,被扁的概率将一致趋近于1。统计是用来说明问题的,不是用来吓唬人的。把我们的分析结果表述给人家看,就需要经过一定的“转化”。不要轻视数据的表述问题,有些统计方法之所以能“红”起来,就是因为人们为它的分析结果找到了巧妙的解释。上面说的是统计学方面的表述,外观形式方面的问题同样应该注意。表格中的数据不使用右对齐(或小数点对齐)、图形画得花里胡哨或

12、土里土气,都会让统计的功效受损,虽然只是“面子问题”。学了那么长时间的统计,不应该不知道图的标题应该写在图下方而表的标题应该写在表上方,平时看文章多注意别人是怎样表达的。好了,统计学本身就从流程上介绍到这里。稍微再谈谈我所见到的统计学发展趋势:一方面是学科结合的趋势,单单只会一门统计学恐已难以立足,统计学的发展动力,越来越多地来自于其它各个学科,若不是这些学科给统计学“出难题”,统计学的发展可能早已经停止了,医学会问你,怎样设计试验既能得出显著的统计结果又能节约成本?心理学会问你,人的情商是一个隐变量,应该怎样测量?金融学会问你,股票市场上时序数据的异方差怎样处理?市场营销学会问你,怎样从超市

13、的海量数据中挖掘出有用的商品信息?法学会问你,某甲杀人的概率有多大?新闻传播学会问你,大众对某位候选者的真实支持率有多高?等等;另一方面是计算机的广泛应用趋势,我也要特别强调,计算机在未来的统计中必将扮演越来越重要的角色,想要摇着笔杆子去追赶奔四3.2绝对是不可能了,计算机方面又尤其要数编程能力最重要,这番话是对那些想冲到统计时代前沿的同学们说的,统计方法的发展太快,以至于很多统计软件都跟不上,因此,若自己掌握计算机编程技术的话就能不必受到统计软件的制约。我在中国人民大学统计学院已经学习了四年,感触颇多,牢骚也不少。生活方面不多说,大家最好早点学会自强自立,早已经过了18岁,有空听听郑智化的水

14、手。学习方面说这样几点吧:首先,不要指望你的老师会教给你所有的知识,同时也要明白你所学的知识是很不全面的。大学与高中不一样,这里不是一个纯粹的教学的地方,更多地是思想碰撞交流的地方。如果到现在你还在上课时埋头认真地把老师说的每一个字记下来,那么你可能还没理解什么叫大学。统计学纷繁芜杂的体系,不是老师在几节课上能讲出来的。老师可以告诉你,统计学都有什么内容,剩下的就是你自己多多努力奋斗。其次,攻书莫畏难。可能这也是大学与高中的区别之一,高中某一道题不会做可能会影响你的考试成绩,而大学则不是用来为难人的地方。此路不通可以走彼路,你若不擅长积分,那么对于书中证明用到积分的地方大可不必仔细看,总之要有

15、自己擅长的地方,然后注意培养自己的优势,以最快的速度向前发展。不过话说回来,不要被我误导,我不是说可以随意放弃一些课程,基础仍然是要打好的,在这个条件下,你可以选择自己擅长的方向发展。再次,不要忽视图书馆的丰富资源,不仅包括图书,而且还有大量电子资源,注意上网看看,学校都购买了大量的论文数据库,不用实在可惜了。里面的统计刊物可以趁早接触一些,对于论文写作以及知识面的拓展是很有好处的。最后,不要惧怕高年级的学长们,他们都知道吃人是犯法的,因此大可放心去请教、取经,让自己少走一些弯路。只可惜,当年没有学长对我这样说,以至于我一直惧怕学长会吃了我还有,一定要用好英语。(我可没告诉你们要考好英语)以及

16、,不要没日没夜地上自习。(当然也别像我从不上自习)对了,上网别总聊QQ,以后发财了有的是时间聊,现在有空多来我们的“统计之都”网站看看:http:/cos.name一死生为虚诞,齐彭殇为妄作。各位加油。谢益辉2006-10-07关于搜索统计资源(写给在统计学院学习的学弟学妹之二)By 谢益辉 2008-11-29 22:06 标签: 统计资源, 统计数据, 参考文献, 搜索分类:基础统计; RSS订阅本文评论;跟踪引用 关于搜集资料,其实是许久以来我很想谈的一个话题,因为身边太多太多的同学在这方面根本就没入门。找点资料,也不知上哪里找。顶多Baidu一下,高级一些的就Google一下,就算完事

17、了。拜托,老大们,这是二十一世纪哎!记得古时候有一个词叫作“獭祭”,语出礼记月令:“獭祭鱼”。印象中李商隐和这个词似乎有某种联系,可惜古文修养太差,也弄不清了:“商隐工诗,为文瑰迈奇古,辞隐事难。及从楚学,俪偶长短,而繁缛过之。每属缀,多检阅书册,左右鳞次,号獭祭鱼”。元辛文房唐才子传大意也就是说的找资料的事情,可见,写点东西(无论文人与否),都是要资料的。古人把书册一排排鳞次,今人恐怕不会那样做了,很可能就是在遨游(Maxthon)浏览器中一口气点开好多个窗口,然后把网页挨个来看,也算是某种形式的“獭祭”吧。这篇小文,依旧是写给统计学院的学弟学妹们的,因此,仍然围绕着“统计”的话题展开。大约

18、也就谈两方面吧:一、怎样找数据数据是统计的生命之源,其重要性就不在罗嗦。在上一篇文章“统计学的领域”中,我所说的数据来源其实主要是一手数据(调查和试验),做研究当然也可以使用二手数据,也就是别人已经通过调查或试验取得的数据,我们拿过来借用一下。提到统计数据,可能人们首先想到的就是统计局,不错,这是我们的选择之一,比如中华人民共和国国家统计局:很多地方统计局也都有自己的网站,如果需要某地的数据,可以登录相应的网站查看。除了统计局,也别忘了学校的图书馆,人大的图书馆购买了一些统计数据库,从首页上面说的是中文数据,若要找国际数据,其实Unitied States也是个可以考虑的地方,在那里有专门的S

19、tatistics Division,http:/unstats.un.org,里面的数据有Excel格式的,也提供了相应的PDF格式文件。事实上,国外的数据比国内要丰富得多,大家平时浏览网站的时候多多注意,一定会有很多积累的。比如OECD的网站,http:/www.oecd.org;U.S. Census Bureau:http:/www.census.gov;等等。二、怎样找参考文献对于写论文来说,大多数情况下恐怕找参考文献比找数据更重要。这里首先仍然是介绍我们图书馆的资料,一般说来,中文方面的论文库当然要数“中国期刊全文数据库”比较全面(其他的数据库诸如“万方数据资源系统”等都是比较好的

20、资源中心,大家可以去尝试尝试;最后要说的是除了文本形式的数据库,其实图书馆的资源中也有视频/音频数据库,一些名家的讲座都可以从中直接看到。中文论文库就不介绍太多了,是个中国人都能自己看懂,下面说说外文数据库资源。如果要查找5年前的期刊论文,那么JSTOR也许可以满足你们大部分需要了,JSTOR就是Journal Storage的缩写,网址为www.jstor.org,其中收录的论文基本上都是图片格式,可以在网站上一页一页翻着看,或者直接Download为PDF文件阅读(里面仍然是图片格式)。关于统计界的外文刊物,大家不能不知道这些:Journal of the American Statist

21、ical Association(JASA)、Annals of Statistics、Journal of the Royal Statistical Society,其实还有Biometrica等等,暂时还是别介绍太多了。Wiley InterScience(图书馆网站上写的“John Wiley电子期刊”,网址)这个网站中有不少统计学的宝贝,有空应该去淘一淘,比较难得的是里面有大量的Online Books,如”Introduction to Bayesian Statistics”,”Regression Models for Time Series Analysis”,”Statis

22、tical Analysis and Data Mining”,”Analysis of Financial Time Series (Second Edition)”等。其它数据库我平时较少用,不过也是比较好的资源,如“ProQuest学位论文全文数据库”等,在此不多加介绍了。前面提到的JSTOR只能看好几年前的期刊论文,如果要看最新的文章的话,也可以试试EBSCO或者ProQuest数据库,不过至少我似乎没发现JASA的文章,可能跟学校购买的数据库限制有关。如果有比较重要的外文文献需要下载全文阅读而学校图书馆又没有购买相应的数据库,那么也可以找你们在国外的同学或朋友,国外大学图书馆购买的英

23、文数据库肯定比我们要全。说了这么多,归根到底都是一些辅助工具,真正要需要脑子的仍然在于专业知识,否则手中掌握再多的资源也白搭。不过话说回来,能尽早接触统计方面的专业知识,对大家应该也是有好处的。希望这些东西对大家有用。我的一些统计方法观(写给在统计学院学习的学弟学妹之三)By 谢益辉 2008-11-29 23:43 标签: Bootstrap, 空间统计学, 纵向数据, 统计方法, 统计模型, 重抽样, Jackknife, R语言, 分位回归, 回归分类:回归分析, 基础统计; RSS订阅本文评论;跟踪引用 收入与支出的分位回归记得高中很讨厌政治课,但是有几个词烙在脑子里,想忘都忘不掉,比

24、如“世界观”和“方法论”,当时那位老爷爷整天给我们灌输这些玩意儿,搞得我现在对这些词汇仍然如鬼神般敬而远之。这次我要写的是关于统计方法的一些思考(主要是思路),但又不太多涉及方法本身的推导证明,因此只好称之为“方法观”。现在每天感慨统计领域太宽,模型太多,方法太杂,让人把握不住方向。不过上次高校研究生统计论坛我仍然不知天高地厚地选了一个讲述统计思想的题目,其原因正是觉得方法太杂,应该理出一些头绪来;当然我所理的头绪也仅仅是很局部(local)的,管中窥豹而已。下面我先举几个例子说明一些统计方法的发展思路,这些也是我在上次论坛上发言的部分内容:一、纵向数据与空间统计学纵向数据(Longitudi

25、nal Data)和空间统计学(Spatial Statistics)算是代表了统计学发展领域的两个前进维度;众所周知,统计的数据有截面数据(Cross-section)和时间序列数据(Time-series)之分,前者是在同一时点观测不同个体得到的数据,后者是在不同时点观测同一个个体(当然也可以不同)得到的,这两种数据都有比较成熟的分析方法,如回归、多元、ARMA等等,而纵向数据则可视作是它们的“综合”:对不同的个体在不同的时点上(重复)观测这体现的是时间的维度;而空间统计学则是结合地理学的知识,运用统计分析方法去分析与地理相关的问题,这里我摘一段Wikipedia 中关于空间统计学的介绍:

26、“Applications within GIS; mathematical analysis on varied spatial datasets; Issues on human geography, particularly those involving the spread of disease (epidemiology), the practice of commerce and military planning (logistics), and the development of efficient spatial networks.” 其中GIS是地理信息系统,也是现在研

27、究应用比较火热的技术;空间统计学牵涉的领域有疾病的散布(流行病学)、商业和军事规划(后勤)以及开发有效的空间网络等等。听起来挺有意思。此外,一些传统的统计学概念、模型也被自然而然的转移到空间统计学中,比如空间回归(Spatial Regression)、空间滞后模型(Spatial Lagged)、空间自相关(Autocorrelation)、空间计量经济学(Spatial Econometrics)等。若对R有所了解,不妨看看相应的一些Package,对于纵向数据,一般使用nlme(John Fox 的文档);对于空间统计学,可以参见相应的Task View。二、分位数回归与均值回归众所周知

28、,经典的最小二乘回归是针对因变量的均值(期望)的:模型反映了因变量的均值怎样受自变量的影响,;这个小小的式子说明了经典回归的本质,自变量(有时也称为协变量Covariates)影响着因变量的一个位置参数量,从这个意义上,可以把回归称之为一个位置移动模型(Location Shift Model);用最小二乘方法容易推出,使最小的正是。分位数回归(Quantile Regression)的核心思想就是从这个Location的角度出发而产生的,把Location从均值推广到分位数,回归家族也就增添了分位数回归这位新成员。最小二乘回归的目标是最小化误差平方和,分位数回归也是最小化一个新的目标函数:同

29、样我们可以看看什么样的使得上面的目标函数最小?通过对简单的求导,不难发现满足条件的正是的分位数 。图1 分位回归目标函数示意图在R中,与分位数回归对应的包是quantreg,这个包也有自带的一份Vignette,对于分位数回归的学习者来说绝对是好材料(位于/doc目录下,rq.pdf)。这份文档中举了一个关于恩格尔系数的例子(见图 2),图中虚线是最小二乘回归结果,黑线是中位数回归结果(实际上就是),灰线从下至上分别是0.05、0.1、0.25、0.75、 0.90、0.95分位数;从图中可以看出,大趋势是随家庭收入增大,食品支出也增加(废话!),但是在给定家庭收入的情况下,食品支出的不同分位

30、数的变化趋势(斜率)是有差别的,高分位变化更陡峭,而低分位相对平缓;说明的实际问题大约也就是恩格尔系数高的家庭更倾向于在食品上花钱。相比起来,最小二乘回归就不能说明这样的趋势,而只能说明前面那句“废话”。图2 家庭收入与食品支出:一个分位数回归的例子三、Bootstrap & Jackknife 与抽样在统计的世界,我们面临的总是只有样本,Where there is sample, there is uncertainty,正因为不确定性的存在,才使统计能够生生不息。传说统计学家、数学家和物理学家乘坐一列火车上旅行,路上看到草原上有一只黑羊,统计学家说,“基于这个样本来看,这片草原上所有的羊

31、都是黑的”,数学家说,“只有眼前这只羊是黑的”,物理学家则说,“你们都不对,只有羊的这一面是黑的”。这是关于统计和其他学科的一个玩笑话,说明了统计的一些特征,比如基于样本推断总体。一般情况下,总体永远都无法知道,我们能利用的只有样本,现在的问题是,样本该怎样利用呢?Bootstrap的奥义也就是:既然样本是抽出来的,那我何不从样本中再抽样(Resample)?Jackknife的奥义在于:既然样本是抽出来的,那我在作估计、推断的时候“扔掉”几个样本点看看效果如何?既然人们要质疑估计的稳定性,那么我们就用样本的样本去证明吧。John Fox的那一系列附录中有一篇叫“Bootstrapping Regression Models”,当我看到第二页用方框框标出那句话时,我才对Bootstrap的思想真正有了了解(之前迷茫了很长时间)。Bootstrap的一般的抽样方式都

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1