写给在统计学院学习的学弟学妹14转载.docx

上传人:b****5 文档编号:3433825 上传时间:2022-11-23 格式:DOCX 页数:17 大小:144.92KB
下载 相关 举报
写给在统计学院学习的学弟学妹14转载.docx_第1页
第1页 / 共17页
写给在统计学院学习的学弟学妹14转载.docx_第2页
第2页 / 共17页
写给在统计学院学习的学弟学妹14转载.docx_第3页
第3页 / 共17页
写给在统计学院学习的学弟学妹14转载.docx_第4页
第4页 / 共17页
写给在统计学院学习的学弟学妹14转载.docx_第5页
第5页 / 共17页
点击查看更多>>
下载资源
资源描述

写给在统计学院学习的学弟学妹14转载.docx

《写给在统计学院学习的学弟学妹14转载.docx》由会员分享,可在线阅读,更多相关《写给在统计学院学习的学弟学妹14转载.docx(17页珍藏版)》请在冰豆网上搜索。

写给在统计学院学习的学弟学妹14转载.docx

写给在统计学院学习的学弟学妹14转载

统计学的领域(写给在统计学院学习的学弟学妹之一)

By谢益辉@2008-11-2519:

19

标签:

统计学,表述数据,分析数据,学习经历,学习体会,收集数据,整理数据

分类:

基础统计;RSS订阅本文评论;跟踪引用

作者注:

本文是为中国人民大学统计学院本科院刊所写的稿件。

走过了四年本科,觉得应该对后来人讲一些负责人的话,以使大家能更高效地学习。

我认为人生的奋斗,怕的不是没有动力,而是有动力却不知道方向。

因此,我把我所了解的统计学的领域介绍给大家,让大家早日了解一下统计学的基本内容,早日找到自己的方向。

当然,仅仅四年的学习,得出的观点或多或少会浅薄,所以也请各位大师多多指点批评。

如果学了几年统计,还连统计的那个经典定义都背不出就不应该了,在此我不再啰嗦一遍。

统计学也不是什么神秘的学科,它的目的主要是通过数据探索信息,因此也就相应有一系列的流程:

收集、整理、分析和表述(数据)。

按照这个流程,统计下属的众多学科的地位与作用也就一目了然。

今日我取标题为“统计学的领域”,说实话这个题目有些狂妄。

够资格写这种题目的人,恐怕至少应该在统计学界混过数十载。

不幸的是,本人一向提倡“人不猖狂枉少年”。

如果没有足够的热情和斗志,是不可能取得一番成就的。

正值青春年少,安能不立鸿鹄之志?

此为题外话。

1、收集数据

一般来说,数据的来源无非是试验和调查。

平时我们谈统计学似乎不太注重数据的收集问题,然而试验设计和调查技术(包括抽样等)都是很有用的学问。

就我们这种纯粹的统计学院来说,试验设计的地位似乎不太高,而我所了解的生物统计、医学统计等领域对它的要求却特别高,有志于生物医学统计方向的同学一定要注意研究这门课,有些名词诸如正交设计、随机区组试验、拉丁方试验等都是你们将来会遇见的,方差分析一般则是试验设计之后最基本的统计分析方法;对于调查,一方面它是由统计学的理论作背景支撑的(大数定律、数理统计、抽样理论等),另一方面涉及到实务操作方面的技术,做过调查的同学应该都了解调查的“艰辛”,当然如果有统计学的指导,我们也会发现一些让人变聪明的技术,举个例子,对于吸毒问题,受众(调查客体)一般都会低报(不愿意告诉访员自己吸毒),对于这种情况我们该怎么处理?

暂且把悬念留在这里;如果事先不知道答案,恐怕是很难想象这件事情与抛硬币有任何瓜葛的。

对于我们这个统计学院(素以经济统计强势著称),从收集数据角度来说,国民经济核算与经济社会统计也是两门比较重要的课程,搞经济统计不能不对于经济数据的来龙去脉了如指掌,要不然统计指标都是从何计算而来有何意义都搞不清楚,还从何谈起经济统计?

2、整理数据

数据不是说收集上来就可以马上作分析,有实践经验的人都知道,在收集数据的过程中,总会有各种意想不到的情况发生,但也是天要下雨娘要嫁人没办法的事情,你总不能把那些在问卷上偷懒空着不填或者乱填一气的同志们抓来严刑拷打。

在此我有必要提醒各位,一定要做好心理准备,无论你们在学校里老师教授给你们多完美的理论,到现实中往往会四处碰壁的。

空着调查项目不填写的我们称之为缺失值(MissingValue),胡乱填写的可能成为离群点或野值(Outlier),对于这样的数据,我们应该事先做一些处理才能进行下一步的统计分析,不然会对统计结果产生一些不良影响,这些道理用脚趾头想想就能明白(都用不着用膝盖想)。

当然数据的整理还包括很多其它内容,诸如重新编码(Recode)或者进行某种综合计算等等,这里不详谈,因为都是很陈旧的内容了。

我想把我所知道的统计学中比较近代的技术介绍给大家,让大家对我们的前沿知识有所了解。

关于确实值的处理,目前已经发展起来比较完备的插补技术(Imputation),这里面包括均值插补、热平台插补、冷平台插补、最近邻插补、EM算法、Bootstrap、Jackknife、MCMC(Monte-CarloMarkovChain)等知识。

相信如果大家看看近代现代统计学的发展,这些名词一定不会陌生。

对于数据中的离群点,也要先思考一下,不要轻易删除,一个穷山村中冒出一个大富翁的可能性不一定就是0,在离群点中反而有可能隐藏对我们有启发的信息(比如一位同学的学分绩太高以至于成了“野值”,我们就不能把他/她从班里“删除”,而应该借鉴学习经验)。

3、分析数据

不可否认,当今社会对于统计的需求,大部分都在于这一块。

数理统计的纸老虎会让很多数学功底不好的同志望而却步,再加上统计中众多术语如P值、置信区间、卡方统计量等又会让很多人觉得费解(曾经有一次我给一位同志解释了好半天X与Y两个变量的相关系数对方死活就不明白,我疯了),如果再来一些稍微前沿一些的统计分析方法例如结构方程模型什么的,他们更是会云里雾里找不着北,然而来自统计分析的打击似乎是无穷尽的,他们最后发现统计软件也不太会用,要花很多钱购买,更可怕的还都是英文的……我琢磨着,他们一定心想,苍天呐,如果还有来生,我……一定要学统计……

作为统计人也不要太得意,首先统计分析方法你不一定会用,其次即使你会用也未必能用对地方。

这个领域我几乎已经无法介绍,因为数百年的发展,让统计方法扩充得让人很难概括全面了。

最简单的分类莫过于描述统计与推断统计了;描述统计大家应该都懂,数据是什么就是什么,在原始数据的基础上稍作加工,提炼一下信息,让人对一个数据集(样本)在心中有一个大致的了解,比如一国的GDP,国家统计局不可能每年都向人民群众公布张三家的鸡下蛋买了多少钱以及某红星工厂钢铁年产值多少钱,等等,而是公布一个总数,让大家对我国的国力有大致的了解;推断统计就需要用到一些比较精深的统计理论了,最重要的支撑莫过于数理统计,所以这门课大家也一定要学好,要知道相比起数学系的数学课,数理统计根本就没什么难度。

推断统计中,根据是否需要参数假设又可以分为参数统计和非参数统计,后者出现的年代要晚,因此在理论和应用方面可能不如前者,二者的比较又足以写一大篇文章,此处作罢,但是无论如何,从参数统计到非参数统计,你的统计思维必将经历一个重大转变,如果学得够深入,你甚至可以由此联想人生得失问题;不是和大家开玩笑,有时候统计确实能为我们展现一种人生观。

相关名的词恐怕也不是一两页纸能列举完的:

相关分析(包括典型相关分析)、回归分析(包括投影寻踪回归、分位数回归)、对应分析、信度分析、生存分析、聚类分析、判别分析、因子分析、路径分析和主成分分析等。

如果你至今还只知道普通最小二乘法(OLS)而不知道偏最小二乘法(PLS)这样的名词,那只能说明你还在一个古董世界徘徊,需要加把劲了。

关于数据分析方法,当然首先要打好基础,掌握那些基本方法,若想在方法领域有所造诣,那么请回家把概率论与数理统计多翻几遍,然后开始啃国外的教材以及文章。

我常常遇到这种情况,就是一种方法,我看国外最早的论文是二十世纪六七十年代的,而国内最早的论文则往往已经是二十一世纪了。

可以看出,国内在方法上的研究与国外的差距有多大。

聪明人会从这里发现一个“市场”,我就不诱导大家了,这对于国内统计学的长远发展不太有利。

还有一点,也是要提醒大家切记,统计分析方法往往都有理论假设或前提,在实际应用时,务必务必要注意!

首先要检查数据是否满足我们的理论条件,不要拿来就作分析,即使统计软件会“不假思索”地给你输出漂亮的结果。

(统计软件有时候挺害人的,不要完全相信它们)

4、表述数据

我认为世上不存在不懒的人,因此数据的表述一定也是一门学问。

你要是把统计软件输出的P值活生生拿给别人看,八成会被殴;你要是胆敢告诉人家聚类分析碎石图上石头的位置表示特征根的大小,被扁的概率将一致趋近于1。

统计是用来说明问题的,不是用来吓唬人的。

把我们的分析结果表述给人家看,就需要经过一定的“转化”。

不要轻视数据的表述问题,有些统计方法之所以能“红”起来,就是因为人们为它的分析结果找到了巧妙的解释。

上面说的是统计学方面的表述,外观形式方面的问题同样应该注意。

表格中的数据不使用右对齐(或小数点对齐)、图形画得花里胡哨或土里土气,都会让统计的功效受损,虽然只是“面子问题”。

学了那么长时间的统计,不应该不知道图的标题应该写在图下方而表的标题应该写在表上方,平时看文章多注意别人是怎样表达的。

好了,统计学本身就从流程上介绍到这里。

稍微再谈谈我所见到的统计学发展趋势:

一方面是学科结合的趋势,单单只会一门统计学恐已难以立足,统计学的发展动力,越来越多地来自于其它各个学科,若不是这些学科给统计学“出难题”,统计学的发展可能早已经停止了,医学会问你,怎样设计试验既能得出显著的统计结果又能节约成本?

心理学会问你,人的情商是一个隐变量,应该怎样测量?

金融学会问你,股票市场上时序数据的异方差怎样处理?

市场营销学会问你,怎样从超市的海量数据中挖掘出有用的商品信息?

法学会问你,某甲杀人的概率有多大?

新闻传播学会问你,大众对某位候选者的真实支持率有多高?

等等……;另一方面是计算机的广泛应用趋势,我也要特别强调,计算机在未来的统计中必将扮演越来越重要的角色,想要摇着笔杆子去追赶奔四3.2绝对是不可能了,计算机方面又尤其要数编程能力最重要,这番话是对那些想冲到统计时代前沿的同学们说的,统计方法的发展太快,以至于很多统计软件都跟不上,因此,若自己掌握计算机编程技术的话就能不必受到统计软件的制约。

我在中国人民大学统计学院已经学习了四年,感触颇多,牢骚也不少。

生活方面不多说,大家最好早点学会自强自立,早已经过了18岁,有空听听郑智化的《水手》。

学习方面说这样几点吧:

首先,不要指望你的老师会教给你所有的知识,同时也要明白你所学的知识是很不全面的。

大学与高中不一样,这里不是一个纯粹的教学的地方,更多地是思想碰撞交流的地方。

如果到现在你还在上课时埋头认真地把老师说的每一个字记下来,那么你可能还没理解什么叫大学。

统计学纷繁芜杂的体系,不是老师在几节课上能讲出来的。

老师可以告诉你,统计学都有什么内容,剩下的就是你自己多多努力奋斗。

其次,攻书莫畏难。

可能这也是大学与高中的区别之一,高中某一道题不会做可能会影响你的考试成绩,而大学则不是用来为难人的地方。

此路不通可以走彼路,你若不擅长积分,那么对于书中证明用到积分的地方大可不必仔细看,总之要有自己擅长的地方,然后注意培养自己的优势,以最快的速度向前发展。

不过话说回来,不要被我误导,我不是说可以随意放弃一些课程,基础仍然是要打好的,在这个条件下,你可以选择自己擅长的方向发展。

再次,不要忽视图书馆的丰富资源,不仅包括图书,而且还有大量电子资源,注意上网看看,学校都购买了大量的论文数据库,不用实在可惜了。

里面的统计刊物可以趁早接触一些,对于论文写作以及知识面的拓展是很有好处的。

最后,不要惧怕高年级的学长们,他们都知道吃人是犯法的,因此大可放心去请教、取经,让自己少走一些弯路。

只可惜,当年没有学长对我这样说,以至于我一直惧怕学长会吃了我……

还有,一定要用好英语。

(我可没告诉你们要考好英语)

以及,不要没日没夜地上自习。

(当然也别像我从不上自习)

对了,上网别总聊QQ,以后发财了有的是时间聊,现在有空多来我们的“统计之都”网站看看:

http:

//cos.name

一死生为虚诞,齐彭殇为妄作。

各位加油。

谢益辉

2006-10-07

关于搜索统计资源(写给在统计学院学习的学弟学妹之二)

By谢益辉@2008-11-2922:

06

标签:

统计资源,统计数据,参考文献,搜索

分类:

基础统计;RSS订阅本文评论;跟踪引用

关于搜集资料,其实是许久以来我很想谈的一个话题,因为身边太多太多的同学在这方面根本就没入门。

找点资料,也不知上哪里找。

顶多Baidu一下,高级一些的就Google一下,就算完事了。

拜托,老大们,这是二十一世纪哎!

记得古时候有一个词叫作“獭祭”,语出《礼记·月令》:

“獭祭鱼”。

印象中李商隐和这个词似乎有某种联系,可惜古文修养太差,也弄不清了:

“商隐工诗,为文瑰迈奇古,辞隐事难。

及从楚学,俪偶长短,而繁缛过之。

每属缀,多检阅书册,左右鳞次,号‘獭祭鱼’”。

元·辛文房·《唐才子传》

大意也就是说的找资料的事情,可见,写点东西(无论文人与否),都是要资料的。

古人把书册一排排鳞次,今人恐怕不会那样做了,很可能就是在遨游(Maxthon)浏览器中一口气点开好多个窗口,然后把网页挨个来看,也算是某种形式的“獭祭”吧。

这篇小文,依旧是写给统计学院的学弟学妹们的,因此,仍然围绕着“统计”的话题展开。

大约也就谈两方面吧:

一、怎样找数据

数据是统计的生命之源,其重要性就不在罗嗦。

在上一篇文章“统计学的领域”中,我所说的数据来源其实主要是一手数据(调查和试验),做研究当然也可以使用二手数据,也就是别人已经通过调查或试验取得的数据,我们拿过来借用一下。

提到统计数据,可能人们首先想到的就是统计局,不错,这是我们的选择之一,比如中华人民共和国国家统计局:

很多地方统计局也都有自己的网站,如果需要某地的数据,可以登录相应的网站查看。

除了统计局,也别忘了学校的图书馆,人大的图书馆购买了一些统计数据库,从首页

上面说的是中文数据,若要找国际数据,其实UnitiedStates也是个可以考虑的地方,在那里有专门的StatisticsDivision,http:

//unstats.un.org,里面的数据有Excel格式的,也提供了相应的PDF格式文件。

事实上,国外的数据比国内要丰富得多,大家平时浏览网站的时候多多注意,一定会有很多积累的。

比如OECD的网站,http:

//www.oecd.org;U.S.CensusBureau:

http:

//www.census.gov;等等。

二、怎样找参考文献

对于写论文来说,大多数情况下恐怕找参考文献比找数据更重要。

这里首先仍然是介绍我们图书馆的资料,一般说来,中文方面的论文库当然要数“中国期刊全文数据库”比较全面(

其他的数据库诸如“万方数据资源系统”等都是比较好的资源中心,大家可以去尝试尝试;最后要说的是除了文本形式的数据库,其实图书馆的资源中也有视频/音频数据库,一些名家的讲座都可以从中直接看到。

中文论文库就不介绍太多了,是个中国人都能自己看懂,下面说说外文数据库资源。

如果要查找5年前的期刊论文,那么JSTOR也许可以满足你们大部分需要了,JSTOR就是JournalStorage的缩写,网址为www.jstor.org,其中收录的论文基本上都是图片格式,可以在网站上一页一页翻着看,或者直接Download为PDF文件阅读(里面仍然是图片格式)。

关于统计界的外文刊物,大家不能不知道这些:

JournaloftheAmericanStatisticalAssociation(JASA)、AnnalsofStatistics、JournaloftheRoyalStatisticalSociety,其实还有Biometrica等等,暂时还是别介绍太多了。

WileyInterScience(图书馆网站上写的“JohnWiley电子期刊”,网址)这个网站中有不少统计学的宝贝,有空应该去淘一淘,比较难得的是里面有大量的OnlineBooks,如”IntroductiontoBayesianStatistics”,”RegressionModelsforTimeSeriesAnalysis”,”StatisticalAnalysisandDataMining”,”AnalysisofFinancialTimeSeries(SecondEdition)”等。

其它数据库我平时较少用,不过也是比较好的资源,如“ProQuest学位论文全文数据库”等,在此不多加介绍了。

前面提到的JSTOR只能看好几年前的期刊论文,如果要看最新的文章的话,也可以试试EBSCO或者ProQuest数据库,不过至少我似乎没发现JASA的文章,可能跟学校购买的数据库限制有关。

如果有比较重要的外文文献需要下载全文阅读而学校图书馆又没有购买相应的数据库,那么也可以找你们在国外的同学或朋友,国外大学图书馆购买的英文数据库肯定比我们要全。

说了这么多,归根到底都是一些辅助工具,真正要需要脑子的仍然在于专业知识,否则手中掌握再多的资源也白搭。

不过话说回来,能尽早接触统计方面的专业知识,对大家应该也是有好处的。

希望这些东西对大家有用。

我的一些统计方法观(写给在统计学院学习的学弟学妹之三)

By谢益辉@2008-11-2923:

43

标签:

Bootstrap,空间统计学,纵向数据,统计方法,统计模型,重抽样,Jackknife,R语言,分位回归,回归

分类:

回归分析,基础统计;RSS订阅本文评论;跟踪引用

收入与支出的分位回归

记得高中很讨厌政治课,但是有几个词烙在脑子里,想忘都忘不掉,比如“世界观”和“方法论”,当时那位老爷爷整天给我们灌输这些玩意儿,搞得我现在对这些词汇仍然如鬼神般敬而远之。

这次我要写的是关于统计方法的一些思考(主要是思路),但又不太多涉及方法本身的推导证明,因此只好称之为“方法观”。

现在每天感慨统计领域太宽,模型太多,方法太杂,让人把握不住方向。

不过上次高校研究生统计论坛我仍然不知天高地厚地选了一个讲述统计思想的题目,其原因正是觉得方法太杂,应该理出一些头绪来;当然我所理的头绪也仅仅是很局部(local)的,管中窥豹而已。

下面我先举几个例子说明一些统计方法的发展思路,这些也是我在上次论坛上发言的部分内容:

一、纵向数据与空间统计学

纵向数据(LongitudinalData)和空间统计学(SpatialStatistics)算是代表了统计学发展领域的两个前进维度;众所周知,统计的数据有截面数据(Cross-section)和时间序列数据(Time-series)之分,前者是在同一时点观测不同个体得到的数据,后者是在不同时点观测同一个个体(当然也可以不同)得到的,这两种数据都有比较成熟的分析方法,如回归、多元、ARMA等等,而纵向数据则可视作是它们的“综合”:

对不同的个体在不同的时点上(重复)观测——这体现的是时间的维度;而空间统计学则是结合地理学的知识,运用统计分析方法去分析与地理相关的问题,这里我摘一段Wikipedia中关于空间统计学的介绍:

“ApplicationswithinGIS;mathematicalanalysisonvariedspatialdatasets;Issuesonhumangeography,particularlythoseinvolvingthespreadofdisease(epidemiology),thepracticeofcommerceandmilitaryplanning(logistics),andthedevelopmentofefficientspatialnetworks.”…

其中GIS是地理信息系统,也是现在研究应用比较火热的技术;空间统计学牵涉的领域有疾病的散布(流行病学)、商业和军事规划(后勤)以及开发有效的空间网络等等。

听起来挺有意思。

此外,一些传统的统计学概念、模型也被自然而然的转移到空间统计学中,比如空间回归(SpatialRegression)、空间滞后模型(SpatialLagged)、空间自相关(Autocorrelation)、空间计量经济学(SpatialEconometrics)等。

若对R有所了解,不妨看看相应的一些Package,对于纵向数据,一般使用nlme(JohnFox的文档);对于空间统计学,可以参见相应的TaskView。

二、分位数回归与均值回归

众所周知,经典的最小二乘回归是针对因变量的均值(期望)的:

模型反映了因变量的均值怎样受自变量的影响——

;这个小小的式子说明了经典回归的本质,自变量(有时也称为协变量Covariates)影响着因变量的一个位置参数量,从这个意义上,可以把回归称之为一个位置移动模型(LocationShiftModel);用最小二乘方法容易推出,使

最小的

正是

分位数回归(QuantileRegression)的核心思想就是从这个Location的角度出发而产生的,把Location从均值推广到分位数,回归家族也就增添了分位数回归这位新成员。

最小二乘回归的目标是最小化误差平方和,分位数回归也是最小化一个新的目标函数:

同样我们可以看看什么样的

使得上面的目标函数最小?

通过对

简单的求导,不难发现满足条件的

正是

分位数。

图1分位回归目标函数示意图

在R中,与分位数回归对应的包是quantreg,这个包也有自带的一份Vignette,对于分位数回归的学习者来说绝对是好材料(位于/doc目录下,rq.pdf)。

这份文档中举了一个关于恩格尔系数的例子(见图2),图中虚线是最小二乘回归结果,黑线是中位数回归结果(实际上就是

),灰线从下至上分别是0.05、0.1、0.25、0.75、0.90、0.95分位数;从图中可以看出,大趋势是随家庭收入增大,食品支出也增加(废话!

),但是在给定家庭收入的情况下,食品支出的不同分位数的变化趋势(斜率)是有差别的,高分位变化更陡峭,而低分位相对平缓;说明的实际问题大约也就是恩格尔系数高的家庭更倾向于在食品上花钱。

相比起来,最小二乘回归就不能说明这样的趋势,而只能说明前面那句“废话”。

图2家庭收入与食品支出:

一个分位数回归的例子

三、Bootstrap&Jackknife与抽样

在统计的世界,我们面临的总是只有样本,Wherethereissample,thereisuncertainty,正因为不确定性的存在,才使统计能够生生不息。

传说统计学家、数学家和物理学家乘坐一列火车上旅行,路上看到草原上有一只黑羊,统计学家说,“基于这个样本来看,这片草原上所有的羊都是黑的”,数学家说,“只有眼前这只羊是黑的”,物理学家则说,“你们都不对,只有羊的这一面是黑的”。

这是关于统计和其他学科的一个玩笑话,说明了统计的一些特征,比如基于样本推断总体。

一般情况下,总体永远都无法知道,我们能利用的只有样本,现在的问题是,样本该怎样利用呢?

Bootstrap的奥义也就是:

既然样本是抽出来的,那我何不从样本中再抽样(Resample)?

Jackknife的奥义在于:

既然样本是抽出来的,那我在作估计、推断的时候“扔掉”几个样本点看看效果如何?

既然人们要质疑估计的稳定性,那么我们就用样本的样本去证明吧。

JohnFox的那一系列附录中有一篇叫“BootstrappingRegressionModels”,当我看到第二页用方框框标出那句话时,我才对Bootstrap的思想真正有了了解(之前迷茫了很长时间)。

Bootstrap的一般的抽样方式都

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 小学教育 > 学科竞赛

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1