统计建模与R软件-第一讲-_精品文档.ppt

资源描述

统计建模与R软件-第一讲-_精品文档.ppt

《统计建模与R软件-第一讲-_精品文档.ppt》由会员分享，可在线阅读，更多相关《统计建模与R软件-第一讲-_精品文档.ppt（49页珍藏版）》请在冰豆网上搜索。

统计建模与R软件-第一讲-_精品文档.ppt

,统计建模与R软件郭广报统计计算,课程意义,统计学的目的：

解释数据！

统计计算的关键是，拥有自己的code一些特殊研究机构：

阿里研究院百度研究院腾讯研究院光启研究院,2,课程教材和参考书目,薛毅，陈立萍.统计建模与R软件.清华大学出版社，2007Kabacoff著，高涛,肖楠等译.R语言实战（RinAction:

DataanalysisandgraphicswithR）.人民邮电出版社，2013何晓群.多元统计分析（第三版）.中国人民大学出版社，2012,课程教材和资料,吴喜之.统计学-从数据到结论（第4版）.中国统计出版社，2013吴喜之.复杂数据统计方法基于R的应用.中国人民大学出版社,2012,统计之都http:

/cos.name/,5,经管之家,6,课程内容与进度,序号123456789,内容统计建模概论R软件的使用数据描述性分析参数估计假设检验回归分析方差分析应用多元分析计算机模拟7,第一讲概论,统计建模的概念及特点统计建模的步骤统计建模常用软件统计建模大赛,一、统计建模的概念及特点,统计学：

收集、分析、展示和解释数据的科学。

统计建模：

以计算机统计分析软件为工具，利用各种统计分析方法对批量数据建立统计模型和探索处理的过程，用于揭示数据背后的因素，诠释社会经济现象，或对经济和社会发展做出预测或判断。

中国统计教育学会,统计建模的意义,随着计算机和网络技术的发展，我们面对着数据和信息爆炸的挑战，如何迅速有效地将数据提升为信息、知识和智能，是统计工作者面临的重要课题。

统计建模将统计方法、计算机技术完美结合，,带动以数据分析为导向的统计思维，发现和挖掘数据背后的规律，为经济社会的发展提供更好更多的统计信息。

统计建模的特点,1.模型只能是对客观世界的一种近似，是现实的简单化或理想化。

统计建模的宗旨，就是设法建立“有用的”模型，而不是所谓“绝对正确的”模型。

Box（1976）“有用的”模型能抓住并凸显现象中与分析目的最相关之主要特征，因此统计建模的成功与对主题领域的了解密切相关。

例如：

边际消费倾向（或乘法-加法模型）Ctyt,统计建模的特点,2.建模者应根据目的来寻找合适的数据和建模方法。

数据：

数据的来源；数据的真实性；数据所含信息；数据是否适合建模。

方法：

同一个问题，可采用多种方法，也可能需要多种方法。

一个好的建模（统计学实证文章）的三要素：

ideadatamodel,统计建模的特点,3.统计建模是一个学习与实践的过程统计学：

统计学基础、多元统计分析、非参数统计、贝叶斯统计计量经济学：

时间序列、面板数据、微观计量、非参数时间序列分析：

一元、多元、波动建模、非线性专业领域背景知识统计分析软件：

Matlab、R、SPSS、SAS,统计建模的注意事项,避免只用一种方法（未比较其他模型和交叉验证），应该避免没有根据或比较地任意假定模型形式。

不要过度夸大一个模型的功能，即使是诺贝尔经济奖获得者也无法预测出任何一次经济危机?

任何一个现成模型必须得经受最新数据的考验，否则必须被替代或修改：

例如，线性非线性；一元多元；水平二阶矩偏度和峰度经验：

模仿权威文献，适当引入自己变量！

统计的本质,观测/实验数据,理论/假说/模型,p2,明确问题,数据收集,数据预处理,撰写论文结果分析模型检验模型估计模型构建,二、统计建模的步骤,1.明确问题,许多数理统计杂志喜欢发表没有任何数据背景的有关数学模型的文章；许多统计毕业生只会推导和证明各种模型，却不擅长处理真实的问题和数据；许多人面对着有限样本，也假装是大样本，并且不经验证，据此得到结论；一些人不从数据出发，在学习或者构建了一个新模型后，就生搬硬套，寻找“适合”的数据来“证明”自己的模型有意义。

长假期间高速免费？

节假日火车票免费？

火车梯形退票费问题；高铁票价问题；小微企业相继倒闭；沿海民工荒问题；富二代问题；二胎问题；企业税负减免问题；人民币贬值问题；收入差距扩大问题；大学排行榜问题,明确问题：

以问题和数据为导向,明确问题：

以问题和数据为导向,可以搜集哪些变量？

哪些是控制变量？

哪些是无法掌控的变量？

哪些是需要重点研究的变量？

适合构建什么模型？

模型结果与理论是否吻合？

预测精度怎样？

未来的变化趋势怎样？

有何政策含义？

统计建模已经帮这个世界解决许多真实且实际的问题（农业、医学、遗传、工业、商业等）。

各个领域都靠统计解决许多问题，所以统计是问题导向，人们在“没有标准答案的问题”中寻,求近似可靠稳定的模型提供解决方案!

明确问题：

以问题和数据为导向,2.数据收集,一手数据：

调查、实验观察二手数据：

书籍、网络、年鉴基准数据统计建模时，一定要写清数据来源！

数据收集,1.政府统计数据,统计局网站或年鉴国家各部委，例如人民银行、国税总局、商务部等,2.国际组织,世界银行世界发展指数数据库国际货币基金组织IMFIFS数据库世界贸易组织WTO贸易统计年鉴国际清算银行、亚洲开发银行、泛美开发银行、联合国世界粮农组织、联合国环境署、联合国教科文组织等,数据收集,3.权威商业机构统计数据库,全球银行、金融机构信息库BvD全球市场信息数据库GMID亚洲经济数据库（CEICASIA）英国路透（Reuters）数据库中经网统计信息数据库,4.非政府组织的抽样调查数据:

大学、科研院所组织的调查统计,美国北卡莱罗纳大学和中国疾病控制与预防中心联合主办的“中国健康与营养调查（CHNS）,高校常用数据库,1.国家统计局官网2.中经网统计数据库3.国研网统计数据库4.CCER统计数据库5.Wind数据库6.BvD数据库,如果有些数据库找不到，请与其它高校的同学或者朋友联系，或者国外同学联系,国家统计局,28,国内常用微观数据库,1.CHIP数据,中国社会科学院经济研究所收入分配课题组（李实、赵人伟老师主持，福特基金会赞助）于1988年、1995年和2002年，进行的全国调查中的中国农村和城市居民家庭收入分配调查得到的。

1995年的调查覆盖19个省（市、自治区），调查了6931户城镇家庭和7998户农村家庭，分别涉及21696位城镇居民和34739位农村居民；2002年的调查覆盖22个省（市、自治区），调查了6835户城镇家庭和9200户农村家庭，分别涉及20632位城镇居民和37969位农村居民。

国内常用微观数据库,2.CHNS（中国健康与营养调查）3.CHARLS（中国健康与养老追踪调查）http:

/HealthandFertilitySurvey）这些通常需要先注册，通过邮件获得密码、ID之类的才能继续下载，所以可能需要点耐心。

其中CFPS还需要寄信函到北京才能取得密码和ID。

注意保密！

禁止传播！

3.数据预处理,缺失值（例如，一月份的工业增加值数据）异常值（例如，国税数据某直辖市为负数）不一致（例如，名义值实际值、季节调整、人民币美元转换、时间长度不一致等）这些工作很可能非常费时而且极其琐碎，但必须去做，否则后续的分析是不可能的。

数据缺失怎么办？

删除用同一变量其他值的均值或中位数填补在各个变量之间建立模型（比如回归模型，最近邻方法等）来填补。

R包：

missForest。

专门用于填补缺失值。

采用随机森林的方法，同时自动填补定量变量和分类变量。

4.模型构建,第一步：

探索性分析。

利用图形（例如散点图）、各种统计量（均值、标准差、最大值、最小值、负值等）、或者稍微复杂的探索方法来查看数据的关联性、线性性、异方差性、多重共线性、聚类特征、分布形状等。

第二步：

寻找适合的模型，例如，统计模型、计量经济模型、时间序列模型、多元统计分析。

当代计量经济模型体系,单位根检验,ARIMA（时间序列）模型,SARIMA（季节时间序列）模型,PANEL（面板数据）模型、空间计量模型,DS（离散选择）模型、有序响应、计数模型LDV（受限因变量）模型（删失、截断模型）,线性时间序列,时间序列模型回归模型,单序,列模型向量序列模型,时间序列的加法、乘法模型，X12季节调整,组合模型,截面数据回归蒙特卡罗模拟技术,非线性时间序列波动模型单位根检验时间序列回归,GAR（广义自回归）、BL（双线性）模型TAR、STAR（门限自回归、平滑转移）模型ARCH、GARCH（自回归条件异方差）模型SV（随机波动）模型ACD、SCD（自回归、随机条件久期）模型研究VAR、VEC（向量自回归、误差修正）模型单方程（线性、可线性化非线性）回归模型联立方程模型（结构、简化型、递归模型）分位数回归模型单位根检验,各种统计方法层出不穷，学习永无止境，怎么办？

（基本思想）针对不同类型的数据，如何选取合适的模型？

遇到没学过的模型，怎么办？

（基本类型）谷歌和百度！

论坛或者QQ群！

5.模型估计,不同的模型有不同的估计方法和检验方法。

常见,的模型估计方法包括：

最小二乘（OLS）法,极大似然估计（MLE）法广义矩（GMM）法分位数回归方法贝叶斯方法（与经验的结合）,6.模型检验各种检验准则：

经济意义检验：

定性检验统计学检验：

t检验、F检验、拟合优度检验计量经济学检验：

异方差、自相关、多重共线性等检验预测精度检验,比较模型的标准,算法模型交叉验证（crossvalidation）：

拿一部分数据作为训练集（trainingset），得到模型，再用另一部分数据（称为测试集，testingset）来看误差是多少。

有时需要进行k折交叉验证（k-foldcrossvalidation），即把数据分成k份，每次拿k-1份作为训练集，用剩下的一份作为测试集，重复k次，得到k个误差作出平均，以避免仅用一个测试集可能出现的偏差。

显然，交叉验证的方法也适用于传统模型之间或者在传统模型和算法模型之间的比较。

选择模型不是最终目的，最终目的是解释模型所产生的结果，而结果必须是应用领域的结果，必须有实际意义。

仅仅用统计术语说某个模型较好、某个变量显著之类的话是不够的。

例如，恩格尔定律、边际消费倾向。

7.结果分析,三、常用统计建模软件,统计软件的种类很多。

有些功能齐全，有些价格便宜；有些容易操作，有些需要更多的实践才能掌握。

还有些是专门的软件，只处理某一类统计问题。

网上可以获得的统计或者计量软件起码有多达几百种。

面对太多的选择往往给决策带来困难。

这里介绍最常见的几种。

SPSS、EXCEL、SAS、Eviews、R语言、Matlab、Statistics,统计软件,统计软件的种类很多。

差异较大：

功能是否齐全？

价格是否便宜？

是否开源？

是否容易操作？

软件是否太大？

是否专门性软件？

只处理某一类统计问题。

面对太多的选择往往给决策带来困难。

这里介,绍最常见的几种。

统计软件Excel,严格说来并不是统计软件，但作为数据表格软件，必然有一定统计计算功能。

而且凡是有MicrosoftOffice的计算机，基本上都装有Excel。

注意：

有时在装Office时没有装数据分析的功能，那就必须装了才行。

当然，画图功能是都具备的。

对于简单分析，Excel还算方便，但随着问题的深入，Excel就不那么“傻瓜”，需要使用函数，甚至根本没有相应的方法了。

统计软件S-plus,这是R出现之前统计学家最喜爱的软件；功能齐全；强大的编程功能，使得研究人员可以编制自己的程序来实现自己的理论和方法；目前正在进行“傻瓜化”以争取顾客。

但仍然以编程方便为顾客所青睐。

R免费，永远正版R资源公开R可以在UNIX,Windows和MacosX上运行R有优秀的内在帮助系统R有优秀的画图功能学生能够轻松地转到商业支持的S-Plus程序（如果需要使用商业软件）R语言有一个强大的，容易学习的语法，有许多内在的统计函数,统计软件R软件,通过用户自编程序，R语言很容易延伸和扩大。

它就是这样成长的。

R是计算机编程语言，类似于UNIX语言，C语言，Pascal，Gauss语言等。

对于熟练的编程者,它将觉得该语言比其他语言更熟悉。

而对计算机初学者,学习R语言使得学习下一步的其他编程不那么困难。

那些傻瓜软件（SAS,SPSS等）语言的语法则完全不同。

R的优点,

展开阅读全文