张亨整理四个常用统计软件SASSTATASPSSR语言分析比较及其他统计软件概述题库.docx
《张亨整理四个常用统计软件SASSTATASPSSR语言分析比较及其他统计软件概述题库.docx》由会员分享,可在线阅读,更多相关《张亨整理四个常用统计软件SASSTATASPSSR语言分析比较及其他统计软件概述题库.docx(16页珍藏版)》请在冰豆网上搜索。
张亨整理四个常用统计软件SASSTATASPSSR语言分析比较及其他统计软件概述题库
四个常用统计软件
SAS,STATA,SPSS,R语言
分析比较及其他统计软件概述
一、SAS,STATA,SPSS,R语言简介
(1)SAS简介
SAS(全称StatisticalAnalysisSystem,简称SAS,翻译成汉语是统计分析系统)是全球最大的软件公司之一,是由美国NORTHCAROLINA州立大学1966年开发的统计分析软件。
1976年SAS软件研究所(SASINSTITUTEINC)成立,开始进行SAS系统的维护、开发、销售和培训工作。
期间经历了许多版本,并经过多年来的完善和发展,SAS系统在国际上已被誉为统计分析的标准软件,在各个领域得到广泛应用。
其网址是:
(2)STSTA简介
STATA统计软件由美国计算机资源中心(ComputerResourceCente)1985年研制。
STATA是一套提供其使用者数据分析、数据管理以及绘制专业图表的完整及整合性统计软件。
它提供许许多多功能,包含线性混合模型、均衡重复反复及多项式普罗比模式。
新版本的STATA采用最具亲和力的窗口接口,使用者自行建立程序时,软件能提供具有直接命令式的语法。
STATA提供完整的使用手册,包含统计样本建立、解释、模型与语法、文献等超过一万余页的出版品。
除此之外,STATA软件可以透过网络实时更新每天的最新功能,更可以得知世界各地的使用者对于STATA公司提出的问题与解决之道。
使用者也可以透过STATAJournal获得许许多多的相关讯息以及书籍介绍等。
另外一个获取庞大资源的管道就是STATAlist,它是一个独立的listserver,每月交替提供使用者超过1000个讯息以及50个程序。
其网址是:
http:
//www.STATA.com/
(3)SPSS简介
SPSS(StatisticalProductandServiceSolutions,“统计产品与服务解决方案”软件。
最初软件全称为“社会科学统计软件包”(StatisticalPackagefortheSocialSciences,但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司
已于2000年正式将英文全称更改为“统计产品与服务解决方案”,标志着SPSS
的战略方向正在做出重大调整。
为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称SPSS有
Windows和MacOSX等版本。
1984年SPSS总部首先推出了世界上第一个统计分析软件微机版本SPSS/PC+,开创了SPSS微机系列产品的开发方向,极大地扩充了它的应用范围,并使其能很快地应用于自然科学、技术科学、社会科学的各个领域。
世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价。
SPSS是世界上最早的统计分析软件,由美国斯坦福大学的三位研究生
NormanH.Nie、C.Hadlai(Tex)Hull和DaleH.Bent于1968年研究开发成功,同时成立了SPSS公司,并于1975年成立法人组织、在芝加哥组建了SPSS总部。
2009年7月28日,IBM公司宣布将用12亿美元现金收购统计分析软件提供商SPSS公司。
如今SPSS已出至版本22.0,而且更名为IBMSPSS迄今,SPSS公司已有40余年的成长历史。
其网址是:
httP:
//
(四)R语言简介
R是用于统计分析、绘图的语言和操作环境。
R是属于GNU系统的一个自
由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。
AT&T贝尔实验室开发的一种用来进最初S语言的实现版本主要是
S语言,并由MathSoft公司的统计
RobertGentleman和RossIhaka及其
R是基于S
R是统计领域广泛使用的诞生于1980年左右的S语言的一个分支。
可以认为R是S语言的一种实现。
而S语言是由行数据探索、统计分析和作图的解释型语言。
S-PLUS。
S-PLUS是一个商业软件,它基于科学部进一步完善。
后来Auckland大学的
他志愿人员开发了一个R系统。
由“R开发核心团队”负责开发。
语言的一个GNU项目,所以也可以当作S语言的一种实现,通常用S语言编写的代码都可以不作修改的在R环境下运行。
R的语法是来自SchemeR的使用与S-PLUS有很多类似之处,这两种语言有一定的兼容性。
S-PLUS的使用手册,只要稍加修改就可作为R的使用手册。
所以有人说:
R,是S-PLUS的一个“克隆”。
其网址是:
www.r-project.org
使用范围
SAS
STATA
SPSS
R
使用范围
典型应用
范围
市场需求预测、销售预测、
潜在客户开
发、CRM、经
营绩效分析等
医学,生物统计研究,学术界
典型的应用是民意调查、问卷分析;主要用于社会科学研究
计量经济学、制造、金融、生物医药、学
术论文
适合领域
管理科学(企业、资料、财务、会计、经
济••…•)
统计学、经济学、生物学、医药学、社会学、人口学
社会科学(社会、教育、心理、政治、行政、传播…),行政管理领域
基本统计学、经济学、生物信息学、生态学、医药学、社会学、地理
学
适合人员
专业研究及编
程人员
统计研究人员
应用统计人员
统计研究人员
扩展性
SAS语言具有强大的对数据处理的能力,但其不具有对新算法的集成功能,因此算法比较固定,
STATA的编程
功能也很强大,每期的
STATAjournal
都有最新的模
不具备扩展性,无法编写新算法,只能使用软件提供
R的可扩展功能很强,可以任意实现自己的算法,甚至都可以编游戏了,不过这方面并不是R的
的固定功能
需随着SAS软
型程序更新
长处,R的主要
件的版本更新
应用在统计编
才能更新算法
程
综合比较
SAS
STATA
SPSS
R
操作界面
纯编程界面,操作困难
STATA就如一个半自动相机,也就是说它把傻瓜菜单和命令编程结合了起来。
使用Windows的窗口方
式展示各种管理和分析数据方法的功能,使用对话框展示出各种功能选择项,只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务
R的界面非常简洁,只有一个菜单栏,和一个默认新建的RConsole控制台
数据兼容
SAS直接兼容较少的数据(库)格式,对于其它不直接兼容的数据格式需使用SASAccess将数据格式转换为SAS数据格式才能使用。
通常数据来源于数据库下
载,而不是手工录入。
STATA不能直接支持很多
格式(Excelfiles,SASfiles),可以先保存为csv
格式后再导入STATA
能打开Excel、DaBase、
Foxbase、Lotus1-2-3、
Access、文本编辑器等生成的数据文件。
实际基本上各大数据库
厂商已有相应的R语言企业级应用产品,这些厂商
包括Oracle、IBM、Teradata、Sybase、SAP
数据的处
理
数据处理功能非常强大,SAS语言的优势所在
在数据管理和许多前沿统计方法中的功能还是非常强大的。
只能利用菜单进行一些数据的常规操作
完美的数据可视化制作工具,丰富的图形函数和外置包,几乎无限的扩展
能力,数据处理很强大
多维数据
的图形描
分析方法
编程灵活
SAS的图形功能很强
SAS是确切地说是一套
大型集成应用软件系
统,具有完备的数据存
取、数据管理、数据分
析和数据展现功能。
SAS
系统中提供的主要分析功能包括统计分析、经
济计量分析、时间序列
分析、决策分析、财务
分析和全面质量管理工具等等,功能相当强大。
对于数据预处理、操作
方面具有很强大的灵活性,但是对于统计分析功能灵活性不强,只能通过设置不同参数来改
变输出结果。
STATA的作图模块,主要提供如下八种基本图形的
制作:
直方图
(histogram),条形图
百分条图
(bar),
(oneway)
(pie)
(twoway)
,百分圆图
,散点图
,散点图矩阵
,星形图
(star),分位数图。
这些图形的巧妙应用,可以满足绝大多数用户的统计作
(matrix)
图要求。
在有些非绘图命
令中,也提供了专门绘制
某种图形的功能,如在生
存分析中,提供了绘制生
存曲线图,回归分析中提
供了残差图等。
STATA的统计功能很强,除了传统的统计分析方法外,还收集了近20年发展起来的新方法,如Cox
比例风险回归,指数与
Weibull回归,多类结果与有序结果的logistic回归,Poisson回归,负二
项回归及广义负二项回
归,随机效应模型等。
具
体说,STATA具有如下
统计分析能力:
数值变量
资料的一般分析,分类资
料的一般分析,等级资料的一般分析,相关与回归分析,其他方法如质量控
制,整群抽样的设计效率,
诊断试验评价,kappa
等。
STATA是一个统计分析软
件,但它也具有很强的程
序语言功能
利用SPSS可以生成数十种基本图和交互图。
交互图可有不同风格的
二维、三维图。
交互图
包括条形交互图、点形
交互图、线形交互图、
带形交互图、饼形交互
图、箱形交互图、误差
条形交互图、直方交互
图和散点交互图等。
图
形生成以后,可以进行
编辑。
提供很多常用统计方
法,但是分析功能仍然
有所欠缺
几乎是固定的用法,不
具备灵活性
R的强项是绘图功能,制图具有印刷的素质,也可
加入数学符号。
R是一套完整的数据处
理、计算和制图软件系统。
其功能包括:
数据存储和处理系统;数组运算
工具(其向量、矩阵运算方面功能尤其强大);完
整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:
可
操纵数据的输入和输出,可实现分支、循环,用户
可自定义功能。
强大的编程语言。
R的功
能能够通过由用户撰写
的套件增强。
增加的功能
有特殊的统计技术、绘图
功能,以及编程界面和数
据输出/输入功能。
四、软件优缺点
(一)SAS优缺点
一般用法
优点:
SAS由于其功能强大而且可以编程,很受高级用户的欢迎。
缺点:
也正是基于此,它是最难掌握的软件之一。
使用SAS时,你需要编
写SAS程序来处理数据,进行分析。
如果在一个程序中出现一个错误,找到并改正这个错误将是困难的。
数据管理。
优点:
在数据管理方面,SAS是非常强大的,能让你用任何可能的方式来处理你的数据。
它包含SQL(结构化查询语言)过程,可以在SAS数据集中使用SQL查询。
Sas可以同时处理多个数据文件。
它可以处理的变量能够达到32,768个,
以及你的硬盘空间所允许的最大数量的记录条数。
缺点:
但是要学习并掌握SAS软件的数据管理需要很长的时间,在STATA或SPSS中,完成许多复杂数据管理工作所使用的命令要简单的多。
统计分析
优点:
SAS能够进行大多数统计分析(回归分析,logistic回归,生存分析,方差分析,因子分析,多变量分析)。
SAS的最优之处可能在于它的方差分析,混合模型分析和多变量分析。
缺点:
而它的劣势主要是有序和多元logistic回归(因为这些命令很难),以及稳健方法(它难以完成稳健回归和其他稳健方法)。
尽管支持调查数据的分析,但与STATA比较仍然是相当有限的。
绘图功能I
优点:
在所有的统计软件中,SAS有最强大的绘图工具,由SAS/Graph模块提供。
缺点—图形的制作主要使用程
序语言。
SAS8虽然可以通过点击鼠标来交互式的绘图,但不象SPSS那样简单。
(二)STATA优缺点
一般用法
优点:
STATA以其简单易懂和功能强大受到初学者和高级用户的普遍欢迎。
使用时可以每次只输入一个命令(适合初学者),也可以通过一个STATA程序一次输入多个命令(适合高级用户)。
这样的话,即使发生错误,也较容易找出并加以修改。
缺点:
有些操作用菜单不方便实现。
数据管理
优点:
尽管STATA的数据管理能力没有SAS那么强大,它仍然有很多功能较强且简单的数据管理命令,能够让复杂的操作变得容易。
STATA主要用于每次对一个数据文件进行操作,难以同时处理多个文件。
缺点:
随着STATA/SE的推出,现在一个STATA数据文件中的变量可以达到32,768,但是当一个数据文件超越计算机内存所允许的范围时,你可能无法分析它。
统计分析
优点:
STATA也能够进行大多数统计分析(回归分析,logistic回归,生存分析,方差分析,因子分析,以及一些多变量分析)。
STATA最大的优势可能在于回归分析(它包含易于使用的回归分析特征工具),logistic回归(附加有解释logistic回归结果的程序,易用于有序和多元logistic回归)。
STATA也有一系列很好的稳健方法,包括稳健回归,稳健标准误的回归,以及其他包含稳健标准误估计的命令。
此外,在调查数据分析领域,STATA有着明显优势,能提供回归分析,logistic回归,泊松回归,概率回归等的调查数据分析。
缺点:
它的不足之处在于方差分析和传统的多变量方法(多变判别分析等)。
它分析小型数据应该是非常顺手,但能读取的数据种类有限,据我所知基本上仅仅是纯文本数据和STATA本身的数据(*.dta),而且计算受内存大小和程序版本种类限制,所以无法处理特大型的数据。
绘图功能
优点:
正如SPSSSTATA能提供一些命令或鼠标点击的交互界面来绘图。
它的绘图命令的句法是最简单的,功能却最强大。
图形质量也很好,可以达到出版的要求。
另外,这些图形很好的发挥了补充统计分析的功能,例如,许多命令可以简化回归判别过程中散点图的制作。
缺点:
与SPSS不同的是它没有图形编辑器。
(三)SPSS优缺点
一般用法
优点:
SPSS非常容易使用,故最为初学者所接受。
它有一个可以点击的交互界面,能够使用下拉菜单来选择所需要执行的命令。
它也有一个通过拷贝和粘
贴的方法来学习其句法”语言。
缺点:
但是这些句法通常非常复杂而且不是很直观。
数据管理
优点:
SPSS有一个类似于Excel的界面友好的数据编辑器,可以用来输入和定义数据(缺失值,数值标签等等)。
缺点:
它不是功能很强的数据管理工具(尽管SPSS11增加了一些增大数据文件的命令,其效果有限)。
SPSS也主要用于对一个文件进行操作,难以胜任同时处理多个文件。
它的数据文件有4096个变量,记录的数量则是由你的磁盘空间来限定。
统计分析
优点:
SPSS也能够进行大多数统计分析(回归分析,logistic回归,生存分析,方差分析,因子分析,多变量分析)。
它的优势在于方差分析(SPSS能完成多种特殊效应的检验)和多变量分析(多元方差分析,因子分析,判别分析等),SPSS11.5版还新增了混合模型分析的功能。
缺点:
是没有稳健方法(无法完成稳健回归或得到稳健标准误),缺乏调查数据分析(SPSS12版增加了完成部分过程的模块)。
绘图功能
优点:
SPSS绘图的交互界面非常简单,一旦你绘出图形,你可以根据需要通过点击来修改。
这种图形质量极佳,还能粘贴到其他文件中(Word文档或Powerpoint等)。
缺点:
SPSS也有用于绘图的编程语句,但是无法产生交互界面作图的一些效果。
这种语句比STATA语句难,但比SAS语句简单(功能稍逊)。
(四)R语言优缺点
一般用法
优点:
R有很多最新的模型和检验方法。
用户可以快速实施新方法,或者寻找已经存在的软件包。
很容易学习和理解新方法,因为学生们可以看到代码中的函数。
缺点:
但是非常难自学,对英语的要求很高,同时对编程要求较高。
R文档的更新都是通过用户进行的,所以新的方法并没有被很好调试和检验。
开发者们散布于各地,而并没有在一起来进行团队合作的开发。
数据管理
优点:
可以使用键盘输入数据,可以从带分隔符的文本文件导入数据,可以导入EXCEL数据,可以访问数据库管理系统。
缺点:
使用R时,通过代码完成所有操作。
你把数据载入内存,然后运行脚本来研究并处理数据。
这个工具可能不够人性化。
统计分析
优点:
R在最初就被认为是更加适合大数据的。
它对于矩阵的操作和排序的设计是非常高效的。
R也可以很好的进行各种基于分析的数据模拟。
缺点:
R的设计更加关注统计计算以及画图功能,所以数据的处理是比较耗时的,而且不如在SAS中那么明晰。
其中一个主要的原因就是:
对于各种不同类型的数据,在R中进行很好的数据处理是比较难以掌握的。
绘图功能
优点:
可以简单的生成漂亮的图表,还可以使用循环语句来生成动画。
—
缺点:
在R中图表功能与统计分析无关,绘图和分析是相互独立的。
用户—必须自己来决定什么样的图形是合适的,使用效果的好坏取决于用户们的统计背景和喜好。
尽管改变图形去达到特别的维度或角度并不是一个简单事儿。
五、其他统计软件概述
(一)BMDP概述
BMDP是BioMedicalDataProcessing的缩写,是世界级的统计工具软件,至今已经有40多年的历史。
目前在国际上与SASSPSS被并称为三大统计软件包。
BMDP是一个大型综合的数据统计集成系统,从简单的统计学描述到复杂的多变量分析都能应付自如。
每一个BMDP程序的执行算法都经历了最为严酷的实际专业测试才被予以应用。
BmDP第一版诞生于1961年,由加州大学洛杉矶分校研发。
是由一个名为BIMED的生物医学应用软件修改而来。
起初是免费使用的,应用于生化、医药、农业等领域的统计分析。
1968年BMDP公司发行,是最早的综合专业统计分析软件,在国际上影响很大,它方法全面、灵活,早期曾有很多独具特色的分析方法。
进入20世纪90年代后,BMDP发展路途不畅,从1991年的7.0版以后就没有新版本。
但BMDP统计软件作为一方霸主,在国外仍然影响巨大,国外许多大学的统计学网站均对其关照有加,几乎所有著名大学统计学系开设的多变量分析课程当中都有BMDP软件的教学内容,而且大型学术研究机构的服务器上也通常安装着BMDPforUnix软件供终端用户使用。
BMDP2007。
最后BMDP被SPSS公司并购,并且收购之初SPSS公司在开发与推广BMDP统计软件方面的积极性也不大。
如今,可能是由于要与SAS竞争专业统计领域一的市场份额,BMDP的停滞状况才有所改变。
目前最新的版本是
(二)EPINFO概述
EPINFO是英文Statisticsprogramforepidemiologyonmicrocomputer的
缩写,翻译成汉语是流行病学统计程序。
美国疾病控制中心CDC和WHO共同
研制,为完全免费软件。
特点是数据录入非常直观,操作方便,并有一定的统计_功能,但方法比较简单,主要应用于流行病学领域中的数据录入和管理工作。
一
(三)Minitab概述
Minitab软件是现代质量管理统计的领先者,全球六西格玛实施的共同语言,以无可比拟的强大功能和简易的可视化操作深受广大质量学者和统计专家的青睐。
Minitab1972年成立于美国的宾夕法尼亚州州立大学(PennsylvaniaStateUniversity),到目前为止,已经在全球100多个国家,4800多所高校被广泛使
用。
Minitab软件是为质量改善、教育和研究应用领域提供统计软件和服务的先导。
是全球领先的质量管理和六西格玛实施软件工具,更是持续质量改进的良好
工具软件。
(四)STATISTICA概述
「STATISTICA是一个整合数据分析、图表绘制、数据库管理与自订应用发展系统环境的专业软件。
STATISTICA不仅提供使用者统计、绘图与数据管理程
序等一般目的的需求,更提供特定需求所需的数据分析方法(例如,数据挖掘、商业、社会科学、生物研究或工业工程等
(五)S-PLUS概述
Insightful公司是世界著名的商务智能软件提供商,产品涵盖分析统计、_据挖掘、知识获取、决策支持等多个领域。
公司总部设在美国西雅图。
S-PLUS作为一个工业数据分析工具与数据分析应用开发平台,在各行各业已经有较长的使用历史。
并曾获得著名的“美国计算机协会优秀软件奖。
S-PLUS提供了方便、灵活、交互、可视化的操作环境,帮助您找出数据之间的关系和趋势,让您做出更好地决策。
在科学研究、市场营销、产品研发、质量保证、财务分析、金融证券、资料统计等各个方面,S-PLUS都有广泛的应用。
S-PLUS有流畅、直观的操作界面,广泛的输入输出功能,不论您的数据在何处、数据的格式如何,都可以轻松地存取,生成的结果可以以任意格式进行输出(图形、文档、表格、网页)。
特别是:
S-PLUS的操作界面与MicrosoftOffice完全一致,用鼠标轻松点击,就可以把S-PLUS的分析结果嵌入到Word文档和PowerPoint文档中;S-PLUS与Excel无缝集成,您可以在S-PLUS环境中随意操作Excel数据,也可以在Excel环境中使用S-PLUS功能,无需花时间在Excel及S-PLUS之间,将数据来回转换;S-PLUS可以在Internet环境中进行数据分析和结果发布。
S-PLUS领先于业界的探索式图形技术,使得您可以直观地展现隐藏在数据中的关系和趋势,不致迷失在简单的统计数值及文字报表中。
S-PLUS提供超过
80种的二维和三维图形库,您可以轻松修改每一层图形的细节,包括线条、颜色、字体等,产生您想要的图形。
S-PLUS提供超过4200种统计分析函数,包含了传统和现代的统计分析、数据挖掘、预测分析的算法。
软件所有的分析功能都是向导式的,使您轻松完成数据的分析任务。
S-PLUS的开放性,允许您自己开发新的算法,集成到S-PLUS软件中。
您也可以从S-PLUS网站或者其它统计网站上免费下载算法,集成到S-PLUS软件中。
通过S-PLUS的脚本语言,可以记录和存储分析过程;或者用鼠标拖拉对象
(如按钮、菜单等等)到命令窗口,会立即产生相应的执行指令;反之,拖拉指令到工具列上,会产生相应的功能按钮。
使得您的分析过程可以进行存储、共享和重复执行,大大减少您的重复工作量。
—-PLUS还提供强大的编程语言一一S语言,您可以使用它来开发专门适合于您的个性化系统,也可以建立企业级的应用系统。
而且,S-PLUS几乎可以集
成到其它任何系统中,如:
在Unix系统上,S-PLUS的CONNECT/