MATLAB在统计模型中的应用.docx
《MATLAB在统计模型中的应用.docx》由会员分享,可在线阅读,更多相关《MATLAB在统计模型中的应用.docx(27页珍藏版)》请在冰豆网上搜索。
MATLAB在统计模型中的应用
MATLAB在统计模型中的应用
摘要
我们知道MATLAB具有强大的图形处理功能,它本身带有许多绘图的库函数,可以很轻松地画出各种复杂的二维和多维图形,这使得MATLAB成为是技术数据可视化的杰出代表,也使得其成为应用统计的重要工具。
MATLAB在统计模型中的作用主要体现在其在应用统计中归纳了较为简洁的方法,这里我们主要介绍MATLAB在概率统计中的一些应用。
关键词:
MATLAB;数理统计;概率
ApplicationofMATLABinthestatisticalmodel
ABSTRACT
WeknowthatMATLABhasapowerfulgraphicscapabilities,libraryfunctionitselfwithmanydrawing,caneasilydrawavarietyofcomplextwo-dimensionalandmulti-dimensionalpattern,whichmakestheMATLABbecomeistheoutstandingrepresentativeoftechnologyofdatavisualization,alsomakeitbecomeanimportanttoolinappliedstatistics.TheroleofMATLABinthestatisticalmodelismainlyreflectedintheinductionmethodissimpleanditsapplicationinstatistics,hereweintroducesomeapplicationsofMATLABintheprobabilitystatistics.
Keywords:
MATLAB,;mathematicalstatistics,;probability
目录
1MATLAB的简介………………………………………………………………..4
2MATLAB与统计模型………………………………………………………….5
2.1统计模型的理论………………………………………………………………5
2.1.1什么是统计模型………………………………………………………..5
2.1.2异常值………………………………………………..9
2.2统计模型的实践…………………………………………………………….10
2.2.1统计相关建模的目的和步骤………………………….…………………10
2.2.2数据的预处理………………………………………………...11
2.3MATLAB在统计模型中的应用………………………………………………14
2.3.1MATLAB与数据可视化…………………………………………………14
2.3.2MATLAB在统计模型中的应用…………………………………………18
3结论........................................................................................................................22
3.1课题提出的目的.................................................................................................22
3.2研究中得出的结果.............................................................................................22
参考文献…………………………………………………………………………….24
附录…………………………………………………………………………………25
附录A…………………………………………………………………………….25
附录B……………………………………………………………………………27
1MATLAB的简介
MATLAB是一种功能十分强大,运算效率很高的数学工具软件。
全称是MatrixLaboratory,起初它是一种专门用于矩阵运算的软件,经过多年的发展,MATLAB已经发展成为一种功能全面的软件,几乎可以解决科学计算中的任何问题[1]。
MATLAB是当前最优秀的科学计算软件之一,也是科学领域中分析、应用和开发的基本工具。
MATLAB编写简单、代码效率高等优点使得MATLAB在通信、信号处理、金融计算等领域都已经被广泛应用。
在MATLAB环境下,用户可以集成程序设计、数值计算、图形绘制、输入输出、文件管理等多项操作。
MATLAB已成为多学科、多种工作平台的功能强大、界面友好、语言自然并且开放性的大型应用软件。
MATLAB的主要特点是:
(1)有高性能数值计算的高级算法,特别适合矩阵代数领域;
(2)有大量事先定义的数学领域,并且有很强的用户自定义函数的能力;
(3)有强大的绘图功能以及具有教育、科学和艺术学的图解和可视化的二维、三维图;
(4)基于HTML的完整的帮助功能;
(5)适合个人应用的强有力的面向矩阵(向量)的高级程序设计语言;
(6)与其他语言编写的程序结合和输入输出格式化数据的能力;
(7)有在多个应用领域解决难题的工具箱。
2MATLAB与统计模型
统计模型诊断是20世纪70年代中期发展起来的统计学领域一个新的研究方向,其主要目的是评价统计模型的适当性以及识别数据中可能存在的异常值和强影响点。
在模型适当性的评价方面,线性模型中目前主要采用残差分析来判断模型拟合的好坏。
而我们可以利用MATLAB来做到这一点。
2.1统计模型的理论
2.1.1什么是统计模型
在统计上,调查和试验数据可以看作是地理过程的随机表现,具有随机过程的性质。
概率论是随机过程的基础,大数定律是使用统计学方法研究随机过程的基本依据。
在统计研究中,一般假定研究对象的数据分布类型为正态分布。
对于非正态分布的数据,需要转换为正态分布后才能进行统计分析,否则,要选择与数据分布类型相一致的分析方法。
分析单个变量或两组变量之间的关系,使用相关分析方法;分析变量组合所表现出来的相关关系,使用因子分析方法。
通过相关分析和因子分析建立成因过程与地理现象的联系,为科学的理论提供基础。
在相关分析的基础上,利用变量之间的关系通过回归分析对具有相同分布的新数据进行预测。
现代科学研究中包含三个要素:
理论、观察和统计。
科学理论关系到科学的逻辑方面,它是在基本原理的指导下,根据已经掌握的事实,经过一系列的思维过程,形成对未知现象的内在规律的猜想,这个过程称为科学假说。
在科学发展过程中,假说是理论发展的重要途径之一。
假说是理论形成的初级阶段,随着假说的科学性得到验证和证明,假说可以转化成理论。
观察是为研究取得客观实际材料的过程,它和研究方法直接联系。
这里所说的观察是广义的观察,包括应用实验方法、调查方法、实地研究方法等。
这些方法应该在方法论的指导下得到正确的应用。
首先,研究目的要明确,要清楚地认识到所进行的研究是描述型、解释型、还是探索型的。
其次,还要明确研究总体和分析单位。
然后,根据研究的目的和研究的对象选择观察的方法。
统计除了可用于观察数据汇总和统计描述外,还可以对多变量之间的关系进行定量描述,可以用来把实际观察资料与理论假说的推论联系起来对假说进行检验。
从研究过程看,理论、观察和统计三个要素是密切联系,相互制约的。
将它们统一在一个完整的研究设计方案中加以实施,是推进对现象认识的最佳途径。
统计的应用不仅需要专业理论的指导,也需要方法论的指导。
忽视这两个方面,便极易导致研究结论中的谬误。
一般而言,统计方法指对数据的收集、显示、分析的方法,这种方法可以作为地理、生物等研究的基础。
统计分析可以分为两部分。
描述统计学(Descriptivestatistics)和推断统计学(InferentialStatistics)。
描述统计学主要处理数据的组织和汇总,其目的是用较少的汇总性的测度代替大量的数据。
其关键是针对不同的问题采用合适的统计测度,以避免采用不合适的统计测度所带来的后果。
推断统计学主要与概率理论相联系,它是为了能够将少数个体的研究结果推广应用到更大群体中的方法。
这一推广应用的过程与以下几个概念密切相关,这些概念之间的关系如图2.1.1所示。
图2.1.1统计分析中各个概念的关系
1.总体
总体是研究对象中所有要素的集合。
总体可分为有限总体和无限总体。
统计分析要考虑有限的和无限的总体。
2.总体特征
总体特征是指总体中任一要素的可测属性。
总体特征的取值随总体包括的要素不同而变化,所以常用变量来表征总体特征。
总体特征的值是变化的,需要关注其随时间的变化过程。
3.变量
变量是能够取不同值的要素的总体特征。
对于总体而言,可以从两个方面来收集信息。
一是确定总体中每个感兴趣要素的变量值,这就是通常说的总体普查(总体枚举)方法。
很清楚,这只能用于总体有限的情况。
另一方面是确定总体中有限个体子集的变量值,这就是采样的方法,它用于总体无限的情况,在实践中更为重要。
4.总体普查
总体普查是指总体中所有要素的相关总体特征的完全列表。
5.样本
样本是总体中要素的子集,用来推断总体的某些特征。
6.采样误差
采样误差是总体特征值与由样本得到的总体特征值之间的差异。
7.非采样误差
非采样误差是数据在采集、记录、编辑等过程中产生的误差。
连接样本和总体的是概率论。
总体的推断基于样本的信息,推断的质量取决于样本对总体的反映程度。
由于缺少总体普查,通常不是使用代表性样本,而是使用随机样本进行分析。
样本量越大,越可获得无偏估计量。
统计推断的过程如图4.2所示。
在采样过程中,选择的是总体的成员。
这些成员构成了样本。
从该样本中,可以作出关于总体的推断。
采样是从总体中得到样本,统计推断则从样本回到总体。
图4.2总体与样本关系
统计推断的目标是基于样本的信息提供总体的特征。
有两种方式进行这种推断。
一类是估计,另一类是假设检验。
8.估计
估计是利用样本信息推测未知的总体特征的值。
9.假设检验
假设检验是判断样本数据是否支持假设的某些总体特征的特定值。
在假设检验中,先假设某些总体特征的值,然后判断样本数据对该假设值的支持程度。
在进行实际的工作之间,对于变量和样本,我们需要考虑如下的问题。
(1)变量
1)变量足够吗?
2)变量之间有关系吗?
如果有,那么关系的形式和强度如何,怎么获取和表述?
3)如果我们希望变量之间无关,怎么进行变换?
变换的有效性如何?
4)变量的分布符合正态吗?
能够使用经典的统计学方法处理吗?
5)不同测量尺度的变量怎么进行混合处理?
哪些方法合适呢?
(2)样本
1)样本足够吗?
2)如果样本太多,怎么选择合适的样本和数量?
3)如果样本太少,怎么补充样本?
4)如果某变量有样本缺失,怎么进行处理?
2.1.2异常值
异常值的识别主要在一定的异常模型假设下进行统计检验。
而影响点的识别主要是研究数据点f或数据集)对我们关注的某个内容的影响程度并识别数据中的特殊结构,这项工作也称之为影响分析。
统计模型诊断可以为统计模型的改进提供重要的参考信息。
在某些领域中,异常值及影响点还可以为我们提供某些特殊信息:
如在地质找矿中,异常值及影响点可能对应着矿产资源富集信息;而在经济领域,异常的出现还可能是某种预警信息的表现。
异常值对我们现代人来说并不陌生,人们甚至不自觉地会采用一些手段来处理现实生活中出现的异常现象。
最典型的就是在体育比赛中对裁判打分的平均算法——去掉一个最高分和最低分,再作平均。
人们对异常值的认识可以追溯到l6世纪,Bernoulli提到:
“在200多年前,人们丢掉异常值的处理方法已经是常见的现象。
”处理和识别异常值的统计方法可追溯到l850年。
虽然异常值的识别和处理方法在现代已经发展很快,但是对异常值的定义依然有不同的理解和争论。
例如Edgeworth(1887)认为:
不一致观测值(discordantobservation)可以定义为那些与所在样本中其他数据点遵从的频率规则flawoffrequency)不一致的观测值。
82年后,Grubbs(1969)又这样表述:
一个异常的观测值,即异常值,是严重偏离所在样本其他数据点的观测值。
这些表述实质上认为异常值是有目的的、后验的.这种有目的性的识别异常值的方法,一般只能在数据中的异常值可以预先通过视觉观察时才能使用(在一元小样本中较多)。
事实上,对样本量较大或较为复杂的数据集,比如回归、多元数据、试验设计等,预先观察到异常值是很困难的.因此,就有在观察到异常值之前制定一种客观的准则,这种准则大多依赖于异常值模型(outliermodel)。
由于近几年来强调统计建模的重要性,许多研究者认为异常值是那些来自于非目标总体(某种统计模型)的观察值.Hawkins(1980)给出了一种比较明确的定义:
异常值是指污染的观测值或不一致观测值的总称。
不一致观测值是指那些让调查者感到吃惊或有较大偏差的数据点。
而污染的观测值是指来自非目标总体的观测值。
2.2统计模型的实践
2.2.1统计相关建模的目的和步骤
2.2.1.1统计相关建模目的
1.变量间相关性研究
人们对变量间关系的本质感兴趣,并试图通过这种联系建立对事物总体的认识。
是否所有变量都相互独立?
还是一个变量或多个变量依赖于其他变量?
如果是后者,这些变量之间的关系如何?
相关分析就是分析这类问题的。
2.形成科学的成因假设
根据变量之间的关系建立成因过程与现象的联系,解释所发生的地理现象。
因子分析就是可用的方法之一。
3.预测
为了根据某些变量的观测值预测另一个或另一些变量的值,必须建立各个变量之间的联系。
回归分析就是可用的方法之一。
4.数据简化或结构简化
在不损失有价值信息的情况下尽可能简单地将被研究的现象描述出来,希望这样能使解释变得更容易些。
因子分析同时也具有这样的¬功能。
2.2.1.2建模步骤
统计相关模型建立在观察或搜集到的数据基础之上。
建模主要有下面5个步骤。
1.数据整理
整理调查数据,按照变量的性质和测量尺度进行归类,形成规则表格并录入计算机。
在这项工作中,要注意以下几点:
1)变量命名是否规范
2)明确变量的测量尺度和数据类型
3)检查样本
4)数据录入
5)填写说明日志
2.数据预处理
根据研究目的和使用的方法,对数据进行预处理,包括分析数据的统计特征、检查数据分布、进行数据变换三方面的内容。
对于统计相关模型而言,本步重点要考察数据分布是否为正态分布,如果不是,则要进行转换。
3.模型计算
选择模型和模型参数,运行求解。
模型计算的结果可以是数字、表格或图形。
当前,模型求解的工作由计算机来完成,关键是参数的选择。
4.模型检验
对模型进行检验,包括模型是否满足假设的要求,是否具有简约性,模型的结果是否合理,误差分布如何等。
5.模型解释和应用
根据建立的模型对研究问题进行解释、预测等。
工作的质量主要取决于建模人员的专业素质。
2.2.2数据的预处理
数据的预处理主要是确定数据的分布类型和统计特征,并根据分析模型的需要进行数据变换。
描述单个变量的统计特征,又称为描述性统计(Descriptivestatistics)或数据特征统计量。
平均特征描述反映数据分布的位置,常用的概念有:
期望(ExpectedValue),均值(Mean),众数(Mode),中位数(Median),四分位数(Quartiles)。
1.期望和均值
在统计分布研究中经常使用期望的概念,在数据处理中常用均值概念。
对于任意的一个数列或变量X,其均值为:
其中,n是样本的个数(或数列的长度)。
在统计学中,均值也常用μ表示。
对于正态分布的数据,均值很好地表述了数据的分布位置。
2.中位数
中位数:
将观察值按照由小到大的顺序排列后,位于中间位置的数称为中位数。
如果序列的长度n为偶数,中位数为:
,
另外,在工作中经常用的还有四分位数,包括上四分位数和下四分位数(Upper&Lowerquartiles)。
上四分位数指的是75%样本数对应的值,下四分位数指的是25%样本数对应的值。
假设有100个样本,按照由小到大的顺序排列后,最小的为1,上四分位数是第75个记录对应的值,下四分位数是第25个记录对应的值,中位数则是第50、51个记录对应值的平均。
3.众数
在指定的变量(数列,观察序列)中出现次数最多的数(频数最高的数)。
如果不统计数据的频数,也可以利用中位数来计算:
在应用中,如果数据的变化范围不大,应用均值较好,否则,应该使用中位数。
众数用于观察数据的极值不确定的情况下。
如果要进行统计分析,经常使用的是均值。
如果数据存在异常分布,则需对异常值分析处理后再进行统计分析。
如果工作的目的在于精确的描述数据的平均特征,那么,则需要针对不同的情况使用这些概念。
在有些情况下,还要进行稳健分析,即分析在较稳定的条件下数据的平均特征。
变化特征描述反映数据的离散程度或变化尺度。
常用的有离差,方差,标准差,变异系数。
1.离差
离差有几种描述形式。
1)极差:
最大值与最小值的差。
2)偏差:
数据序列中各个数据与其均值的差。
3)离差平方和:
数据序列中各个数据与其均值的差的平方在加和,即
或
2.方差、标准差
方差(Variance)是变量的离差平方和除以样本数。
标准差(StandardDeviation)是方差的平方根。
在统计学中,标准差常用σ表示。
3.变异系数
变异系数又称离差系数,指标准差与均值的比值。
变异系数越大,数据离散程度越高。
分布特征描述用来反映数据的分布形状,即数据偏离正态分布的程度。
常用的有:
峰度(Kurtosis),偏度(Skewness)。
正态分布是对称的,所以其偏度为0,峰度为0。
不同的文献中,给出的偏度和峰度的公式不同。
这里使用的是StatSfot公司的产品Statistica中的定义。
偏度=
峰度=
其中,
,
偏度大于0为正偏(平均值在正态分布峰值的右边),小于0为负偏(平均值在正态分布峰值的左边),0则表示分布是对称的。
如果 偏度显著的不为0,那么,分布就是不对称的。
峰度大于0表示数据的分布比正态分布更为集中,小于0则更为分散。
在使用基于正态分布假设的统计方法以前,计算这两个参数是很有必要的。
如果偏度远偏于0或峰度远偏于0,那么,数据为非正态分布,需要进行变换(参数据变换一节)。
2.3MATLAB在统计模型中的应用
2.3.1MATLAB与数据可视化
图形可以直观明了的显示数据,使用户能够更加直接、清楚的了解数据的属性。
因此,在科学研究和工程实践中,经常需要将数据可视化。
MATLAB的绘图功能满足了用户的图形需要。
MATLAB中包含了大量的绘图函数,使用户可以轻松实现数据的可视化[2]。
MATLAB的图形功能在直角坐标系中或极坐标系中绘制基本图像;绘制特殊图像,如条形图、柱状图、轮廓线和表面网格图等。
我们知道MATLAB具有强大的图形处理功能,它本身带有许多绘图的库函数,可以很轻松地画出各种复杂的二维和多维图形,这使得MATLAB成为是技术数据可视化的杰出代表。
MATLAB在数据可视化中的运用主要体现在数据的二维曲线,三维曲线和曲面,四维切片图等方面,它为科研和教研中数据的表现提供了强有力的工具。
2.3.1.1二维图形
(1)polt函数
polt函数用来绘制线形图形,其使用格式如下:
(a)polt(Y)命令依据Y每列的标志绘制出的Y每一列。
如果Y属于复平面,那么polt(Y)等价与polt(real(Y),imag(Y)),即以real(Y)为横坐标,以imag(Y)为纵坐标来绘制二维图形。
当输入量多与一个时,变量虚部将会被忽略。
(b)polt(X,Y)命令绘制向量Y相对向量X的图形。
如果X或者Y为矩阵的形式,那么绘制的向量则对应于矩阵中的行或列;如果X是一标量二Y为一向量,那么length(Y)形成不连续的点将被MATLAB绘制出来。
(c)polt(X,Y,S)命令可以用来绘制不同线性、标识和颜色的图形,其中S为一个字符串。
如:
polt(X,Y,’c+:
’)所绘制的曲线在每一个数据点都由“+”组成。
而polt(X,Y,’bd’)所绘制的曲线在每个数据点都由蓝色的菱形组成,并且在这些点之间没有线连接。
(d)polt(X1,Y1,S1,X1,Y2,S2,X3,Y3,S3,…)命令可以将多个图形放置在一个图形框里,其中X’s和Y’s为向量或矩阵,是S”s为字符串。
(2)bar函数
(a)bar(X,Y)命令可以绘制矩阵Y(mxn)各列的垂直条形图。
值得注意的是向量X必须单调递增或单调递减。
(b)bar(Y)命令可以依据X的默认值为X=1:
M,对于输入的向量,bar(X,Y)或bar(Y)绘制length(Y)的条形图。
(c)bar(X,Y,WIDTH)或者bar(Y,WIDTH)可以制定条形的宽度。
如果WIDTH>1,将产生重叠的条形图,WIDTH的值默认为0.8。
(3)pie函数:
用于绘制饼形图。
在MATLAB中,提供了丰富的个性化绘图工具。
用户在绘制图形时,可以定义自己喜欢的曲线色彩、线型和数据点型,这里对这些操作做简要介绍。
表2.3.1.1曲线的色彩、线型和数据点型参数定义
颜色符号
含义
数据点型
含义
线型
含义
b
蓝色
.
点
-
实线
g
绿色
x
X符号
:
点线
r
红色
+
+号
-.
点划线
c
蓝绿色
h
六角星形
--
虚线
m
紫红色
*
星号
y
黄色
s
方形
k
黑色
d
菱形
v
下三角
^
上三角
<
左三角
>
右三角
p
正五边形
2.3.1.2三维维图形的绘制
(一)三维线图指令plot3
plot3函数用来绘制三维曲线图形
(1)plot3(X,Y,Z),其中X,Y,Z为向量或矩阵。
当X,Y,Z为长度相同的向量时,该命令将绘制一条分别以向量X,Y,Z为x,y,z坐标的空间曲线;当X,Y,Z为m×n矩阵时,该命令以每个矩阵对应列为x,y,z坐标绘制出m条空间曲线;
(2)plot3(X1,Y1,Z1,LineSpec),通过LineSpec指定曲线和点的属性;
(3)plot3(…,’PropertyName,’PropertyValue,…),利用指定的属性绘制图形;
(4)h=plot3(…),绘制图形并返回图形句柄,h为一个列向量,每个元素对应图形中每个对象的句柄。
(二)三维网线图和曲面