matlab中数据的统计描述与分析Word下载.docx

资源描述

matlab中数据的统计描述与分析Word下载.docx

《matlab中数据的统计描述与分析Word下载.docx》由会员分享，可在线阅读，更多相关《matlab中数据的统计描述与分析Word下载.docx（18页珍藏版）》请在冰豆网上搜索。

matlab中数据的统计描述与分析Word下载.docx

简单地说，统计的任务是由样本推断整体。

频数表和直方图一组数据（样本）往往是杂乱无章的，作出它的频数表和直方图，能够看做是对这组数据的一个初步整理和直观描述。

将数据的取值范围划分为假设干个区间，然后统计这组数据在每一个区间中显现的次数，称为频数，由此取得一个频数表。

以数据的取值为横坐标，频数为纵坐标，画出一个阶梯形的图，称为直方图，或频数散布图。

假设样本容量不大，能够手工作出频数表和直方图，当样本容量较大时那么能够借助Matlab如此的软件了。

让咱们以下面的例子为例，介绍频数表和直方图的作法。

例1学生的身高和体重学校随机抽取100名学生，测量他们的身高和体重，所得数据如表身高体重身高体重身高体重身高体重身高体重17275171621666216055155571735816655170631675317360178601737316347165661706016350172571826317159177641695516867168651756717664168501614916963171611786417766170581736717259170621725917758176681756818470169641655216459173741726916952173571736116670163571705616065165581776616963176601776717256165561664917165169621705817264169581677217576164591666316954167541796217663182691867716676169721735916965171711674716865165641685717657170571585116562172531696616958172501625217575174661676316650174641686217059（）数据输入数据输入通常有两种方式，一种是在交互环境中直接输入，若是在统计中数据量比较大，如此作不太方便；

另一种方法是先把数据写入一个纯文本数据文件中，格式如例1的表格，有20行、10列，数据列之间用空格键或Tab键分割，该数据文件寄存在matlabwork子目录下，在Matlab顶用load命令读入数据，具体作法是：

load如此在内存中成立了一个变量data，它是一个包括有个数据的矩阵。

为了取得咱们需要的100个身高和体重各为一列的矩阵，应做如下的改变：

high=data（:

9）;

high=high（:

）weight=data（:

10）;

weight=weight（:

）（）作频数表及直方图用hist命令实现，其用法是：

N,X=hist（Y,M）数组（行、列都可）Y的频数表。

它将区间min（Y）,max（Y）等分为M份（缺省时M设定为10），N返回M个小区间的频数，X返回M个小区间的中点。

hist（Y,M）数组Y的直方图。

关于例1的数据，编写程序如下：

load;

）;

weight=data（:

n1,x1=hist（high）%下面语句与hist命令等价%n1=length（find（high=&

high=&

high=180&

high=）n2,x2=hist（weight）subplot（1,2,1）hist（high）subplot（1,2,2）hist（weight）计算结果略，直方图如以下图所示：

从直方图上能够看出，身高的散布大致呈中间高、两头低的钟形；

而体重那么看不出什么规律。

要想从数值上给出更确切的描述，需要进一步研究反映数据特点的所谓“统计量”。

直方图所展现的身高的散布形状可看做正态散布，固然也能够用这组数据对散布作假设查验。

例2统计以下五行字符串中字符a、g、c、t显现的频数解把上述五行复制到一个纯文本数据文件中，放在matlabwork子目录下，编写如下程序：

clcfid1=fopen（,r）;

i=1;

while（feof（fid1）data=fgetl（fid1）;

a=length（find（data=97）;

b=length（find（data=99）;

c=length（find（data=103）;

d=length（find（data=116）;

e=length（find（data=97&

data=122）;

f（i,:

）=abcdea+b+c+d;

i=i+1;

endfhe=sum（f（:

1）sum（f（:

2）sum（f（:

3）sum（f（:

4）.sum（f（:

5）sum（f（:

6）fid2=fopen（,w）;

fprintf（fid2,%8d%8d%8d%8d%8d%8dn,f）;

fclose（fid1）;

fclose（fid2）;

咱们把统计结果最后写到一个纯文本文件中，在程序中多引进了几个变量，是为了查验字符串是不是只包括a、g、c、t四个字符。

统计量假设有一个容量为的样本（即一组数据），记作，需要对它进行必然的加工，才能提出有效的信息，用作对整体（散布）参数的估量和查验。

统计量确实是加工出来的、反映样本数量特点的函数，它不含任何未知量。

下面咱们介绍几种经常使用的统计量。

（）表示位置的统计量算术平均值和中位数算术平均值（简称均值）描述数据取值的平均位置，记作，

（1）中位数是将数据由小到大排序后位于中间位置的那个数值。

Matlab中mean（x）返回x的均值，median（x）返回中位数。

（）表示变异程度的统计量标准差、方差和极差标准差概念为

（2）它是各个数据与均值偏离程度的气宇，这种偏离不妨称为变异。

方差是标准差的平方。

极差是的最大值与最小值之差。

Matlab中std（x）返回x的标准差，var（x）返回方差，range（x）返回极差。

你可能注意到标准差的概念

（2）中，对个的平方求和，却被除，这是出于无偏估量的要求。

假设需要改成被除，Matlab可用std（x,1）和var（x,1）来实现。

（）中心矩、表示散布形状的统计量偏度和峰度随机变量的阶中心矩为。

随机变量的偏度和峰度指的是的标准化变量的三阶中心矩和四阶中心矩：

偏度反映散布的对称性，称为右偏态，现在数据位于均值右边的比位于左侧的多；

称为左偏态，情形相反；

而接近0那么能够为散布是对称的。

峰度是散布形状的另一种气宇，正态散布的峰度为3，假设比3大得多，表示散布有繁重的尾巴，说明样本中含有较多远离均值的数据，因此峰度能够用作衡量偏离正态散布的尺度之一。

Matlab中moment（x,order）返回x的order阶中心矩，order为中心矩的阶数。

skewness（x）返回x的偏度，kurtosis（x）返回峰度。

在以上用Matlab计算各个统计量的命令中，假设x为矩阵，那么作用于x的列，返回一个行向量。

对例1给出的学生身高和体重，用Matlab计算这些统计量，程序如下：

clcload;

shuju=highweight;

jun_zhi=mean（highweight）zhong_wei_shu=median（shuju）biao_zhun_cha=std（shuju）ji_cha=range（shuju）pian_du=skewness（shuju）feng_du=kurtosis（shuju）统计量中最重要、最经常使用的是均值和标准差，由于样本是随机变量，它们作为样本的函数自然也是随机变量，当用它们去推断整体时，有多大的靠得住性就与统计量的概率散布有关，因此咱们需要明白几个重要散布的简单性质。

统计中几个重要的概率散布散布函数、密度函数和分位数随机变量的特性完全由它的（概率）散布函数或（概率）密度函数来描述。

设有随机变量，其散布函数概念为的概率，即。

假设是持续型随机变量，那么其密度函数与的关系为.分位数是下面经常使用的一个概念，其概念为：

关于，使某散布函数的，成为那个散布的分位数，记作。

咱们前面画过的直方图是频数散布图，频数除以样本容量，称为频率，充分大时频率是概率的近似，因此直方图能够看做密度函数图形的（离散化）近似。

统计中几个重要的概率散布（）正态散布正态散布随机变量的密度函数曲线呈中间高两边低、对称的钟形，期望（均值），方差，记作，称均方差或标准差，当时称为标准正态散布，记作。

正态散布完全由均值和方差决定，它的偏度为0，峰度为3。

正态散布能够说是最多见的（持续型）概率散布，成批生产时零件的尺寸，射击中弹着点的位置，仪器反复量测的结果，自然界中一种生物的数量特点等，多数情形下都服从正态散布，这不仅是观看和体会的总结，而且有着深刻的理论依据，即在大量彼此独立的、作用差不多大的随机因素阻碍下形成的随机变量，其极限散布为正态散布。

鉴于正态散布的随机变量在实际生活中如此地常见，记住下面3个数字是有效的：

68%的数值落在距均值左右1个标准差的范围内，即；

95%的数值落在距均值左右2个标准差的范围内，即；

%的数值落在距均值左右3个标准差的范围内，即.（）散布（Chisquare）若为彼此独立的、服从标准正态散布的随机变量，那么它们的平方和服从散布，记作，称自由度，它的期望，方差。

（）散布若，且彼此独立，那么服从散布，记作，称自由度。

散布又称学生氏（Student）散布。

散布的密度函数曲线和曲线形状相似。

理论上时，实际被骗时它与就相差无几了。

（）散布若，且彼此独立，那么服从散布，记作，称自由度。

Matlab统计工具箱（ToolboxStats）中的概率散布Matlab统计工具箱中有20种概率散布，那个地址只对上面所述4种散布列出命令的字符：

norm正态散布；

chi2散布；

t散布f散布工具箱对每一种散布都提供5类函数，其命令的字符是：

展开阅读全文