数据的统计描述和分析文档格式.docx

上传人:b****5 文档编号:21208279 上传时间:2023-01-28 格式:DOCX 页数:11 大小:29.92KB
下载 相关 举报
数据的统计描述和分析文档格式.docx_第1页
第1页 / 共11页
数据的统计描述和分析文档格式.docx_第2页
第2页 / 共11页
数据的统计描述和分析文档格式.docx_第3页
第3页 / 共11页
数据的统计描述和分析文档格式.docx_第4页
第4页 / 共11页
数据的统计描述和分析文档格式.docx_第5页
第5页 / 共11页
点击查看更多>>
下载资源
资源描述

数据的统计描述和分析文档格式.docx

《数据的统计描述和分析文档格式.docx》由会员分享,可在线阅读,更多相关《数据的统计描述和分析文档格式.docx(11页珍藏版)》请在冰豆网上搜索。

数据的统计描述和分析文档格式.docx

为了得到我们需要的100个身高和体重各为一列的矩阵,应做如下的改变:

high=data(:

1:

2:

9);

high=high(:

)weight=data(:

2:

10);

weight=weight(:

)(ii)作频数表及直方图求频数用hist命令实现,其用法是:

[N,X]=hist(Y,M)得到数组(行、列均可)Y的频数表。

它将区间[min(Y),max(Y)]等分为M份(缺省时M设定为10),N返回M个小区间的频数,X返回M个小区间的中点。

命令hist(Y,M)画出数组Y的直方图。

对于例1的数据,编写程序如下:

loaddata.txt;

);

weight=data(:

[n1,x1]=hist(high)%下面语句与hist命令等价%n1=[length(find(high<

158.1)),...%length(find(high>

=158.1&

high<

161.2)),...%length(find(high>

=161.2&

164.5)),...%length(find(high>

=164.5&

167.6)),...%length(find(high>

=167.6&

170.7)),...%length(find(high>

=170.7&

173.8)),...%length(find(high>

=173.8&

176.9)),...%length(find(high>

=176.9&

180)),...%length(find(high>

=180&

183.1)),...%length(find(high>

=183.1))][n2,x2]=hist(weight)subplot(1,2,1),hist(high)subplot(1,2,2),hist(weight)计算结果略,直方图如图1所示。

-203-

1501601701801900

5

10

15

20

25

30

4050607080

25

图1直方图

从直方图上可以看出,身高的分布大致呈中间高、两端低的钟形;

而体重则看不出什么规律。

要想从数值上给出更确切的描述,需要进一步研究反映数据特征的所谓“统计量”。

直方图所展示的身高的分布形状可看作正态分布,当然也可以用这组数据对分布作假设检验。

例2统计下列五行字符串中字符a、g、c、t出现的频数1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggagg2.cggaggacaaacgggatggcggtattggaggtggcggactgttcgggga3.gggacggatacggattctggccacggacggaaaggaggacacggcggacataca4.atggataacggaaacaaaccagacaaacttcggtagaaatacagaagctta5.cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggc解把上述五行复制到一个纯文本数据文件shuju.txt中,放在matlab\work子目录下,编写如下程序:

clcfid1=fopen('

shuju.txt'

'

r'

i=1;

while(~feof(fid1))data=fgetl(fid1);

a=length(find(data==97));

b=length(find(data==99));

c=length(find(data==103));

d=length(find(data==116));

e=length(find(data>

=97&

data<

=122));

f(i,:

)=[abcdea+b+c+d];

i=i+1;

endf,he=sum(f)dlmwrite('

pinshu.txt'

f);

dlmwrite('

he,'

-append'

fclose(fid1);

我们把统计结果后写到一个纯文本文件pinshu.txt中,在程序中多引进了几个变量,是为了检验字符串是否只包含a、g、c、t四个字符。

1.3统计量假设有一个容量为n的样本(即一组数据),记作),,,(12nxxxx=,需要对它进行一定的加工,才能提出有用的信息,用作对总体(分布)参数的估计和检验。

统计量就是加工出来的、反映样本数量特征的函数,它不含任何未知量。

下面我们介绍几种常用的统计量。

-204-

(i)表示位置的统计量—算术平均值和中位数算术平均值(简称均值)描述数据取值的平均位置,记作x,∑

=

n

i

ix

x

1

(1)

中位数是将数据由小到大排序后位于中间位置的那个数值。

Matlab中mean(x)返回x的均值,median(x)返回中位数。

(ii)表示变异程度的统计量—标准差、方差和极差标准差s定义为

21

2()

⎥⎦⎤

⎢⎣⎡−−=∑=niixxns

(2)它是各个数据与均值偏离程度的度量,这种偏离不妨称为变异。

方差是标准差的平方2s。

极差是),,,(12nxxxx=的大值与小值之差。

Matlab中std(x)返回x的标准差,var(x)返回方差,range(x)返回极差。

你可能注意到标准差s的定义

(2)中,对n个()xxi−的平方求和,却被)1(−n除,这是出于无偏估计的要求。

若需要改为被n除,Matlab可用std(x,1)和var(x,1)来实现。

(iii)中心矩、表示分布形状的统计量—偏度和峰度随机变量x的r阶中心矩为rExxE()−。

随机变量x的偏度和峰度指的是x的标准化变量DxExx/)(−的三阶中心矩和四阶中心矩:

()[](),()()()()2/3331xDxExExDxExE−=⎥⎥⎦⎤⎢⎢⎣⎡⎟⎟⎠⎞⎜⎜⎝⎛−=ν

()[]().()()

()()

2

4

2xDxExExDxExE−=⎥⎥⎦⎤⎢⎢⎣⎡⎟⎟⎠⎞⎜⎜⎝⎛−=ν偏度反映分布的对称性,01>

ν称为右偏态,此时数据位于均值右边的比位于左边的多;

01<

ν称为左偏态,情况相反;

而1ν接近0则可认为分布是对称的。

峰度是分布形状的另一种度量,正态分布的峰度为3,若2ν比3大得多,表示分布有沉重的尾巴,说明样本中含有较多远离均值的数据,因而峰度可以用作衡量偏离正态分布的尺度之一。

Matlab中moment(x,order)返回x的order阶中心矩,order为中心矩的阶数。

skewness(x)返回x的偏度,kurtosis(x)返回峰度。

在以上用Matlab计算各个统计量的命令中,若x为矩阵,则作用于x的列,返回一个行向量。

对例1给出的学生身高和体重,用Matlab计算这些统计量,程序如下:

clcloaddata.txt;

-205-

shuju=[highweight];

jun_zhi=mean(shuju)zhong_wei_shu=median(shuju)biao_zhun_cha=std(shuju)ji_cha=range(shuju)pian_du=skewness(shuju)feng_du=kurtosis(shuju)

统计量中重要、常用的是均值和标准差,由于样本是随机变量,它们作为样本的函数自然也是随机变量,当用它们去推断总体时,有多大的可靠性就与统计量的概率分布有关,因此我们需要知道几个重要分布的简单性质。

1.4统计中几个重要的概率分布1.4.1分布函数、密度函数和分位数随机变量的特性完全由它的(概率)分布函数或(概率)密度函数来描述。

设有随机变量X,其分布函数定义为xX≤的概率,即{}()xXPxF≤=。

若X是连续型随机变量,则其密度函数()xp与()xF的关系为∫−∞=xdxxpxF()().上α分位数是下面常用的一个概念,其定义为:

对于01<

<

α,使某分布函数α=−1)(xF的x,称为这个分布的上α分位数,记作αx。

我们前面画过的直方图是频数分布图,频数除以样本容量n,称为频率,n充分大时频率是概率的近似,因此直方图可以看作密度函数图形的(离散化)近似。

1.4.2统计中几个重要的概率分布(i)正态分布正态分布随机变量X的密度函数曲线呈中间高两边低、对称的钟形,期望(均值)μ=EX,方差2σ=DX,记作),(~2σμNX,σ称均方差或标准差,当,10==σμ时称为标准正态分布,记作)1,0(~NX。

正态分布完全由均值μ和方差2σ决定,它的偏度为0,峰度为3。

正态分布可以说是常见的(连续型)概率分布,成批生产时零件的尺寸,射击中弹着点的位置,仪器反复量测的结果,自然界中一种生物的数量特征等,多数情况下都服从正态分布,这不仅是观察和经验的总结,而且有着深刻的理论依据,即在大量相互独立的、作用差不多大的随机因素影响下形成的随机变量,其极限分布为正态分布。

鉴于正态分布的随机变量在实际生活中如此地常见,记住下面3个数字是有用的:

68%的数值落在距均值左右1个标准差的范围内,即.680}{=+≤≤−σμσμPX;

95%的数值落在距均值左右2个标准差的范围内,即.950}22{=+≤≤−σμσμPX;

99.7%的数值落在距均值左右3个标准差的范围内,即.9970}33{=+≤≤−σμσμPX.(ii)2χ分布(Chisquare)若nXXX,,,12为相互独立的、服从标准正态分布)1,0(N的随机变量,则它们的平方和∑==niiXY12服从2χ分布,记作()~2nYχ,n称自由度,它的期望nEY=,

-206-

方差nDY2=。

(iii)t分布若)1,0(~NX,()~2nYχ

,且相互独立,则

nYX

T

/=服从t分布,记作

()~ntT,n称自由度。

t分布又称学生氏(Student)分布。

t分布的密度函数曲线和)1,0(N曲线形状相似。

理论上→∞n时,)1,0()(~NntT→,实际上当30>

n时它与)1,0(N就相差无几了。

(iv)F分布若()~12nXχ,()~22nYχ,且相互独立,则21//nYnXF=服从F分布,记作),(~12nnFF,),(12nn称自由度。

1.4.3Matlab统计工具箱(Toolbox\Stats)中的概率分布Matlab统计工具箱中有27种概率分布,这里只对上面所述4种分布列出命令的字符:

norm正态分布;

chi22χ分布;

tt分布fF分布工具箱对每一种分布都提供5类函数,其命令的字符是:

pdf概率密度;

cdf分布函数;

inv分布函数的反函数;

stat均值与方差;

rnd随机数生成当需要一种分布的某一类函数时,将以上所列的分布命令字符与函数命令字符接起来,并输入自变量(可以是标量、数组或矩阵)和参数就行了,如:

p=normpdf(x,mu,sigma)均值mu、标准差sigma的正态分布在x的密度函数(mu=0,sigma=1时可缺省)。

p=tcdf(x,n)t分布(自由度n)在x的分布函数。

x=chi2inv(p,n)2χ分布(自由度n)使分布函数F(x)=p的x(即p分位数)。

[m,v]=fstat(n1,n2)F分布(自由度n1,n2)的均值m和方差v。

几个分布的密度函数图形就可以用这些命令作出,如:

x=-6:

0.01:

6;

y=normpdf(x);

z=normpdf(x,0,2);

plot(x,y,x,z),gtext('

N(0,1)'

),gtext('

N(0,2^2)'

)分布函数的反函数的意义从下例看出:

x=chi2inv(0.9,10)x=15.9872如果反过来计算,则P=chi2cdf(15.9872,10)P=0.90001.5正态总体统计量的分布用样本来推断总体,需要知道样本统计量的分布,而样本又是一组与总体同分布的随机变量,所以样本统计量的分布依赖于总体的分布。

当总体服从一般的分布时,求某个样本统计量的分布是很困难的,只有在总体服从正态分布时,一些重要的样本统计量(均值、标准差)的分布才有便于使用的结果。

另一方面,现实生活中需要进行统计推断的总体,多数可以认为服从(或近似服从)正态分布,所以统计中人们在正态总体的

-207-

假定下研究统计量的分布,是必要的与合理的。

设总体),(~2σμNX,nxxx,,,12为一容量n的样本,其均值x和标准差s由式

(1)、

(2)确定,则用x和s构造的下面几个分布在统计中是非常有用的。

),(~2nNxσμ

或)1,0(~/Nnxσμ−

(3)

).1(~)1(222−−nsnχσ

(4)

)1(~

/−−

nt

nsxμ

(5)

设有两个总体),(~212σμNX和),(~222σμNY,及由容量分别为1n,2n的两个样本确定的均值yx,和标准差12,ss,则)1,0(~//()()22122112Nnnxyσσμμ+−−−(6)

)2(~

/1/1()()

12

1212+−+−−−nntnnsxywμμ

(7)

其中

2)1()1(12

222

2112+−+−−=nnsnsnsw,

)1,1(~

//

1222

22

21−−nnFssσσ

(8)

对于(7)式,假定12σσ=,但它们未知,于是用s代替。

在下面的统计推断中我们要反复用到这些分布。

2参数估计利用样本对总体进行统计推断的一类问题是参数估计,即假定已知总体的分布,通常是),(~2σμNX,估计有关的参数,如2,σμ。

参数估计分点估计和区间估计两种。

2.1点估计点估计是用样本统计量确定总体参数的一个数值。

评价估计优劣的标准有无偏性、小方差性、有效性等,估计的方法有矩法、极大似然法等。

常用的是对总体均值μ和方差2σ(或标准差σ)作点估计。

让我们暂时抛开评价标准,当从一个样本按照式

(1)、

(2)算出样本均值x和方差2s后,对μ和2σ(或σ)一个自然、合理的点估计显然是(在字母上加^表示它的估计值)x=μˆ,22ˆs=σ,s=σˆ(9)2.2区间估计点估计虽然给出了待估参数的一个数值,却没有告诉我们这个估计值的精度和可信程度。

一般地,总体的待估参数记作θ(如2,σμ),由样本算出的θ的估计量记作θˆ,人们常希望给出一个区间]ˆ,ˆ[12θθ,使θ以一定的概率落在此区间内。

若有αθθθ=−<

1}ˆˆ{12P,01<

α(10)

-208-

则]ˆ,ˆ[12θθ

称为θ的置信区间,12ˆ,ˆθθ

分别称为置信下限和置信上限,

α−1称为置信概

率或置信水平,α称为显著性水平。

给出的置信水平为α−1的置信区间]ˆ,ˆ[12θθ

,称为θ的区间估计。

置信区间越小,估计的精度越高;

置信水平越大,估计的可信程度越高。

但是这两个指标显然是矛盾的,通常是在一定的置信水平下使置信区间尽量小。

通俗地说,区间估计给出了点估计的误差范围。

2.3参数估计的Matlab实现Matlab统计工具箱中,有专门计算总体均值、标准差的点估计和区间估计的函数。

对于正态总体,命令是[mu,sigma,muci,sigmaci]=normfit(x,alpha)其中x为样本(数组或矩阵),alpha为显著性水平α(alpha缺省时设定为0.05),返回总体均值μ和标准差σ的点估计mu和sigma,及总体均值μ和标准差σ的区间估计muci和sigmaci。

当x为矩阵时,x的每一列作为一个样本。

Matlab统计工具箱中还提供了一些具有特定分布总体的区间估计的命令,如expfit,poissfit,gamfit,你可以从这些字头猜出它们用于哪个分布,具体用法参见帮助系统。

3假设检验统计推断的另一类重要问题是假设检验问题。

在总体的分布函数完全未知或只知其形式但不知其参数的情况,为了推断总体的某些性质,提出某些关于总体的假设。

例如,提出总体服从泊松分布的假设,又如对于正态总体提出数学期望等于0μ的假设等。

假设检验就是根据样本对所提出的假设做出判断:

是接受还是拒绝。

这就是所谓的假设检验问题。

3.1单个总体),(2σμN均值μ的检验假设检验有三种:

双边检验:

00:

μμ=H,10:

μμ≠H;

右边检验:

μμ≤H,10:

μμ>

H;

左边检验:

μμ≥H,10:

μμ<

H。

3.1.12σ已知,关于μ的检验(Z检验)在Matlab中Z检验法由函数ztest来实现,命令为[h,p,ci]=ztest(x,mu,sigma,alpha,tail)其中输入参数x是样本,mu是0H中的0μ,sigma是总体标准差σ,alpha是显著性水平α(alpha缺省时设定为0.05),tail是对备选假设1H的选择:

1H为0μμ≠时用tail=

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 外语学习 > 英语学习

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1