数模中的表与图.docx

资源描述

数模中的表与图.docx

《数模中的表与图.docx》由会员分享，可在线阅读，更多相关《数模中的表与图.docx（14页珍藏版）》请在冰豆网上搜索。

数模中的表与图.docx

数模中的表与图

例1证卷交易所的证卷交易价格的综合指标称为该交易所的“交易指数”,记为

。

若当日交易指数为

上一日交易指数为

则称

为该交易指数

的涨跌,这是一个连续型随机变量。

上海证卷交易所2005年前50个交易日的交易指数

的涨跌观测值如下：

13.93

-6.92

-6.13

-14.79

-15.70

-2.83

-11.01

-4.28

-9.03

-0.87

5.70

-21.92

-0.48

-17.80

-5.87

8.20

-2.67

-28.87

-1.23

1.26

19.61

-11.98

7.46

-0.73

-5.27

-4.47

-4.61

1.20

6.18

53.50

-5.51

-30.70

2.84

-12.70

7.70

3.89

16.37

39.08

16.66

-12.15

-15.22

-19.30

-0.06

2.01

-15.64

7.28

13.64

-8.07

6.50

21.75

根据交易指数的涨跌

的观测数据，编制频数分布表。

基本步骤如下：

首先，将上述数据载入Matlab系统的工作内存

clear

data=[13.93-6.92-6.13-14.79-15.70-2.83-11.01-4.28-9.03-0.87,5.70-21.92-0.48-17.80-5.878.20-2.67-28.87-1.231.2619.61-11.987.46-0.73-5.27-4.47-4.611.206.1853.50-5.51-30.702.84-12.707.703.8916.3739.0816.66-12.15-15.22-19.30-0.062.01-15.647.2813.64-8.076.5021.75];;

【说明】指令clear的功能是清空Matlab系统的工作内存，每一项新的工作之前运行这一指令，有助于防止运算错误的发生。

编制频数分布表。

基本步骤如下：

⑴数据分组

①确定数据组个数　根据样本容量

，确定分组数

，推荐公式

。

k=ceil（1+3.322*log10（numel（data）））

【说明】这里用了三个Matlab系统函数：

log10（）求常用对数，numel（）求矩阵的元素个数，ceil（）向正无穷大圆整数据。

另外，这里还涉及到了Matlab的数值计算问题，稍后予以讲解。

分组数也可参考下表确定：

样本容量

分组数

＜50

5～6

50～100

6～10

100～250

7～12

＞250

12～20

②计算极差计算公式为

。

③确定组距计算公式为

，一般总取

为数据的最小测量单位的整数倍。

④确定各组端点计算公式为

。

的确定方法，一般地取

比数据的最小值小半个测量单位。

⑵统计各组频数

各组频数就是数据落入各个小组中的个数，记为

。

上述计算极差、确定组距、确定各组端点和统计各组频数的工作均可由Matlab系统函数hist完成。

hist的输入参数通常有两个，第一个是数据向量，第二个是小组个数，hist的输出参数有两个，第一个返回各组的数据频数，第二个返回各个数据组的区间位置值（组中值）。

[ni,ak]=hist（data,k）

ni=

4131711211

ak=

Columns1through4

-24.6857-12.6571-0.628611.4000

Columns5through7

23.428635.457147.4857

⑶计算频率

①计算各组频率　计算公式为

。

fi=ni/length（data）

fi=

Columns1through4

0.08160.26530.34690.2245

Columns5through7

0.04080.02040.0204

②计算各组累积频率　计算公式为

。

mfi=cumsum（fi）

mfi=

Columns1through4

0.08160.34690.69390.9184

Columns5through7

0.95920.97961.0000

【说明】cumsum（）是Matlab系统函数，功能是对向量的元素累积求和

⑷编制频数分布表

将上述计算结果列表如下，即得

表1-4　1995年前50个交易日上证指数涨跌分组频数分布表

组序

组中值

频数

频率

累积频率

-24.69

0.08

-12.66

0.24

0.32

-0.63

0.38

0.70

11.40

0.22

0.92

23.43

0.04

0.96

35.46

0.02

0.98

47.49

0.02

1.00

频率直方图绘制方法

hist（data）

hist（data,k）

histfit（y）

直方图绘图指令hist

【调用格式】

⑴hist（y）

⑵hist（y,n）

【指令功能】

绘制随机变量频数分布直方图

【使用说明】

格式⑴将y向量的极差（最大值与最小值的差）平均分成10等分（10个数据区间），绘制向量y中数据在各区间上的频数分布直方图。

格式⑵将y向量的极差（最大值与最小值的差）平均分成n等分（n个数据区间），绘制向量y中元素在各区间上的频数分布直方图。

hist指令的另一个功能是产生基于向量y的频数分布数据，调用格式是:

[p,z]=hist（y,n）

即将向量y中元素分成n组，返回各组中的数据频数p和组中值z.

在需要的时候可以为直方图附加正态密度曲线，以判断观测变量是否服从正态分布。

指令是histfit，其调用格式与hist相同。

常用统计量的MATLAB函数分类列表

统计量最基本的应用就是对数据特征的度量.MATLAB定制了样本数据的一些常用度量性的统计描述函数，下面就最常用的部分分别予以介绍.

◆数据集中性的度量

统计量名称

统计量的数学定义

MATLAB函数

样本均值

mean

样本中值

（参见样本的经验分位数）

median

样本几何均值

geomean

样本调和均值

harmmean

◆数据变异性的度量

统计量名称

统计量的数学定义

MATLAB函数

样本方差

var

样本标准差

std

样本极值

range

样本内四分数间距

（参见样本的经验分位数）

iqr

◆数据分布特征的度量

统计量名称

统计量的数学定义

MATLAB函数

样本的经验分位数

prctile

样本峰度

kurtosis

样本偏度

skewness

◆两组数据线性相依程度的度量

统计量名称

统计量的数学定义

MATLAB函数

样本协方差

cov

样本相关系数

corrcoef

【例2】设有两个教学班，各有30名同学，在数学课程上，A班用新教学方法组织教学，B班用传统方法组织教学，现得期末考试成绩如下：

A：

82,92,77,62,70,36,80,74,64,63,56,72,78,68,65,72,70,58,92,79,92,65,56,85,73,61,71,42,89

B：

57,67,64,54,77,65,71,58,59,69,67,84,63,88,81,46,49,60,64,66,74,58,63,65,68,76,72,48,72

试在同一坐标轴上画出相应的box图，并对两个班的成绩进行初步的分析比较.

MATLAB绘制box图的指令是boxplot.

clear

x=[82,92,77,62,70,36,80,100,74,64,63,56,72,78,68,65,72,70,58,92,79,92,65,56,85,73,61,71,42,89;57,67,64,54,77,65,71,58,59,69,67,84,63,95,81,46,49,60,64,66,74,55,58,63,65,68,76,72,48,72];

boxplot（x'）%boxplot指令将输入矩阵的每一列视为一个变量（的样本数据）

图3.7两个班的成绩的box图

从图上可以直观的看出，两个班的数学成绩的分布是正态的（对称），A班成绩较为分散（方差大），B班成绩则较集中（方差小）.A班成绩明显高于B班（均值比较，并且A班25%低分段上限接近B班中值线，A班中值线接近B班25%高分段下限），A班的平均成绩约为70分（中值），B班约为65分（中值），A班有一名同学的成绩过低（离群），而B班成绩优秀的只有一人（离群）.需要注意的是，从图中我们不能得出新教学方法一定优于传统教学方法的结论，因为我们并不知道两个班级原有的数学基础是怎样的.

【例3】圆饼图的绘制

clear

clf

y=[15,35,10,20,20];

subplot（1,3,1）

pie（y）

subplot（1,3,2）

pie（y,[1,0,0,1,0]）

subplot（1,3,3）

pie3（y,[1,0,0,1,0]）

【例4】多窗口绘图方法（不同形式的条形图）

clear%清空工作内存

clf%重置当前图形窗口为初始状态

y1=[15,35,10,20,20];

y2=[15,35,10;20,20,15;10,15,30];

subplot（2,2,1）

bar（y1,'c'）%简单条形图

subplot（2,2,2）

bar（y2,'grouped'）%垂直放置的分组式条形图

subplot（2,2,3）

barh（y2,'stacked'）%水平放置的累加式条形图

subplot（2,2,4）

bar3（y2,'grouped'）%垂直放置的三维立体条形图

多窗口绘图示例_不同形式的条形图

【例5】点线图的修饰与同一窗口多图画法

clear,clf

x=0:

0.5:

5;y=exp（x）;%创建指数函数数据

z=0:

pi/50:

2*pi;F=[sin（z）;cos（z）;sin（2*z）];%创建三组三角函数数据

subplot（3,1,1）

plot（x,y,'s-.m'）%用洋红色正方形绘制指数函数数据点，并用点划线连接数据点

subplot（3,1,2）

plot（z,F（1,:

）,z,F（2,:

）,'sg',z,F（3,:

）,'.c'）%绘制由矩阵F定义的三组三角函数的图形，分别指定数据点形状、线型和颜色

subplot（3,1,3）

plot（z,F）%绘制由矩阵F定义的三组三角函数的图形，系统自动处理

点线图的修饰与同一窗口多图画法示例

【例6】图形中标记的设置

clear

clf

x=0:

pi/50:

2*pi;

Y=[sin（x）;sin（2*x）;cos（x）];

plot（x,Y）

title（'\fontsize{18}三角函数图像'）%设置标题

xlabel（'\fontsize{12}弧度值'）%设置横轴说明

ylabel（'\fontsize{16}函数值'）%设置纵轴说明

legend（'sin（x）','sin（2x）','cos（x）',-1）%设置图例

text（0.8,0.71,'\fontsize{12}←sin（x）和cos（x）在π/4的交点'）%设置注释

数据的显示：

表与图

数据的描述性分析，首先就是要更清晰的表述数据，直观的反映事物的特点和事物之间的关系。

统计数据表和数据图是实现这一目的的主要工具。

数据表

统计数据表是一种用密集的形式归纳数据的方法。

在统计分析中使用数据表，一是伴随文章以支持观点；另外是组织数据。

报纸、杂志和书籍中的数据表通常属于第一种类型，官方公布的统计年鉴中的数据表通常属于第二种类型。

支持文章观点的数据表必须能证明观点，而仅仅是表示数据的数据表必须可读且易于解释。

统计数据表一般由标题、标目、数据和数据来源等几部分构成。

标题　标题是数据表的名称，要简要而清晰的说明数据表的内容，写在表的最上方。

标目　标目是说明数据意义的。

标目可分为纵标目和横标目。

纵标目用来纵向说明数据的意义，横标目用来横向说明数据的意义。

标目往往是数据所属变量的名称（横标目也可能是数据的样本点标识），标目文字应简明，必要时应注明数据的单位。

数据　数据是说明标目所代表的事物数量，是数据表的核心内容。

数据的书写必须用阿拉伯数字，单位要统一，位数要对齐，有效数位要一致，空缺数字用短划线“－”代替。

数据来源　数据来源是说明数据出处的，一般写在表的底端边线之下。

标明数据来源，一可宣示工作的真实性，二便于读者核对数据。

关于表格线的画法，一般的要求是：

线条不要太多，表格的上下两端要有顶线和底线，左右两端不必用线条封闭，标目和数据之间用细线条隔开，纵标目之间可用细线条隔开，横标目之间通常不用细线条隔开，若有合计项则应当用细线条隔开。

数据表的类型根据数据所反映事物的特点和事物之间的关系而有所不同。

这里，我们无意列举数据表的各种类型，仅就几种最常用的数据表进行简单介绍。

一、数据登记表

简单表　简单表仅是一种按采样（时间或单位）顺序，登记变量观测数据的数据表，其数学结构是样本点

定量变量。

如：

表1-1　

学校初一.1班期末考试成绩表

学号

数学

语文

外语

…

列联表　列联表是一种专门用于两个分类变量计数的双向频数登记表，其数学结构式分类变量

分类变量。

如有人在研究某种治疗感冒的新药与用药者年龄的关系时，得到下表：

表1-2　

感冒药疗效与用药者年龄的关系频数表

　年龄

疗效

儿童

成年

老年

合计

显著

128

一般

117

较差

合计

109

100

300

复合表　复合表是一种用于在两个自变量的作用下因变量观测数据的登记表，其数学结构式分类变量

分类变量

定量变量。

如有人在研究城市中从A地到B地，不同路线与时段对汽车驾驶时间的影响时，得到下表：

表1-3　不同路线和时段的平均驾驶时间（单位：

分钟）

路线时间

时段

第一条路线

第二条路线

均值

高峰时段

非高峰时段

均值

展开阅读全文