数据处理方法.docx

资源描述

数据处理方法.docx

《数据处理方法.docx》由会员分享，可在线阅读，更多相关《数据处理方法.docx（12页珍藏版）》请在冰豆网上搜索。

数据处理方法.docx

数据处理方法

摘要：

数据处理是对数据的采集、存储、检索、加工、变换和传输。

数据是对事实、概念或指令的一种表达形式，可由人工或自动化装置进行处理。

数据的形式可以是数字、文字、图形或声音等。

数据经过解释并赋予一定的意义之后，便成为信息。

数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。

数据处理是系统工程和自动控制的基本环节。

数据处理贯穿于社会生产和社会生活的各个领域。

数据处理技术的发展及其应用的广度和深度，极大地影响着人类社会发展的进程。

关键词：

方式数据处理最小二乘法和一元线性回归实时处理方式作图法

1.方式根据处理设备的结构方式、工作方式，以及数据的时间空间分布方式的不同，数据处理有不同的方式。

不同的处理方式要求不同的硬件和软件支持。

每种处理方式都有自己的特点，应当根据应用问题的实际环境选择合适的处理方式。

数据处理主要有四种分类方式①根据处理设备的结构方式区分，有联机处理方式和脱机处理方式。

②根据数据处理时间的分配方式区分，有批处理方式、分时处理方式和实时处理方式。

③根据数据处理空间的分布方式区分，有集中式处理方式和分布处理方式。

④根据计算机中央处理器的工作方式区分，有单道作业处理方式、多道作业处理方式和交互式处理方式。

2.数据处理对数据（包括数值的和非数值的）进行分析和加工的技术过程。

包括对各种原始数据的分析、整理、计算、编辑等的加工和处理。

比数据分析含义广。

随着计算机的日益普及，在计算机应用领域中，数值计算所占比重很小，通过计算机数据处理进行信息管理已成为主要的应用。

如侧绘制图管理、仓库管理、财会管理、交通运输管理，技术情报管理、办公室自动化等。

在地理数据方面既有大量自然环境数据（土地、水、气候、生物等各类资源数据），也有大量社会经济数据（人口、交通、工农业等），常要求进行综合性数据处理。

故需建立地理数据库，系统地整理和存储地理数据减少冗余，发展数据处理软件，充分利用数据库技术进行数据管理和处理。

3.最小二乘法和一元线性回归

从测量数据中寻求经验方程或提取参数，称为回归问题，是实验数据处理的重要内容。

用作图法获得直线的斜率和截距就是回归问题的一种处理方法，但连线带有相当大的主观成分，结果会因人而异；用逐差法求多项式的系数也是一种回归方法，但它又受到自变量必须等间距变化的限制。

本节介绍处理回归问题的又一种方法――最小二乘法。

一、拟合直线的途径

1．问题的提出

假定变量x和y之间存在着线性相关的关系，回归方程为一条直线

y＝b0+b1x（8）

由实验测得的一组数据是xk、yk（k＝1，2，…，n），我们的任务是根据这组数据拟合出（8）式的直线，即确定其系数b0、b1。

我们讨论最简单的情况，假设

（1）系统误差已经修正；

（2）n次测量的条件相同，所以其误差符合正态分布，这样才可以使用最小二乘法原理；

（3）只有yk存在误差，即把误差较小的最为变量x，使不确定度的计算变得简单。

2．解决问题的途径――最小二乘法原理

由于测量的分散性，实验点不可能都落在一条直线上，如图3。

相对于我们所拟合的直线，某个测量值yk在y方向上偏离了vk，vk就是残差

vk＝yk－y

＝y－（b0＋b1xk）

联想到贝塞尔公式

如果

的值小，那么标准偏差s（y）就小，能够使s（y）最小的直线就是我们所要拟合的直线。

这就是最小二乘原理。

最小二乘原理：

最佳值乃是能够使各次测量值残差的平方和为最小值的那个值。

由（9）式可见，b0和b1决定vk的大小，能够使

为最小值的b0、b1值就是回归方程的系数。

二．回归方程的系数

1．用最小二乘原理求回归方程的系数

（10）

使∑v²k为最小值，极小值条件是一级导数等于零和二级导数大于零。

这里xk、yk是测量值，变量b0和b1，（10）式分别对b0和b1求偏导数

（11）

整理后得

（12）

，

解联立方程（12），得到

（13）

（14）

估计值，于是就求得了回归方程（8）。

2．为了便于记忆和用计算器或计算机编程计算，引入符号

（15）

很容易证明

于是

（17）

3．测量点的重心

重心。

理解这点，有助于用作图法处理数据时的连线。

三、回归方程系数的标准偏差

1．yk的标准偏差

由（12）式，我们很容易求得yk的标准偏差

（18）

式中分母n－2是自由度，可以作如下解释：

两点决定一条直线，只需测量两个点，即可解出直线的斜率和截距，现在多测了n－2个点，所以n－2是自由度。

s（y）是因变量yk的标准偏差，在满足本节开始的三个假设的条件下，我们可以对照测量列的标准偏差的意义来理解s（y）：

对于自变量的某一个取值，因变量是直线上相应的一个点，在重复条件下作任意次测量，实测点落在与直线上相应的距离在s（y）范围以内的概率是68。

3％。

s（y）描述了测量点对于直线的分散性。

2．回归方程系数的标准偏差

（1）b1的标准偏差s（b1）

我们的任务是从s（y）求出b0和b1的标准偏差，所以首先要找到b1和yk之间的关系。

由（17）

（19）

按照不确定度的传播与合成的方法，可求b1的标准偏差。

注意到（19）式，b1由多项带有系数的yk求和得到，所以，s（b1）具有方和根的形式，方差s²（b1）为

将（19）式代入上式，整理后开方得到

（20）

（2）．b0的标准偏差s（b0）

同理可推导出

（21）

3．讨论

（1）s（b0）是截距b0的标准偏差。

如果得到s（b0）

（2）从（20）式可见，当Lxx较大时，s（b1）就较小。

根据（15）式，若x的取值比较分散，Lxx就大。

这就告诉我们，在求回归直线时，自变量x取点不要集中，要在尽可能大的范围内进行测量，以减小斜率的不确定度s（b1）。

（3）从（21）式可以看出，s（b0）不仅与s（b1）有关，而且还直接受x的影响，若

数值大，s（b0）就会被“放大”。

可见，在拟合直线（当然也包括用作图法处理数据）时，如果所取的测量点既远离原点且又密集，则测量结果会很糟糕。

四、相关系数

定义一元线性回归的相关系数

（22）

1．相关系数的正负：

对照（22）和（17）两式，可见r与b1同号。

即r>0，则b1>0，回归直线的斜率为正，称为正相关：

r<0，则b1<0，回归直线的斜率为负，成为负相关。

图4不同相关系数的数据点分布示意图

2．相关系数的数值：

x，y完全不相关时，r=0；全部实验点都在回归直线上时，|r|=1。

R的数值只在-1与+1之间，即-1≤r≤+1。

R数值的大小描述了实验点线性相关的程度。

3．通过相关系数计算标准偏差

用相关系数计算标准偏差甚为方便，推导结果为

（23）

（24）

请注意（24）式的计算结果是斜率的相对标准偏差。

相关系数爱数据处理计算中有特殊的地位，以致带有线性回归功能的计算器上就设有功能键r，实验数据输入完毕，人们也习惯地首先读出相关系数来检查相关的显著性水平。

表4中列除了相关系数的检验数据。

表4相关系数检验表

0．05

0．01

0．05

0．01

0.997

1.000

0.423

0.537

0.950

0.990

0.413

0.526

0.878

0.959

0.404

0.515

0.811

0.917

0.396

0.505

0.754

0.874

0.388

0.496

0.707

0.834

0.381

0.487

0.666

0.798

0.374

0.478

0.632

0.765

0.361

0.463

0.602

0.735

0.349

0.449

0.576

0.708

0.325

0.418

0.553

0.684

0.304

0.393

0.532

0.661

0.288

0.372

0.514

0.641

0.273

0.354

0.497

0.623

0.250

0.325

0.482

0.606

0.232

0.302

0.468

0.590

0.217

0.283

0.456

0.575

0.205

0.267

0.444

0.561

100

0.195

0.254

0.433

0.549

200

0.138

0.181

五、应用举例

例6将例1中用伏安法测量电阻的数据用最小二乘法作先性回归处理。

表5用回归法处理伏安法测电阻的数据

序号k

/mA

0.00

2.00

3.85

4.00

14.82

7.70

4.00

8.15

16.00

66.42

32.60

6.00

12.05

36.00

145.20

72.30

8.00

15.80

64.00

249.64

126.40

10.00

19.90

100.00

369.01

199.00

和

和的平方

平均

1．相关系数

由表4查得k＝6，α＝0.917时，r＝0.917为显著性标准，现得到r＝0.999856>0.917，表明I与U显著相关，即回归直线的直线性很好。

2．求系数

3．求系数的标准偏差

4．求电阻及其标准偏差

5．说明：

在相关性很好的情况下，r接近于1，则（24）式中分子（1/r²）－1为零，以致不能计算出s（b1）和s（b0）。

所以表5中的各项计算求和、平方、平均等要保留到比r值所含的“9”的个数还要多2~3位数字。

例6中r＝0.999856，小数点连续有3个“9”，故求回归方程系数的运算（包括表5）取5~6位数字。

中间运算过程亦如此，直到计算出合成不确定度或扩展不确定度之后，再把不确定度取为2位有效数字，以及把测量结果修约到与不确定度的末位对齐。

4..实时处理方式

实时处理就是类似于触发器，只要有一点变动就触发一个事件，然后处理这个事物。

批处理就是定时或定量一批一起处理。

分布处理就是不在一台服务器上，由许多客户端进行处理，然后最后结果上传到服务器。

5.作图法

在研究两个物理量之间的关系时，把测得的一系列相互对应的数据及变化的情况用曲线表示出来，这就是作图法。

作图规则

1．列表按列表规则，将作图的有关数据列成完整的表格，注意名称、符号及有效数字的规范使用。

2．选择坐标纸作图必须用坐标纸。

根据物理量的函数关系选择合适的坐标纸，最常用的是直角坐标纸，此外还有对数坐标纸、半对数坐标纸、极坐标纸等。

本节以直角坐标为例介绍作图法，其他坐标可参考本节原则进行。

坐标纸的大小要根据测量数据的有效位数和实验结果的要求来决定，原则是以不损失实验数据的有效数字和能包括全部实验点作为最低要求，即坐标纸的最小分格与实验数据的最后一位准确数字相当。

在某些情况下例入数据的有效位太少使得图形太小，还要适当放大以便与观察，同时也有利于避免由于作图而引入附加的误差；若有效位数多，又不宜把该轴取得过长，则应适当牺牲有效位，以求纵横比适度。

3.标出坐标轴的名称和标度通常的横轴代表自变量，纵轴代表因变量，在坐标轴上表明所代表物理量的名称（或符号）和单位，标注方法与表的栏头相同，即量的符号（可用汉字）除以单位的符号。

横轴和纵轴的标度比例可以不同，其交点的标度值不一定是零。

选择原点的标度值来调整图形的位置，使曲线不偏于坐标的一边或一角；选择适当的分度比例来调整图形的大小。

使图形充满纸。

分度比例要便于换算和描点，例如，不要用4个格代表1（单位）或用1格代表3（单位）一般取1，2，5，10……标度值按整数等间距（间隔不要太稀或太密，以便于读数）标在坐标纸上。

4.描点和连线

根据测量数据，用削尖的铅笔在坐标图纸上用“+”或“x”标出各测量点，使各测量数据坐落在“+”或“x”的交叉点上。

同一图上的不同曲线应当用不同的符号，如“x”、“+”、“☉”、“△”、“□”等。

用透明的直尺或曲线板把数据点连成直线或光滑曲线。

连线应反映出两物理量关系的变化趋势，而不应强求通过每一个数据点，但应使在曲线两旁的点有较匀称的分布，使曲线有取平均的作用。

用曲线板连线的要领是：

看准四个点，连中间两点间的曲线，依次后移，完成整个曲线。

5.在图上空旷位置，写出完整的图名、绘制人姓名及绘制日期，所标文字应当用仿宋体。

参考资料

附录1.美国斯坦福仪器厂生产的数字锁定放大器（附件）使用说明书。

附录2、3.浙江大学科教仪器厂制作的“激光实验仪使用说明光盘”。

附录4.傅思镜编赖天树校，《光电专门实验》，中山大学教材科，1995

附录5.金重、刘金环等编著，《大学物理实验教程》（工科），南开大学出版社，2000,P30-44,

展开阅读全文