数据处理与表征的新概念.docx

上传人:b****8 文档编号:9689366 上传时间:2023-02-05 格式:DOCX 页数:13 大小:100.41KB
下载 相关 举报
数据处理与表征的新概念.docx_第1页
第1页 / 共13页
数据处理与表征的新概念.docx_第2页
第2页 / 共13页
数据处理与表征的新概念.docx_第3页
第3页 / 共13页
数据处理与表征的新概念.docx_第4页
第4页 / 共13页
数据处理与表征的新概念.docx_第5页
第5页 / 共13页
点击查看更多>>
下载资源
资源描述

数据处理与表征的新概念.docx

《数据处理与表征的新概念.docx》由会员分享,可在线阅读,更多相关《数据处理与表征的新概念.docx(13页珍藏版)》请在冰豆网上搜索。

数据处理与表征的新概念.docx

数据处理与表征的新概念

数据处理与表征的新概念

史锦顺

中国电子科技集团公司第27研究所郑州450005

摘要提出测量数据拟合计算中的一个技巧——对称编号,给出简化拟合计算的实例。

说明误差偏差计算中取标准值的原则。

指出:

统计测量不能剔除粗差。

基于微小误差准则,给出测量数据有效数字的新定义。

关键词常规测量统计测量贝塞尔公式不确定度准确度

1必要测量与重复测量

一定的质表现为一定的量,我们日常生活工作都离不开测量与计算。

日常生活中的测量,误差常可忽略。

科学与技术中的物理量测量就不同了,测量仪器误差或物理量值的变化,通常不能忽略了事。

要知道物理量的大小,必须进行至少一次测量,这叫做必要测量。

要知道物理量在一定间隔时间的变化,必须进行至少二次测量,这两次测量也是必要测量。

生活中只进行必要测量就够了,但技术测量,包括常规测量测量与统计测量,要进行多次测量。

除必要测量以外的测量称重复测量(有的计量学书上称为多余测量,似不妥当,并不是“多余”)。

科学的测量,应该包括必要测量与重复测量。

科学技术工作者要养成习惯,凡测量,都要包含重复测量。

最少测3次,通常测10次,有些则要求测量上百次。

例如频率稳定度的测量,秒以下采样时,国际惯例,采样次数是100。

测量晶振日老化率,通常测量7周天。

为知一天的变化量,间隔一天测2次,这是必要测量,其余测量是重复测量。

2多次测量取平均值的意义

定理表征量值的最佳值是测得值的平均值。

设对一个物理量测量了N次,共有N个测得值:

A1,A2,……AN。

找一个值B,使其与各值差的平方和为最小。

做函数:

注意,这里B是我们要寻找的量,是变量。

(1)

由以上推导过程,知B是最佳估值;由表达式

(1),知B是平均值;故知平均值是最佳估值。

定理得证。

对量值进行多次测量取平均值有下列好处:

(1)常规测量可以减小随机误差;

(2)可以避免差错

在统计测量的情况下,平均操作是取得统计平均值。

平均值是期望值的最佳估值。

3数据拟合的技巧

对变化可略的量,进行多次测量,取平均值,是常数拟合。

如上节所述。

对变化的量,进行数据拟合,是函数拟合。

此函数通常取多项式函数。

依多项式的阶数,称一阶拟合(线性拟合)、二阶拟合、三阶拟合……。

(1)零阶拟合

前述对常量的拟合,可以看作对函数

y=B

的拟合,是零阶拟合。

其结果是

(2)一阶拟合

对应等间隔的自变量x1、x2、……xN,测得值为y1、y2、……yN,测得值大致呈直线。

拟合一条直线,使测得值与线的差的平方和最小。

设直线为:

y=B+kx

作函数:

这里是选曲线,B、k是变量。

整理

(2)

(3)

由联立方程

(2)(3)求解,是经典解法。

易见这是未知量B、k的线性方程组,其解为:

如此常规求解,一阶拟合的解,表达式与计算已很繁,二阶以上的解与计算更繁。

这里介绍一种简化方法。

这种方法的核心是对称编号。

函数拟合的前提是自变量无误差,而函数有误差或有随机变化。

把自变量等间隔地分成N段,则可表为:

通常的编号方法是i从1到N。

现推荐对称编号,i从-n到+n。

则必有:

 

定理等间隔划分的自变量,对称编号时,自变量的奇次方之和为零。

证明对称编号时,由于-1的奇次方是-1,i为正值时自变量各奇次方值,必有绝对值相等而正负号相反的值与其对应,相消了,故求和结果为零。

联立方程

(2)(3)变为:

(5)

(6)

易得解为

(7)

(8)

(3)2阶拟合

模型y=B+kx+ax2

作函数

(9)

由于对称编号,xi=id的奇次方求和为零。

有:

(10)

(11)

(12)

由(10)至(12),解得:

(13)

(14)

 

(15)

 

注意到xi=id,且有公式:

由此,可进一步简化(13)(14)(15)各式。

在以后刊出的测速文中有具体结果。

4误差与偏差表达的标准值问题

误差与偏差的表达中,都有以什么值当标准的问题。

早期曾把量值分为两类:

表类和源类。

表类,如螺旋测微器、电压表等的示值。

示值就是测得值。

以被测量的实际值为标准。

例如,物理量的实际值为A,表的示值即测得值为Am,实际值A做标准。

误差为

ΔAm=Am-A

源类,如标准频率源之频率,标准电池之电压等,在同一名义值下,在不同时刻,给出不同的量值。

以标称值为标准。

如标称值为Ao,而实际输出值为Ai,标称值Ao做标准。

偏差为

ΔAi=Ai-Ao

这种表达方法,运用方便,下称第1种方法。

特别是在各类频率源的表达中,几乎占统治地位。

缺点是这样做的理由论述不够,当今虽靠习惯支撑着,却被指责违反规定。

上世纪末期,出现了新的规定,不分表类源类,一律以物理量的实际值为标准。

下称第2种方法。

这种作法,似乎很理直气壮,这是以客观物理量为标准呀,谁好反对?

举个实际例子。

例如5MHz晶振,实测频率为5000000.5Hz,按第1种方式:

ΔA=A-Ao=5000000.1Hz-5MHz=+0.5Hz

5MHz是标称值,视为无限精确值。

该晶振频率偏高,或说频率偏高+1.0×10-7;按第2种方式:

ΔA=Ao-A=5MHz-5000000.1Hz=-0.5Hz

该晶振频率的标称值偏低0.5Hz,或说标称值偏低1.0×10-7。

这种说法不当,5MHz的晶振可能有千万台,标称值是固定的常量,怎么说标称值高了还是低了。

差异性是晶振的实际频率造成的,考察的是实际频率,它是被比较的,它不该做标准。

在实际应用中,晶振大量应用于时钟,钟的计时量与频率成正比,这里的频率指的是频率实际值,用标称值高低的说法就很不顺。

是不是用第1种说法,即分表类、源类好呢?

不,这样分类缺少抵抗力,也未涉及问题本质。

第3种方法是区分常规测量与统计测量。

这是本书测量分类说的自然引申。

常规测量,以物理量的实际值为标准;统计测量,以标称值为标准。

例如用计数式频率计测量频率。

按第1种方式,先要认定这是表类还是源类,表面上看计数式频率计给出示值,似乎是表类,现用计数式频率计测晶振,晶振又是源类,这个问题按第1种方式是说不清的。

按第2种方式,要以晶振实际输出值为准,而晶振实际输出值可能是变化的,标准有多个,这不好。

按第3种方式,先要区分是常规测量还是统计测量。

如果计数式频率计内标晶振指标远高于被测晶振,这是通常情况,在分辨力足够的条件下,测量误差可略,测得的值都是真值(实际值),这是统计测量,是统计问题,表达偏差要用标称值做标准。

如果计数式频率计内标晶振指标远低于被测晶振,这不是通常情况,可能是在检查频率计本身,测得值的变化与偏离,反映的是测量误差,这是常规测量问题,量值标准要用被测量的真值,那就是被测晶振的标称值。

在检定工作的实践中,以高指标的频率合成器为标准,用被检频率计测量频率合成器的各种频率输出,这是典型的测量问题。

对该频率计来说,频率合成器的频率示值就是真值,频率计测得值与其差就是该频率计的误差。

笔者曾用此法检查出一种型号的集成式频率计(其晶振电路缺少隔离级)的频率牵引现象。

将测量分为常规测量与统计测量,也顺便解决了表达误差偏差时的标准值问题。

5统计测量不能剔除粗差

粗差是测量数据中的超常数据的误差,其绝对值过大。

是不是粗差,有几种判别方法,最常用的是3σ法。

这种粗差判别法说:

凡大于3σ的误差是粗差,产生粗差的数据是异常数据,异常数据剔除。

处理过程:

全体数据计算σ1,误差大于3σ1的数据剔除;用其余数据再算σ2,误差大于3σ2的数据剔除……。

笔者认为粗差剔除虽然可以用于常规测量,但用时要慎重,更不应递进式舍弃;要寻找数据分散的原因,不该剔除了事。

笔者在这里提出的是一个新观点:

在统计测量中,不能剔除粗差。

常规测量,是经典的测量。

被测量的量值是客观存在,是唯一的、不变的。

测量出的数据是人的认识,认识有准确与不大准确之分。

不大准确是正常的;而太不准确,那是错误,错误该去掉。

因而对常规测量,剔除粗差相当于去掉错误认识。

但对统计测量,性质就变了。

在统计测量中,测量误差可略,测得值个个是真值,真值是不能去的。

真值不可抛,不能舍弃异常值。

要分析产生异常值的原因。

找出原因,改正,直到不出现异常值。

也许一时找不到原因,异常值仍出现,那只有把此异常值统计入被测量的特性中。

异常值的出现,有两种可能,一种是测量仪器等测量过程的问题,另一种是被测量有异常变化。

测量通常是保证措施,必须保险,不能漏掉该查出的问题,故不可舍弃异常值。

频率测量通常是统计测量(研制与检验频率计的测量是常规测量)。

频率稳定度表征频率源的频率稳定性。

测量频率稳定度,要求测量设备(包括参考源、比较系统、计算系统等)的频率变化远小于被测频率的变化。

当今通行的阿仑方差,其测量与计算是不舍弃异常值的。

不剔除异常值这一条,在频率稳定度测量中,已实行三十多年了。

这里,将其上升为规则。

6微小误差准则

误差、偏差(或误差范围、偏差范围)都是统计类量,当甲误差比乙误差大一个量级时,称乙误差为微小误差,微小误差可略。

很显然,误差与误差范围是不同的。

但在一般表达中,常常用误差来代表误差范围。

应明确,这仅仅是用语的简化,切不可混淆我们的理解。

在一次测量的一组操作中,测得值N个,误差就大大小小有N个值,而误差范围只有一个。

微小误差可略,可以推广为微小误差范围可略。

这在测量理论与实践中,在计量体系中,都是常常应用的。

微小误差可略,表征测量结果的数据,就不必写得过长,只保留有效数字。

微小误差范围可略,计量标准、计量仪器,便可划分等级,上一等计量标准成为下一等测量仪器的量值标准——即相对真值。

微小,是比较而言的,是相对某特定量来说的。

要注意微小误差、微小误差范围的相对性。

微小误差准则:

凡是对总误差值的构成作用小于总误差1/20(或1/10)的误差,称微小误差,微小误差可略。

小于总误差的1/20,这个标准比较高,可用于标准和重要的工程中;一般测量,此值可取为1/10。

6有效数字的新概念

有效数字与精度密切相关。

没有精度的概念,就谈不上有效数字。

精度决定有效数字。

许多讲测量理论的书,摆错了有效数字与精度的位置。

有效数字取决于精度,但不能说有效数字决定精度。

《数学小辞典》[4]上说:

“对于实数X,如果它的近似数是X*,当X*的绝对误差最多不超过左边第一个非零数字算起第K位上的半个单位,这时我们说近似数X*有K个有效数字,并把左边第一个非零数字算起到第K位止的这K个数字都叫做近似数X*的有效数字”。

这个定义只表明保留的数字是按4舍5入法处理的。

有效数字理论的主要应用场合是测量的实践,其基本任务是正确表达测量结果。

上述定义能完成这个任务吗?

测量结果的计算中可能遇到取常数近似值的问题,例如π、的近似取值问题。

取近似值有误差,但要注意,这里的“误差”一词可不是测量意义下的误差,而是取近似数这一项的误差,是整个测量结果误差的极小的一部分。

定义有效数字有两条思路:

第一种,描述有效数字误差有多大;第二种,为保证精度,应如何取有效数字。

教科书上的思路是第一种,出了许多问题。

例如一本计量学专著[5]上有大段话,说明如何从有效数字断定精度,这是不对的。

让我们沿着第二种思路,重来。

有效数字概念的理论基础是微小误差准则。

这个准则说:

凡是对总误差值的构成作用小于总误差1/20(或1/10)的误差,称微小误差,微小误差可略。

1/20这个标准比较高,可用于标准和重要的工程中;一般测量,此值可取为1/10。

一个数据,位数取得过多,多写了无用的尾数,麻烦,不该;位数取少了,影响精度,更不可。

合适地取数据的位数,就是有效数字理论的任务。

测量有误差,微小误差可略。

误差使数据分为肯定位、随机位与多余位。

肯定位在前,随机位在后,多余位是尾部。

肯定位、随机位上的数字,对测量结果有意义,统称有效数字,多余位上的数字对表达测量结果无意义,是无效数字。

保留有效数字,舍弃或进位多余位上的数字,这称有效数字处理。

去掉多余位上的数字,本文简称为截位。

舍弃或进位多余数字产生的误差称截位误差(舍进误差)。

截位误差必须是微小误差。

由微小误差准则,微小误差可略,因而这种截位是合理的。

截位的方法是:

被截位上的数小于5,舍弃;大于5,进位,即上位加1;被截位恰为5时,上位是奇数时进位,上位是偶数时舍弃。

截位误差小于或等于最低保留位上单位的二分之一,它应是微小误差(比较标准是数据自身的误差)。

有些数,例如π、根号2这些数自身无误差可言,取近似值时,要根据计算结果精度对其要求处理:

截位误差对计算结果的影响量,应是微小误差。

误差量本身该取几位有效数字,是个重要问题,是决定数据有效数字位数的关键。

误差量也是量,也要做有效数字处理。

误差量的截位误差应是微小误差,比较标准是误差自身。

举几个极端情况,计算一下便知:

误差取两位即可。

例如,误差计算结果是1.050,从左数第3位起截去,截位误差为0.05,即为误差自身的1/20。

这是误差取两位时的最大截位误差,即极限情况。

由此可见,误差取两位足够,取三位就显得多了。

那么误差取一位行吗?

如果误差量第一位数字是5或大于5,则取一位的最大误差是1/10,这时取一位可以;但第一位数字是4或小于4,若取一位,则截位误差不能保证小于1/10,故必须取两位。

这样,一般情况下,误差取两位。

非精密测量,若误差量第一位是5以上,则误差可取一位,数据显得简洁;但第一位是4或4以下,则必须取两位。

例如误差第一位是2,取一位,截位误差可能达到误差的1/4;若第一位数字是1,则截位误差可能达到误差的1/2。

此二例违反微小误差准则,不行。

误差的有效数字位取定后,便可处理数据本身的有效数字。

误差的最低位与数据本身同一位对齐,数据此位及左边各高位数字保留,右边低位做舍弃或进位处理。

易见,数据舍位误差必是微小误差。

简言之,有效数字是被保留的对表达测量结果有意义位上的数字。

我们回过头来,评价一下前面引述过的教科书上关于有效数字的定义。

①未指明有效数字的应用对象是测得值;②未说明有效数字问题的根源是测量误差的存在,未点出微小误差准则在决定有效数字位数时的作用;③说舍位误差不大于保留位上单位的二分之一,只能说明舍位是4舍5入,对如何正确选取有效数字位数并无帮助;④定义者与被定义者内涵不符(未说明什么是有效什么是无效);⑤定义者与被定义者外延不等(符合定义的数字不一定都是有效数字)。

这个定义是关于有效数字的无效定义。

有效数字的新定义如下。

定义有效数字

从数据的第一个非零数字位计起,若第K位上单位的一半始成微小误差,这K位上的数字称有效数字,且称此数据有K位有效数字。

第K+1位及以下位,舍去;舍位误差不大于第K位单位的一半。

实际应用中,误差取两位有效数字;测得值数据最低位保留到与误差的最低位对齐。

更低位按舍位规则处理。

定义值、名义值、标称值、要求值,这些非测得值,有几位写几位,不讲究有效数字,实际是看作无限精确值。

 

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 总结汇报 > 学习总结

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1