实验数据的处理与分析.docx

资源描述

实验数据的处理与分析.docx

《实验数据的处理与分析.docx》由会员分享，可在线阅读，更多相关《实验数据的处理与分析.docx（18页珍藏版）》请在冰豆网上搜索。

实验数据的处理与分析.docx

实验数据的处理与分析

物理是个实验科学，免不了要从事测量。

很多同学常常疑惑的是不知道如何正确的分析与处理实验的数据。

希望本单元能对你（妳）有所帮助！

误差=测量值-真值

谈实验数据往往会先谈到误差的定义。

于是出现了上面的式子。

误差就是所测得的数值与被测量物理量真正数值之间的差别。

好像很有道理，又好像在讲废话！

先想一想，为什么我们要从事测量？

（才能有测量值！

）如果我已经知道想测量的物理量的真值，我为什么还要去测它？

难道就为了要知道测量的误差吗？

就是因为不知道物理量的真值才要测量。

那！

误差的定义又有什么用呢？

实验数据的处理与分析便是想运用统计的方法，

让我们从多次的测量数据中，估算出最接近真值的数据。

也就是我们所想要的测量结果。

并藉由误差的分析，让我们了解我们所做的估算，可信度有多高！

并探讨实验误差的可能来源。

误差的种类：

（依照来源）

一般而言，可以分为系统误差（systematicerror）与随机误差（randomerror）。

1.『系统误差』：

所谓测量，乃是大家事先公定有一测量单位（标准），例如公尺。

然后依据制造出含刻度的测量工具（例如尺），将测量工具和待测物相互比较，而判得测量值。

如果测量工具本身所显示的刻度，因为校正时疏忽，造成不正确。

或因为环境的因素（例如温度压力等），使得数值产生变化。

或因人为不正确（或不熟练）操作或观测方法错误。

都是可能产生系统误差的来源。

对于某些非直接测量的物理量，依据某原理或方法设计出来的实验。

也有可能因为实验时无法充分满足原理所假设的状况，或根本设计原理有失误，而造成系统误差。

（这也是很多人常忽略的）

通常『系统误差』会使得所有测量值都过高或过低的偏差，偏差量大致相同，不含机率分布的因素。

2.『随机误差』：

实验的基本方法，往往是希望能控制变因，以找出物理量受个别变因的影响。

因此总是希望控制所有影响的变因，一次只让一种变因变化。

实验的设计便是尽量能达到上述的目的。

而且为了实验简便，往往也忽略对实验影响较微小的因素。

（也比较实际）。

但实际操作时，不见得尽如人意。

这些不易控制（有时候无法控制）的小变因，便会使测量值产生随机分布的误差。

也就是说有些测量值会过高，有些则会稍低。

降低『系统误差』的方法，当然只有靠正确分析误差来源：

仪器造成的→设法改良仪器。

环境造成的→设法控制实验环境。

操作不良的→只好加强训练自己了喔！

理论上或许可能将仪器误差完全消除，但是前两项的改善，并不需要做到最完美的情形！

？

奇怪！

不是仪器越精良，环境越稳定实验结果越好吗？

因为这些改善的要求，牵涉到对测量值所要求的『精密度』与实际环境与经费等的考虑。

而且改善时应该以所有误差来源所造成测量误差的比例，能以约略相同的比例减少才有效。

例如：

把所有经费大部份都买最精密（也最昂贵）的仪器，环境因素却因为能力不够改善（或已经改善至最好境界），但仍然造成较大比例误差，则精密的仪器不过是花冤枉钱吧了！

如：

碳的电阻系数（resistivity）的温度系数=-0.0005（于20oC）也就是说碳的电阻值当温度升高1Co时，电阻值会减少万分之五。

若是使用6位有效位数的电表（数万元）来测量实验过程中的电阻值，但实验过程中并未注意（或控制）温度变化，而使得碳电阻器的温度有好几度的变化，则效果和只用3-4位有效位数的电表（数千元）一样。

降低『随机误差』的方法，则是我们以下所要探讨的：

藉由统计的方法，提供我们如何（藉由增加测量次数）、

最有效率的改善『随机误差』。

准确度与精密度：

精密度：

当多次重复测量时，不同测量值彼此间偏差量的大小。

如果多次测量时，

彼此间结果皆很接近，则称为精密度较高。

准确度：

准确度的定义是测量值与真值（或公认值）的偏差程度。

公认值通常指

使用已知较准确且精密度高的实验仪器，

在优良训练的实验人员重复操作下，所得出精密度相当高的实验结果。

但实验时不见得有所谓公认值存在。

问题：

你认为精密度与准确度之间有直接的关系吗？

精密度高的结果，准确度一定高吗？

准确度高的结果（平均值），精密度一定高吗？

统计分析方法

母分布：

每一个待测物理量，我们可以假想存在一个『真值』（只是不知道）。

假设只有随机误差而完全没有系统误差的情况下，

如果我们对同一物理量，测量次数一直增加。

则随机误差的影响使得测量值大于真值与小于真值的机率分布一样，则所有测量值的平均值，将随着测量次数得增加而越接近真值。

当测量次数等于无穷多次时，测量值的分布称为母分布。

（横轴为测量不同数值，纵轴为每个测量值被测到的次数）

无穷多次：

什么意思嘛！

怎样才算？

由于我们不可能无穷多次的测量，所测得有限次的测量属于母分布的部份样本-->就称为『样本分布』好吗？

于是有限次数的算数平均值是我们对于真值所能给（猜）的最好的估计值。

算数平均值（mean）

：

偏差（deviation）：

为了想了解测量数据与平均值的偏离程度，于是定义每一个数据与平均值的差值，称为偏差。

但偏差量有正有负，且所有偏差量的总和必为

为了想量化实验数据的精密度，且解决偏差量总和必为零的情形。

我们可以将偏差量平方后相加，而定义出方差（Variance）：

为偏差平方的平均值。

当然将偏差量取绝对值后相加，也可以显示实验的精密度，但是数学计算上采用方差，比较方便。

方差计算时可简化为平方的平均值减去平均值的平方。

比直接用公式计算，简单多了！

标准偏差（StandardDeviation）：

对于母分布而言（n→∞）时，取方差的平方根（与测量量相同单位）。

定义母分布的标准偏差（代表实验数据分布的精密度）***注:

下图中d23应该修正为d22

为偏差平方的平均值的根号，称为『方均根』。

方均根英文为root（根）mean（均）square（方）.

如果直接利用上面的定义来处理有限次数的测量数据时，会发生矛盾的情形？

例如：

如果对于某一物理待测量，只有测量一个数据，则平均值等于唯一测量值，因此偏差为零。

当然偏差的方均根值必为零。

也就是有最良好的精密度。

那岂不是所有测量皆测一次就够了！

？

问题出在哪儿呢？

因为计算n个数据的个别偏差时，需先计算平均值。

当有平均值时，只要有n-1个数据便可以算出所有的偏差量。

也就是计算方差（偏差量平方的平均值）时，数据中的独立变量仅有n-1个，因此计算平均值时，分母若改为n-1较为合理。

因此样本分布（有限次数）数据的标准偏差定义为

如此一来只测量一次时，上式中分子分母皆为零，也就是无法确定标准偏差（合理吧！

）。

当（n→∞）时则分母为n或n-1已经没有差别了。

以上定义的标准偏差代表所有测量数据与平均值之间平均的偏差量（也就是每一测量数据的精密度的平均值）。

可是通常我们也关心所计算出平均值的可信度是多少？

也就是实验结果的精密度有多高？

平均值的精密度应该要高于个别测量数据的精密度。

我们先写下依据统计理论所得出的结果。

平均值

的标准偏差（standarderrorofthemean）

多次实验测量结果写为

也就是测量（平均）量加上所对应的标准偏差（俗称不准量：

uncertainty）。

注：

实验结果不见得一定都是平均值，例如测量电阻的温度系数，温度一直再改变，测量不同温度时电阻值的变化量。

可以用最小方差计算法计算出斜率（变化率）。

并利用『误差传递』方法计算其标准偏差。

标准偏差所代表的意义与运用：

通常当测量次数多时，测量数据的随机分布满足常态分布（normalorgaussiandistribution）:

P是测量值为x的机率。

（次数少时为二项式分布）。

如下图为平均值为50,标准偏差为10的常态分布，

测量值出现在

范围内的机率为68.3%。

（2:

1）

范围内的机率为95.4%。

（20:

1）

范围内的机率为99.7%。

（350:

1）

范围内的机率为99.994%。

（15000:

1）

当从事多次测量时，有时候某些数据与平均值相差的较多，怀疑是因为测量时不小心观测错误或...，怎样判断该不该舍去那些数据呢？

例如：

测量某物体长度100次，计算出平均值与标准偏差（非平均值的标准偏差）后，发现有3组数据落在3倍标准偏差外，4组落在2倍3倍之间，其余皆在平均值与标准偏差之间。

若采用常态分布，由于数据落在2倍标准内的机率有4.6%。

因此那四组数据是合理的。

但是数据落在3倍标准偏差外的机率应小于千分之三。

因此应该重新检讨那三组数据，（除非肯定数据没问题）通常可以舍去，那三组数据舍去后，重新计算平均值与标准偏差。

再检视都没有问题后，并计算平均值的标准偏差后，写出测量结果。

平均值的标准偏差的意义

每次（组）多次实验所得平均值都不会相同。

这些平均值也会形成一种分布。

平均值的标准偏差便是代表这些不同的平均值的可能差异性（精密度）。

综合说来：

实验数据的标准偏差（standarddeviation）显示单一个测量值与平均值间可能偏差的程度。

重复（增加实验次数）并不会减少其数值。

（单一测量的精密度）平均值的标准偏差（standarderrorofthemean）:

则显示所得平均值的可重复性程度，（结果的精密度）。

如果多组重复测量所计算出平均值的标准偏差。

其数值可以藉由增加测量次数而减少，与

成反比。

因此10000次测量平均值的标准偏差为100次测量的1/10.为了增加一位有效位数，次数由100增加到10000.可真是不容易。

误差传递：

经常一个物理量是经由测量数个物理量，再藉由关系式计算而得出。

例如：

动量是由测量值质量与速度相乘而得（速度又由位移与时间测量值得出）。

当测量时，质量、位移与时间的个别误差将影响最后结果的误差。

假设X代表某一个物理量，由

等测量值所决定。

即

，而以

分别代表

等分量样本分布的平均值。

则平均值

，对于某一组测量样本数据，可以表示为

，则

测量值的方差

其中

，

，而

称为协方差（corvarance）。

如果u和v（测量物理量）彼此不相关，则协方差为零。

（通常测量时的个别参数间是互不相干的）

于是方差可以简化为

当测量物体密度时，质量与体积的测量通常不相干，因此可用上式计算质量与体积的误差所造成密度测量的误差。

但是体积测量误差的计算，若体积是由长、宽、高等测量值相乘而得。

当长、宽、高都是用同一量具同样方式测量时，往往彼此间的误差是相关的。

尤其当量具的系统误差大于随机误差时，由于校正所造成误差将造成长、宽、高的系统误差。

则体积的百分误差将直接等于长、宽、高百分误差之和。

（而非长、宽、高百分误差平方之和开根号）。

当使用误差传递时要辨别测量值间是否彼此相关。

让我们运用上式计算平均值的标准偏差。

平均值是由各测量值取平均而得到（视为以各测量值为独立变量的函数）。

若各测量值的标准偏差皆相同时，

上式可以简化为

于是平均值的标准偏差

让我们再做几个例题：

例如：

（3.1257±0.0138）-（1.892±0.0095）

=（3.1257-1.892）±（0.01382+0.00952）1/2

=1.234±0.017

注意：

误差并非0.0138+0.0095?

为什么呢？

3.1257±0.0138表示测量值在3.1257-0.0138与3.1257+0.0138之间，多次测量时应该越接近3.1257的数值越多，离开越远的机率越少（满足常态分布）。

因为随机分布的关系，大于平均与小于平均的机率皆相等。

当两测量值相加时，两者偏差皆为最大正偏差或皆为最大负偏差的机率，应该很小，经统计分析以平方相加开根号为较适当。

若协方差为零时，则结果的百分误差的平方等于个别参数的百分误差的平方和。

参数间为相除的情形时，也有相同结果，请你自以试一试。

3.换人做做看！

该你练习了喔！

分别练习计算以上三种函数的标准偏差。

以上皆讨论独立变量间的误差皆互不相干，彼此不受影响。

若是讨论包含系统误差的情形，或是变量间相互影像时，就必须考虑协方差。

例如：

体积是由三个测量值长，宽，高相乘而得，假使测量的尺因为温度的变化而收缩。

用同一把尺测量，则长宽高误差皆会有相同趋势（同时过大或过小）。

则百分误差不再是平方后相加再开根号，而是直接相加。

有效位数的说明：

当使用测量工具从事测量时，工具的最小刻度限制了测量值的有效位数。

通常我们以仪器最小能读到的刻度值外加一位估计值作为记录的结果。

但是由于科技的进步，现代很多仪表显示时都已经数字化（直接显示数值），在正常的情形下，最后一位显示的数值，已经包含了仪器帮你估计的成分。

（事实上，你也无从估计！

）但是：

并非数字化的仪器所显示的数值，完全都是必须记录的。

仪器显示的最小刻度值，应该要配合仪器的精密度。

但是仪器商生产不同精密度的仪器时，为了成本问题很可能使用相同的显示组件。

因此某些仪器显示的数值，可能多于实际的精密度。

另外一种情形是，仪器也的确够精密，但是你所测量的环境本身造成的影响，超过仪器精密度的范围。

例如：

使用6位半的精密电表去量温度没有适当控制环境下的电阻。

结果数值后几位连续不断的跳动。

（也就是选用太过精密的仪器）多记了后面一直变动的数值，有用吗？

（这也是一般学生常犯的毛病，所有数值皆记下来）

基本原则：

实验记录所显示的最小刻度值，也应该要配合测量的精密度。

否则只是增加自己计算的负担而已！

可能只是增加记录的负担而已，

数据处理时...反正用计算器在计算，可能计算完毕，还多了好多位有效位数呢！

用10位显示的计算器，实验结果变成10位有效位数。

如果用12位显示的计算器，实验结果变成12位有效位数。

好像实验的精密度取决于计算器的能！

？

这不是笑话！

这是现代很多学生的毛病，甚至在科学展览的会场都会见到。

这已经变成一种习惯，不是说一说就改的过来！

要一直的提醒自己！

（其实在正式的刊物，偶而也会见到类似的错误）。

在过去要用手算的时代，就不容易出现这样的问题！

（科技带来的影响）

举一个实例：

如下表

测量序号

长度L（cm）

宽度W（cm）

10.78

8.21

10.80

8.20

10.75

8.22

10.73

8.21

10.78

8.22

平均值

标准偏差

平均值的标准偏差

结果

10.77

±0.02

±0.01

10.77±0.01

8.212

±0.008

±0.004

8.212±0.004

从以上的例子，是否看出该怎样选取记录的有效位数。

和试验数据的标准偏差，有怎样的关系呢？

决定好有效位数后多出来的位数，便利用四舍六入五成双的原则。

四舍六入大概你得很清楚，可是什么是五成双呢？

严格一点说：

应该是舍去的第一位如果大于5则进位。

但如果恰好等于5则依照数据最后一位来决定，奇数则进位，偶数则舍去。

主要是我想是为了数据常要除以独立变量等运算，如果每次遇5皆进位，有可能经过数次运算后连续进位好几次。

而用上法来试图抵销。

例如：

（取有效位数）处理前

（取有效位数）处理后

3.154

3.15

3.151

3.16

3.155

3.16

3.145

3.14

可是如果最后的结果是利用好几层的关系式计算而得到的，是否每计算一次就要将数据取至适当的有效位数，再继续算下去。

还是反正用计算器一直算，最后在取有效位数。

我提供的原则是：

当数据计算时，运算的数目来源是由于数学推导的常数或物理常数，则最后再取有效位数便可。

（视常数完全有效）但是若遇到测量值，则必须运算完后，马上取至适当的有效位数。

例如：

面积等于常乘宽，算出后马上要决定适当的有效位数，再继续运算下去。

你认为这样的原则合理吗？

好像还有问题耶！

9.8×1.28该取几位有效位数？

12.54还是12.5还是13.虽然通常加，减，乘，除等运算时有效位数以最不准确的因子的有效位数为基准。

但是上面的运算取13.就似乎不太合理。

事实上，当处理数据时，你可以用数据的标准偏差作为最适当的判断依据。

附记：

当使用游标尺时，有没有所谓的估计值呢？

补充说明：

1.有限次数的平均值是我们对于真值所能给（猜）的最好的估计值由于方差代表着数据的偏差量，对于一组数据而言，若是此偏差量越小越好。

问题改换成：

采用怎样的平均值计算方式会有较小的方差？

取方差对平均值（偏）微分等于零的结果如下：

所以采用算数平均值的计算方式时，方差有最小值。

（不信的话，你也可以自己试一试几何平均值，看看结果如何）

2.最小平方作图法：

实验时，我们常会需要测量某物理量（应变量）随物理参数（自变量）变化时，彼此间的关系。

例如：

电阻（纵轴）随温度（横轴）的变化。

最小平方曲线作图法便是在所绘出数据图中（电阻--温度图），描绘出一条曲线，使的所有数据点到曲线距离平方总和（方差）为最小。

用f（xi,yi）表示数据点，我们希望找出

（最小方差曲线），使得

有最小值。

以上假设自变量没有误差（或相对很小）：

以下我们以常见的线性关系

为例，希望找出a,b使得

有极小值。

也就是找出最能代表测量数据线性关系的直线。

欲使方差有最小值==>

联立解上两个方程式，可得到

上式中a为直线斜率，b为其截距。

经常所测量物理量之间的关系式并非如

如此简单的关系，

可以仿造上面计算最小方差的方式，找出各系数的值。

但是大多数情况，皆可以利用变量变换的方式，将关系式转换成简单线性关系。

例如：

电容放电时，电容电压随时间变化的关系

Vc（t）=Voe-t/RC

实验时测得电压V随时间t变化的数值，欲求得Vo以及放电时间RC值。

可将所测得电压取对数lnVc（t）=lnVo-t/RC

令y=Vc（t），x=t则有y=ax+b的关系。

利用上面最小平方法求得斜率a=-1./RC，截距b=lnVo

接下来的问题是：

1.这样计算出来的直线，用来代表原有数据的关系好不好呢？

提示：

当然方差

越小越好喔！

可是如何判断呢？

（你应该知道为何除以n-2了吧！

）

2.所计算出来的直线斜率a和截距b的误差又是多少呢？

提示：

利用误差传递的计算法去计算。

将a,b视为xi以及yi的函数，但是上面的计算中皆假设xi有误差。

因此只需要计算由于yi的误差所传递给a,b系数的误差。

令

（Δ≦0.对吗？

）

则

且

于是得到

若是所有测量数据标准偏差相同

，我们又可将原点平移（任选原点）使得

于是上面结果可以简化为

对于任何数据我们皆可以代入上面最小平方法找出一条线

可是数据x,y之间，是否真的适合用线性关系描述呢？

我们用这样的想法来评断：

若两者之间真的满足y=ax+b，则若是我们改用x'=a'y+b'去描述，应该也可以得到适当的曲线。

理想情况应当满足

，于是我们可以检验用以上两种直线方式所得出之斜率相乘积越接近于1表示x,y间越相关，于是定义（linear-correlationcoefficient）

若是γ值越接近于1.0则表示x-y数据间越适合用上述线性关系描述。

展开阅读全文