实验数据处理Word文档格式.docx

上传人:b****5 文档编号:16522902 上传时间:2022-11-24 格式:DOCX 页数:22 大小:128.72KB
下载 相关 举报
实验数据处理Word文档格式.docx_第1页
第1页 / 共22页
实验数据处理Word文档格式.docx_第2页
第2页 / 共22页
实验数据处理Word文档格式.docx_第3页
第3页 / 共22页
实验数据处理Word文档格式.docx_第4页
第4页 / 共22页
实验数据处理Word文档格式.docx_第5页
第5页 / 共22页
点击查看更多>>
下载资源
资源描述

实验数据处理Word文档格式.docx

《实验数据处理Word文档格式.docx》由会员分享,可在线阅读,更多相关《实验数据处理Word文档格式.docx(22页珍藏版)》请在冰豆网上搜索。

实验数据处理Word文档格式.docx

但是从表1-1-1可以看出,“四舍五入”法中,当第n+1位是5时,其舍入误差是5,此误差无法抵消。

这就是古典的“四舍五入”法的弊端。

其实,只要我们稍动脑筋,这个问题就可以解决。

如果我们在使用“四舍五入”法时,人为地将第n+1位是5的舍入误差分为两半,一半舍去,而另一半进入,就可以在大量数据处理中使当第n+1位是5时的舍入误差相抵消。

我国科学技术委员会正式颁布了《数学修约规则》,通称为“四舍六入五单双”法则。

概括说明如下:

四舍六入五考虑,五后非零必进一。

五后皆零视奇偶,五前为偶应舍去,五前为奇则进一。

这一法则的具体运用分述如下:

1.若被舍弃的第一位数字小于5,则其前一位保持不变。

如,28.2345只取三位有效数字时,其被舍弃的第一位数字为3,小于5,则有效数字应为28.2。

2.若被舍弃的第一位数字大于5,则其前一位数字加1。

如,28.2645只取三位有效数字时,其被舍弃的第一位数字是6,大于5,则有效数字应为28.3。

3.若被舍弃的第一位数字等于5,而其后数字全部为零,则视被保留的末位数字为奇数还是偶数而定进或舍。

奇数时进一,偶数时舍。

如,28.350及28.250,只取三位有效数字时,则分别为28.4及28.2。

4.若被舍弃的第一位数字等于5,而其后面的数字并非全部为零,则进一。

如,28.2501,只取三位有效数字时,则进一,成为28.3。

5.若被舍弃的数字包括几位数字时,不得对该数字进行连续的进位或舍弃,而应根据以上各条作一次处理。

如,2.1545446,只取三位有效数字时,应为2.15,如果从最后一位对该数字进行连续的处理,则可得到2.16。

后者是不容许的。

6.整数的修约也应遵照上述法则。

如,23438,只取三位有效数字时,则应为23400或2.34×

104。

第三节有效数字的确定

有效数字的确定一方面要考虑测量仪器的精度,应与测量仪器的精度相一致。

另一方面还要考虑有效数字的运算要求。

有效数字的计算,应遵循“先进舍,后运算”的原则,因此在计算前需按照以下“修约规则”对数字进行修约:

1.在加减计算中,各数所保留的小数点后的位数应与所给各数中小数点后位数最少的相同。

如将23.62,0.0083和1.643三数相加时,首先根据取舍规则对数字进行修约,然后计算,则为

23.62+0.01+1.64=25.27

2.在乘除计算中,应以有效数字最少的或百分误差最大的数字为准,对其它各数按上述规则修约后,再进行计算。

所得积或商的精度也不应大于相乘或相除各数值中精度最小的数值的精度。

如将0.0121,25.6432,1.0578三数相乘时,将数字进行修约后,写成

0.0121×

25.6×

1.06=0.328

3.在对数计算中,真数与对数的有效位数应相同。

4.在计算均值时,若为四个和多于四个数相平均,则平均数的有效位数可增加一位。

5.对于π、е、

等常数,有效数字的位数可以任意确定。

6.界限数值不得修约。

如:

在材料冶炼中,要求Ni含量不大于0.35%。

如果冶炼后材料成分实测为0.351%,则不可修约为0.35%,应记为0.351%,并被视为不合格。

但是如果实测成分为0.328%,则可修约为0.33%。

第四节数据的表示方法

实验和生产数据的表示要求准确、简明、形象。

目前数据的表示方法主要有列表法、作图法和经验公式法。

 

一、列表法

列表法简明紧凑、便于比较,一直广泛应用。

特别是近年来计算机办公软件,如word、excel等的普及使用,方便了表格排序、删除添加,以及表格运算,使列表法使用更方便更普及。

使用列表法表示数据的方法如下:

1、为表格起一个简明准确的名字,并将这个表名置于表的上面。

同时将表格的顺序号放在表名的前面。

2、根据需要合理选择表中所列项目。

项目过少,表的信息量不足。

但是如果把不必要的项目都列进去,项目过多,表格制作和使用都不方便。

3、中的项目要包括名称和单位,并尽量采用符号表示。

4、表中的主项代表自变量,副项代表因变量。

5、数字的写法应整齐统一。

同一竖行的数字,小数点要上下对齐。

数字为零时,要保证有效数字的位数。

比如,有效位数为小数点后两位,则零应计为0.00。

6、变量一般取整数或其它比较方便的数值,按递增或递减顺序排列。

因变量的数值要注意有效位数的选择能够反映试验数据本身的误差。

7、必要的时候,可在表下加附注说明数据来源和表中无法反映的需要说明的其它问题。

表1-1-2给出一个列表实例,供参考。

实际情况往往多种多样,表格也需视实际情况确定,不是只有一种模式。

但是当你要发表实验结果是,最好找最新的出版标准看看,使表格符合出版规范。

表1-1-2钒对贝氏体球墨铸铁中贝氏体组织含量的影响

钒含量,wt%

0.0

0.2

0.4

0.6

0.8

贝氏体组织含量,%

46.5

47.2

48.0

49.1

52

二、作图表示法

作图法形象直观,也是人们经常采用的一种数据表示方法。

作图法有直角坐标法、单对数坐标法、双对数坐标法、三角坐标法、极坐标法及立体坐标法。

近年来计算机办公软件,如word、excel等为作图提供了极大的方便,也丰富了作图法的形式。

使用作图法表示数据的方法如下:

1、为图起一个简明准确的名字,并将这个图名置于图的下面。

2、一般情况下横坐标代表自变量,纵坐标代表因变量。

坐标轴的刻度最好选择1、2、4、或5比较方便,避免使用3、6、7、9等。

3、坐标轴的起点不一定是零,一般要考虑使图形占据坐标的主要位置,然后据此选择坐标轴的起点。

4、每个坐标轴都要注明名称和单位,并尽量采用符号表示。

5、一般应使坐标的最小分格对应于试验数据的精确度。

6、在可能的情况下,将变量甲乙变换,使图形变为直线或近似直线。

7、在可能的情况下,最好在图中给出数据的误差范围。

例如,图1-1-1中,曲线1各矩形的长和宽分别代表因变量和自变量的误差,其中心则为测量数据的平均值。

曲线2中的圆表示自变量和因变量的误差相同,圆的半径代表误差范围,圆心代表测量数据的平均值。

曲线3表明自变量没有误差,或误差可以忽略不计,因变量的误差由垂直线段表示。

8、如果数据过少,不足以确定自变量和因变量的关系时,最好将各点用直线链接,如图1-1-2所示。

当数据足够多时,可描出光滑连续曲线,不必通过所有的数据点,但是应尽量使曲线与所有数据点相接近。

9、必要的时候,可在图下加附注说明数据来源和表中无法反映的需要说明的其它问题。

三、经验公式表示法

在科学研究中,我们常常希望用一个公式来描述数据的变化。

这一方面,可以描述数据变化的规律,从而帮助我们认识事物的变化本质。

另一方面,可以依据公式方便地获得实验以外的数据。

采用公式描述数据的变化,往往是通过对事物规律已有的认识或经验和解析几何原理来推测公式应有的形式,然后依据试验数据求解公式中未知的常数项。

经验公式的方法有图解法、选点法、平均法、最小二乘法等,其中最常用的是图解法和最小二乘法。

前者简单直观,但是一般需要先将公式化为直线关系,这部分内容将在后面详细介绍。

后者在高等数学中已有介绍。

第二章 

数字特征的计算与检验

第一节 

引言

数据是生产和实验的重要信息,它反映了事物的客观规律。

但是,在生产和科学研究中,实际数据并不是象我们期望的那样整齐稳定。

表1-2-1是某炼钢厂生产的25SiMn结构钢含硅量检验结果。

从这些数据中,我们可以看出这批数据有两个特征:

表1-2-125SiMn结构钢含硅量检验结果

1.波动性

在同样的生产工艺和条件下生产出来的25SiMn结构钢含硅量并不完全一样,表现出一定的波动性。

2.规律性

仔细研究这些数据,可以发现:

这些数据虽然有波动,但并不是杂乱无章,而是表现出一定的规律性。

表1-2-2是这些数据的频率和频数分布,图1-2-1是其直方图。

可以看出,数据是在0.64~0.95之间波动,而在0.77~0.835范围里集中了较多的数据,越往两边数据越少。

由此可见,对实际数据进行分析和计算,对于科学地把握数据给我们提供的信息是十分重要的。

表1-2-225SiMn结构钢含硅量样本频数、频率分布表

第二节数据统计的几个基本概念

一、总体、个体和子样

在概率统计计算中,把具有同一性质元素组成的集合体称为总体。

组成总体的最小单位称为个体。

例如,在实验中测量某一物理参量(强度、重量、电阻值等)的全部测量值,这些测量值的全体就是组成所要研究的总体,而每次实验的观测数据,就是一个个体。

子样(又称样本)是通过实验测试所得到的总体中的部分数据。

子样是由个体组成,一个子样所包含个体的数目,称作子样容量,简称为样本量。

如果子样能够反映总体的特性,就可以根据抽取的子样,对总体的分布情况进行推断。

因此,抽取子样要有两个要求:

(1)代表性,

(2)独立性。

例如,抽样统计上海大学全校学生的身高,我们从全校随机选择一个系,在该系随机抽取50名学生进行统计。

那么,每个学生测定的身高就是数据的个体,而这个系测定的数据就是子样,子样的样本量为50。

如果我们选择的这个系满足代表性和独立性两个要求,根据这个系的统计结果,我们就可以推断上海大学学生的身高。

二、事件与随机变量

通常人们把在一定条件下发生的现象、状态及测试结果称作事件。

其中,在一定条件下必然发生时间称为必然事件,在一定条件下不可能发生的事件称作不可能事件。

必然事件和不可能事件统称为确定性事件。

在一定条件下,一次实验中可能发生也可能不发生,而在大量重复试验中具有某种规律性的事件称为随机事件。

例如,我们将一枚硬币抛向空中,这枚硬币必然要落到地面上,而且它落在地面上后必然是平躺在地面上,不会竖立在地面上。

上述事件都是确定性事件,其中硬币落到地面上是必然事件,它落到地面后平躺在地面上也是必然事件,它不会竖立在地面上是不可能事件。

硬币落在地面后,可能正面(表示币值的面)朝上,也可能背面朝上,硬币哪个面朝上,就是随机事件了。

在自然界与社会中,到处存在着具有偶然性、不确定性,而内部确有其固有规律性的现象,这种现象称为随机现象。

为了研究随机现象,我们引入特征量X来描述随机事件的数量规律性,我们把X称为随机变量。

物理量的实际测量的可能值的全体,都是随机变量。

对于某一次测量,随机变量取该次量测值是一个随机数。

例如,上述抛币例子中,硬币哪个面朝上是随机的,但是大量统计的结果却有其规律性。

随机变量分为两类:

1.离散型随机变量——随机变量X的取值是不连续的,可排列为x1,x2,x3,…,xi,(xi可以是有限的,也可以是无限的)。

例如产品的合格品与废品,材料的相组成,血液中的白血球数等都是离散型随机变量。

2.连续型随机变量——随机变量X的取值,可能是数轴上某个区间或是整个数轴。

例如,测量误差,铸件的浇铸温度,分子运动速度等都是连续型随机变量的例子。

通常用概率分布和概率密度描述随机变量。

三、正态分布

所谓正态分布就是指随机变量X的概率密度函数f(x)为:

式中参数μ与σ2分别是正态分布的数学期望与方差,e是自然对数的底。

大量实验表明,测量的随机误差是服从正态分布的。

第三节数字特征的计算方法与程序设计

一、位置特征参数的计算

我们往往把大量实验和生产数据进行处理,使其简明有效地反映这些大量数据。

我们采用实验数据的位置特征参数来描述实验数据的平均值与特定位置。

其中常用的有算术平均值、均方根均值、加权平均值、几何平均值等。

下面分别介绍这些位置特征参数。

1.算术平均值

算术平均值是全部数据的代数和除以样本量N,一般用

表示。

这种方法最简单,也是实际计算中最常用的实验数据的位置特征参数。

其数学表达式为

例如,实测高强度灰铸铁的抗拉强度分别为30.6Mpa,32.6Mpa,29.9Mpa,31.6MPa,34.0MPa,则其算术平均值为

2.均方根均值

均方根均值简称均方根值,在统计学中广泛使用。

其定义式如下

例如,在对某测量仪器进行校验时,实测其测量误差分别为0.022,0.015,-0.021,-0.008,0.003,则其测量误差的均方根均值为

3.加权平均值

前述两种表示方法都是基于对所有的数据“一视同仁”的原则进行的,没有考虑数据之间可靠性的不同、权威性的差异、以及对整个样本贡献的大小。

例如,当我们采用不同的仪器测量一个物理量时,仪器不同,数据的可靠性就不同,在表征数据时,我们应该更重视那些更可靠仪器测定的数据。

再比如,我们请多位专家对一项成果进行评定打分,在这些专家中有院士,有教授,可能还有助教,此外有的专家对所评定的领域十分熟悉,有的专家则不甚熟悉,因此这些专家在评定时的权威性就大不相同。

在统计评定结果时,我们有必要更多地考虑那些比较权威人士的评分。

再比如,对一个学校的教学水平进行评定时,我们可以把评定内容划分为师资力量、图书馆藏书量、实验条件、学生考试成绩等等若干项,然后逐项评分,最后累计总分。

但是对于一所学校的教学水平,这些内容所起的作用是不同的,因此在累计评分时,有必要对这些内容区别对待。

为了解决上述问题,就引入了加权平均值。

加权平均值又称为计权均值。

所谓加权平均值,就是在计算平均值的时候对数值给以不同的比重系数(wi),所得到的平均值称为加权平均值或称作计权平均值。

例如,某高校对校内各系进行教学能力评估,评估内容主要有:

师资力量、实验条件、授课质量、学生考试成绩,上述4项内容的权重系数依次为:

4,3,2,1。

数学系4项内容得分依次为90,72,88,96,则数学系的得分加权平均值为

4.几何均值

几何平均值是将n个观测数据联乘后并开n次方所得到的数值。

思考题:

何谓位置特征参数?

上述位置特征参数计算方法有何异同?

你认为以下几种情况,该用何种计算方法计算位置特征参数,并说明理由:

(a)大学各班学习成绩,(b)大学生四年学习总成绩,(c)工厂综合实力评定,(d)零件尺寸误差。

二、离散特征参数的计算

一般情况下,我们只要知道数据的平均值就可以了。

但是事实上,平均值往往不能反映数据的全貌。

比如,在科学研究中,我们不但需要了解数据的平均值,还要了解数据的离散程度。

数据的离散程度往往可以为我们提供很多信息,如实验结果的可靠性等。

样本的离散特征参数就是用来描述数据的分散程度的,常用的离散特征参数有极差、标准差、标准均差及变异系数等。

1.极差

极差是一个最简单的离散特征参数,它是样本中数据的最大值与最小值之差,可表示为:

L=xmax-xmin

式中,xmax——样本中数据的最大值,

xmin——样本中数据的最小值。

极差的优点是计算简单,便于表示。

但是极差是由个别数据所决定的,这就导致它不能反映全部数据提供的信息,其结果有一定的偶然性,代表性也较差。

2.方差与标准差

为解决极差存在的不足,引入了方差和标准差的概念。

顾名思义,方差就是样本数据中所有数据与样本数据平均值之差的平方的平均值。

表示

标准差则表示为

在分析样本的数据时,常以

代替

3.标准均差

 

4.变异系数

方差、标准差、标准均差和变异系数都是以平均值为中心的离散特征参数。

在实际工作中,方差应用比较普遍,而标准均差和变异系数应用较少。

为了方便读者在学习中能验证所学内容,此处作者编写了相应的演示程序。

请根据提示进行操作,点击进入

方差和极差相比有没有不足的地方,是不是我们可以用方差代替所有用极差表示的参数?

参考答案

三、分布特征参数的计算

分布特征参数是用作描述实验数据的概率密度函数图形特征的。

常用的分布特征参数有偏度系数和峰度系数。

标准偏度系数用作分布不对称性的检验,其数学表达式为

图1-2-2给出了分布特征参数不同值时的物理意义,按偏度系数的取值,可分为负偏度分布、对称分布和正偏度分布。

峰度系数用于描述概率密度函数图形顶峰的凸平度,它是分布特征参数的另一个重要参数。

图1-2-3给出了标准偏度系数的直观意义,当G2=0时为标准正态分布,G2>

0时顶峰的凸度大,G2<

0时顶峰的凸度小。

图1-2-3标准峰度系数的意义

四、相关特征参数的计算

相关特征参数用以描述实验数据相互之间或实验数据xi与实验编号I之间的相关性。

1.线性相关系数

线性相关系数用来描述实验参数之间的相关性,其数学表达式为

R(j)为总体相关系数ρ(j)的估计值。

如果ρ(j)=0,则表示实验数据之间没有相关性。

如果0<

|ρ(j)|≤1,则随着ρ(j)绝对值的提高,实验数据的相关性由弱到强。

2.线性时关系数

线性时关系数用来描述实验参数与实验时间的相关性。

如果把实验数据xi的下标i视为实验观测进行的相对时间,从而分析xi与相对时间i之间的关系,为研究实验数据xi有无随时间i改变的系统误差及趋势性变化的存在提供定量依据。

Rxt数值越大,表示实验数据与时间i之间的线性关系越强。

第三章 

异常数据的剔除与遗失数据的弥补

在处理实验数据的时候,我们常常会遇到个别数据偏离预期或大量统计数据结果的情况,如果我们把这些数据和正常数据放在一起进行统计,可能会影响实验结果的正确性,如果把这些数据简单地剔除,又可能忽略了重要的实验信息。

这里重要的问题是如何判断异常数据,然后将其剔除。

判断和剔除异常数据是数据处理中的一项重要任务,目前的一些方法还不是十分完善,有待进一步研究和探索。

目前人们对异常数据的判别与剔除主要采用物理判别法和统计判别法两种方法。

所谓物理判别法就是根据人们对客观事物已有的认识,判别由于外界干扰、人为误差等原因造成实测数据偏离正常结果,在实验过程中随时判断,随时剔除。

统计判别法是给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常数据剔除。

本章着重介绍统计判别法。

第一节拉依达准则

如果实验数据的总体x是服从正态分布的,则

式中,μ与σ分别表示正态总体的数学期望和标准差。

此时,在实验数据中出现大于μ+3σ或小于μ—3σ数据的概率是很小的。

因此,根据上式对于大于μ+3σ或小于μ—3σ的实验数据作为异常数据,予以剔除。

具体计算方法如下:

对于实验数据x1,x2,x3,……,xn,先计算其均值

(i=1,2,3,…n)

再计算残差

则标准差

如果某个测量值

的残差满足

则认为xd为异常数据,予以剔除。

拉依达准则是最常用的异常数据判定与剔除准则。

第二节 

肖维勒准则

xd被视为异常数据,予以剔除。

上式中,wn可查表得到。

其中,残差vd和标准差σ的计算方法同上。

第三节 

格拉布斯准则

对于服从正态分布的实验数据:

x1,x2,x3,……,xn,

将实验数据按值的大小排成顺序统计量:

x

(1),≤x

(2),≤x(3),……≤x(n)

格拉布斯导出了

的分布。

取置信度α,可得T0(n,α),而

如果

则认为xd为异常数据,应予剔除。

T0(n,α)的值可查表得到。

T0(n,α)值表

采用格拉布斯方法判定异常数据的过程如下:

1.选定危险率α

α是一个较小的百分数,例如1%,2.5%,5%,它是采用格拉布斯方法判定异常数据出现误判的几率。

2.计算T值

如果x

(1)是可疑数据,则令

如果x(n)是可疑数据,则令

其中

3.根据n及α,查表得到T0(n,α)值

4.如果T≥T0(n,α),则所怀疑的数据是异常数据,应予剔除。

如果T<

T0(n,α),则所怀疑的数据不是异常数据,不能剔除。

采用此法判异常数据产生误判

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 自然科学 > 化学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1