
2.3 有限次测量误差分析与处理
大多数测定值及其误差都服从正态分布。如果能求得正态分布特征参数μ和σ,那么被测量的真值和测量精密度地就唯一地被确定。然而,μ和σ是当测量次数趋于无穷大时的理论值,在实际测量中人们不可能进行无穷多次测量,甚至测量次数不会很多。所以本节的讨论重点为:如何根据有限次直接测量所得的一列测定值来估计被测量的真值;如何衡量这种估计的精密度和这一列测定值的精密度。
为叙述方便,引入如下数理统计中常用概念。
①子样平均值。代表由n个元素x1,x2,…,xn组成的子样的散布中心,表示为
(2.9)
②子样方差。描述子样在其平均值附近散布程度,表示为
(2.10)
和s2是子样的数字特征,为随机变量。当n趋于无穷大时,
趋于μ,s2趋于σ2。
2.3.1 算术平均值原理、真值的估计
如果一列子样容量为n的等精度测定值x1,x2,…,xn,服从正态分布,则根据该列测定值提供的信息,利用最大似然估计方法可估计被测量的真值μ。
显然,用测定值子样平均值估计被测量的真值应该具有协调性和有效性。由于测定值子样平均值的数学期望恰好就是被测量真值。
(2.11)
按无偏性定义,用估计μ具有无偏性。因此,测定值子样的算术平均值是被测量真值的最佳估计值。
测定值子样平均值是一个随机变量,也服从正态分布。因而,可用
的均方根误差σx表征
对被测量真值μ估计的精密度。
的方差为
也可写为均方根误差的形式
(2.12)
由式(2.12)可知,测定值子样平均值的均方根误差是测定值母体均方根误差的1/
倍。表明在等精度测量条件下对某一被测量进行多次测量,用测定值子样平均值估计被测量真值比用单次测量的测定值估计具有更高的精密度。
2.3.2 均方根误差的估计与贝塞尔公式
均方根误差表征一列测定值在其真值周围的散布程度,是衡量测量列精密度的参数。根据有限次测量获得的信息估计均方根误差σ,仍采用最大似然估计。
母体方差σ2的最大似然估计值可由似然方程
=0,即
求得
(2.13)
因此,测定值子样方差是母体方差的最大似然估计值。但这种估计是有偏的。
为此,必须用n/(n-1)乘以s2来弥补这个系统误差,从有偏估计转化为无偏估计,以表示σ2的无偏估计值
(2.14)
由式(2.14)得到计算均方根误差表达式
(2.15)
式(2.15)称为计算母体均方根误差σ的贝塞尔公式。
2.3.3 测量结果的误差评价
对某被测量进行的重复测量称为等精度测量。一般总是将测量结果表达为在一定置信水平下,以子样平均值为中心,以置信区间半长为区间的一个范围,这个置信区间就是测量的误差。由于置信度不同,测量结果的误差可有不同的表示方法。
(1)标准误差
测量列的标准误差σ是母体参数,它明确地、单值地表征了测量列的精密度。测量列所服从的正态分布P(x;x0,σ),当(x-x0)/σ=1时,查得P=0.683。若测量结果用单次测量值表示,置信区间采用标准误差,则
若测量结果用测定值子样平均值表示,置信区间采用标准误差,则
用标准误差作为误差的评价,表示随机误差不大于标准误差的置信度,其对应的置信区间为[-σ,σ]。这就是说,在此置信度下,高精密度的测量得到较小的置信区间、低精密度的测量具有较大的置信区间。由于正态分布密度曲线当|x-x0|=σ处正好是曲线的拐点,在|x-x0|>σ以后,概率密度变化率变小,这也是经常选用标准误差作为置信区间的理由之一。
(2)平均误差
测量列的平均误差δ是该测定值全部随机误差绝对值的算术平均值。
(2.16)
对于连续型随机变量,δ值就是各测定值随机误差绝对值的数学期望,将这一定义代入正态分布函数,即得
(2.17)
可见,平均误差δ也可以定义为对应于置信度为0.7979×0.683=0.545时的置信区间。
对于单次测量结果,则有
同样为多次测量,则有
此处,是子样平均值的平均误差,且有
(2.18)
(3)或然误差
或然误差是指在一组测量中对应于置信度为50%时的置信区间,记为r,写为数学式P(x;x0,σ)=0.50求得的区间为[-r,r]。查表得z=0.6745,则r=0.6745σ。
多次测量,则有
同样,用表示子样平均值的或然误差,它与测量列或然误差r的关系为
(2.19)
(4)极限误差(最大误差)
定义极限误差的范围(置信区间)为标准误差的三倍,记为3σ。从正态分布曲线可知,对应于置信区间的3σ置信度为99.7%,也就是说被测量真值落在x±3σ范围内的概率已接近100%,而落在该范围之外的概率极小,所以此误差定义为极限误差。
同样,可以定义子样平均值的极限误差Δ,它与测量列极限误差的关系为
(2.20)
多次测量,则有
2.3.4 小子样误差分布——t分布
前面介绍了随机误差的正态分布,当子样足够大时,平均值服从正态分布P(
;x0,
)。当子样容量n→∞时,子样方差
是母体方差σ2 的无偏估计,所以
的分布是已知的。当子样容量很小时(如n<10),不能用子样方差代表母体方差,因为这时的子样方差是个随机变量,不同的子样,取不同的值,子样容量越小,这种情况就越严重。
为了在母体参数σ未知情况下,根据子样平均值估计被测量真值x0,就必须考虑一个统计量,它只取决于子样容量n,而与母体均方根误差σ无关,故引入一个统计量t,设
随机变量t并不遵循正态分布,它的分布规律称为t分布。t分布的概率密度函数为

图2.3 t分布曲线
(2.21)
式中 Γ——特殊函数;
ν——自由度。
当进行n次独立测量时,因为它受到平均值的约束,所以n个测量值中有一个是不独立的。
t分布的概率密度函数以t=0为对称,如图2.3所示。当自由度ν(ν≥30)趋于无穷大时,t分布趋于正态分布。因此t分布主要用于小子样推断。由图可见,当子样容量n很小时,t分布中心值比较小,分散度大。这从另一方面说明,当用正态分布来对小子样进行估计时,往往得到“太乐观”的结果,即分散度太小,夸大了测量结果的精密度。
表2.1中列出各种自由度ν和常用置信概率P下,满足式(2.22)的tP值。
(2.22)
式(2.22)表明,自由度为ν的t分布在区间[-tP,tP]内的概率为P。
表2.1 t分布的tP数值

设一列等精度独立测定值x1,x2,…,xn,服从正态分布N(x;μ,σ),真值μ及母体均方根误差σ均未知。根据这一列测定值可求行子样平均值及其均方根误差估计值
由于服从自由度ν=n-1的t分布,所以可用式(2.22)作如下的概率描述。
或改写为
测量结果可表示为
(2.23)
根据相应的置信概率P,可从表2.1查得对应的tP值。
例2.1 用光学高温计测量某金属铸液的温度,得到如下5个测量数据(℃):
975,1005,988,993,987
设金属铸液温度稳定,测温随机误差属于正态分布。试求铸液的实际温度(取P=95%)。
解 因测量次数较少,采用t分布推断给定置信概率下的误差限。
①求5次测量的平均值
②求的均方根误差的估计值
③根据给定的置信概率P=95%和自由度ν=5-1=4,查表2.1得tP=2.78。按式(2.23),测量结果为
即被测金属铸液温度有95%的可能在温度区间[976.6℃,1003.0℃]之内。
在例2.1中,若用正态分布求取给定置信概率P=95%的置信温度区间,查表计算得到该区间是[980.6℃,999℃],这要比t分布来的区间小。这表明,在测量次数少的情况下,用正态分布计算误差限,往往会夸大了测量结果的精密度。因此,对小子样的误差推断,宜采用t分布处理。
2.3.5 非等精度测量与加权平均值
在非等精度测量中,既然各个测定值(或各组测量结果)的精密度不同,可靠程度不同,那么在求被测量真值的估计值时,显然不应取它们的算术平均值,而应权衡轻重。精密度高的测定值更可靠一些,应给予更大的重视。用数pi表示某一测定值xi应受重视程度。pi越大, 表明该测定值xi越值得重视。pi称为权,而某数乘以pi称为加权。在非等精度测量中,被测量真值的最佳估计值是测定值的加权平均值。
设对某被测量进行n次测量,得到一列测定值x1,x2,…,xn。假定各测定值互相独立,服从正态分布N(xi;μ,σi)。仍可用最大似然估计方法求取被测量真值的估计值。
非等精度测量测定值x1,x2,…,xn的似然函数是
因xi服从正态分布,故
(2.24)
对式(2.24)两边取对数,解似然方程=0,可得到μ的最大似然估计值
(2.25)
将式(2.25)分子分母同乘以正常数λ,并记pi=λ/,则式(2.25)可改写为
(2.26)
式中pi=λ/就是测定值xi的权。权pi与方差
成反比,σi越小,pi越大,在计算估计值
时,相应测定值xi所占的比重也越大。因此,在非等精度测量中,被测量真值μ的最佳似然估计值是测定值的加权算术平均值,仍记为
。
由于加权算术平均值的数学期望为
(2.27)
故加权算术平均值对真值μ的估计具有无偏性。因此可以说,加权算术平均值是被测量真值的最佳估计值。
关于加权算术平均值的均方根方差,由于
的方差为
而。
所以
因此,的均方根误差
(2.28)
通过以上讨论,人们就可以解决非等精度测量的真值估计及其误差评价问题。
例2.2 两实验者对同一恒温水箱的温度进行测量,各自独立地获得一列等精度测定值数据(单位: ℃)。
实验者A:91.4,90.7,92.1,91.6,91.3,91.8,90.2,91.5,91.2,90.9
实验者B:90.92,91.47,91.58,91.36,91.85,91.23,
91.25,91.70,91.41,90.67,91.28,91.53
试求恒温水箱温度(测量结果的误差采用标准误差)。
解 ①求两列测定值各自的算术平均值。
②求,
的均方根误差的估计值。
因此,两实验者对恒温箱温度测量结果分别为
实验者A测温结果=91.3±0.2(℃)
实验者B测温结果=91.35±0.09(℃)
为求恒温箱温度,需综合考虑A,B两测量结果。
③求两测量结果的加权算术平均值。
用
代替
,
代替
,则可求得
=91.34
④求加权算术平均值的均方根误差。
⑤据题意,测量结果的误差采用标准误差,所以
恒温箱温度=91.34±0.08(℃)