测量误差分析及数据处理若干要点系列论文(五

降重资讯 admin 浏览

小编: 移动平均式数据处理具有广泛的应用领域,不仅可作为缓变型三非性数据处理的一般方法,还可作为常量测量的数据处理方法。阐述移动平均式算法基本思想,介绍动态测试和常量测量



在前系列论文已论述,现实的测量数据多属小样本,本质上均具有三非性(非线性、非高斯、非平稳)[1,2,3,4]。移动平均式自适应数据处理有其广泛的应用领域,不仅可作为缓变型(缓时变性或无急剧变化,如,脉冲型、阶跃型等)三非性数据处理的一般方法,还可作为常量测量(实质上长过程常量测量数据也属于缓变型)数据处理方法。总之,当样本容量较大时,任何基本算法均可运用移动平均式数据处理。

在高准确度的动态测量中,尤其是纳米级测量、长过程测量(无论变量或常量)、在线测量等都存在不易确切掌握时变统计特性的测量数据,急需具有自动显示及判别统计特性的自适应数据处理方法。以往多用各种递推算法,却存在初始滞后、拟合误差累积、数值欠稳定等问题,难以满足高准确性要求。笔者自1987年开始采用一系列移动式成批算法、移动式递推平均算法及两者结合的算法,在算法参数选择合适情况下,可克服单纯递推算法的不足。对于非急剧变化的缓变型动态测试数据处理,可取得高准确度跟踪数据时变特性的效果[5,6,7,8]。即便是应用现代智能算法,由于多基于随机性全局搜索方法,计算结果具有随机性,予以平均精确化更佳。

移动平均式算法既具有跟踪缓时变的能力,又可充分利用样本信息,并能发挥成批算法数值稳定性及移动平均精确化效应等高准确度效果,但在计算速度上略逊于递推算法或原基本算法。上世纪九十年代初,已将移动算法归纳为自适应滤波的又一类算法。因此,探讨高准确度自适应数据处理方法已成为当前测试技术关注的问题。样本容量较大或长过程的常量测量存在缓变影响因素,易被忽视,本文着重说明在常量测量中的应用。

1移动平均式算法基本思想

经典移动平均(movingaverage,MA)算法具有跟踪缓时变特性的能力,将其扩展应用于基本算法(basicalgorithm,BA)(也称基础算法,含成批算法、递推算法及两者结合的算法)的移动平均算法,总称为移动平均式算法(BAMA),基本设想如图1所示。 图1BAMA基本设想  下载原图

由图1可见:直接对样本数据作MA算法,对样本数据先作分段BA,再对其进行BAMA。BAMA有分段数据量n和重叠数据量d两个主要参数。

n的选择取决于BA的数据处理目的,若要表述数据所含确定性变化规律,则该n个数据中应含有其确定性变化成分的主要信息;若要表述其随机性成分,则该n个数据应体现出统计特性且近似具有平稳性。通常样本数据时变特性较复杂、较剧烈时,n相应地取大些,但应受限于保持接近平稳性。由于BAMA能体现过程的缓时变特性,因而在满足上述BA的数据处理目的下,n宜尽量偏小选择。至于n的具体值取决于BA的需求及总数据量N。通常要求移动5次以上,方能体现BAMA的效果,即n<N/5。一般要求n≥50~100。

d的选择决定了BAMA的平均效果或准确性,还需兼顾时变的连续性与移动算法的最佳速度。通常d宜选得偏大些,如,d≥10~20。

至于BA有关参数的选择,则视样本数据模型化及所选定的具体算法而异,不在此赘述。笔者将其归纳为动态测试算法和常量测量算法2种类型。动态测试算法又可分为以回归或自回归为主构成的移动平均式成批算法;以各种递推算法为主且作移动平均精确化者为移动平均式递推算法。无论何种具体算法均涉及选择或自动识别阶数(或次数、项数等)m这一重要参数,且因有移动平均形式体现缓时变性而可选得尽量偏小些。常量测量主要对多数据量或长测量过程而言。常量测量样本及测量误差均有缓变因素影响,采用BAMA处理更佳。其参数选择主要取决于测量误差的类型是随机变量还是平稳过程。若属后者,则无异于移动平均式成批算法,需建自回归模型,其阶数m同前选。

在BAMA具体应用中,数学模型拟定是至关重要环节,且影响BAMA参数选定。BAMA处理方法的逻辑框图如图2所示。 图2BAMA处理方法的逻辑框图  下载原图

2动态测试的BAMA处理方法

BAMA处理方法主要应用于动态测试数据处理,可分为移动平均式成批算法和移动平均式递推算法。文献[5]~文献[10]对这些算法已有阐述,故在此仅简要略述及补充其与BAMA处理方法的有关要点。

2.1预处理

关于BA的预处理已多次述及,在此免赘。与BAMA处理方法相关的预处理:将数据{xi}预分解为以规律性(或称确定性)变化为主的和以随机性变化为主的2部分,即

分解方法可采用MA中心平滑方法,即

当数据时变偏剧烈时,可对上述组数据(1≤i≤n;n≤i≤N-n;N-n≤i≤N)分别排序后去除其最小值和最大值,再作MA中心平滑,即采用移动中位值平均的中心平滑算法,亦称中位值平均滤波。显然,必要时,可通过对的差异显著性作t-检验,以判别数据的一阶非平稳性。同时对估计其各分段的方差,并通过对方差差异显著性作F-检验,以判别数据的二阶非平稳性。对分别处理后,再将两者合并还原。

2.2时变规律性和随机性的模型化

BAMA处理方法的模型化类似于BA,这里简要阐述缓时变下对进行模型化的要点。

模型化:多应用线性化时变广义多项式

式中,取正交函数系,若用时变代数多项式,则若用时变三角多项式,则(θ由t换算);{ak(t),bk(t),ck(t)}为时变系数;模型项数m取决于缓时变数据,由所应用的具体算法而定。

大多数现实问题应用这种线性化处理方法可满足准确度要求。仅当某些强非线性度问题不得已需采用非线性模型。总之,模型化遵从线性化优先原则。

模型化:在缓时变下多采用时变有限参数线性模型,如,时变自回归(ARt)模型,时变自回归滑动平均(ARMAt)模型等,即

式中,ai(t)为时变自回归系数;bj(t)为时变滑动平均系数;w(t)为白噪声;模型阶数m,n取决于缓时变数据,由所应用的具体算法而定。

同理,随机性模型遵从线性化-平稳化优先原则。

2.3动态测试的BAMA

动态测试的BAMA决定于对现实问题的样本数据进行模型化及最佳性原则的需求。详见文献[5]及此系列论文的论述,具体处理方法的示例可参考文献[6]~文献[10]。本文仅涉及现代数据处理方法的要点。

现代数据处理中应有:对随机性分布以非高斯性分布为常态的观念;对进行模型化后均存在按最佳性原则及智能化处理方法确定最节省的项数m或阶数(m,n);甚至还需以非线性模型进行处理;最终验证处理结果的准确性等诸多难题。这些亦非本文都能解决的,略谈些要点仅供参考。

模型化项数m和阶数(m,n)的确定:按最佳性原则经数据处理选定m或(m,n)的最小值。通常采用最小范数、最小描述长度(minimaldescriptionlength,MDL)、奇异值分解(singularvaluedecomposition,SVD)判别等方法。其中MDL定阶数方法基于高斯性和穷举搜索,具有波动性极小值,不适用于较小数据量。推荐采用SVD判别方法,基本算法如下:

对于线性化模型式(2)运用基于SVD求矩阵广义逆的极小模最小二乘(SVD-LS)拟合算法[7]。为便于理解,将式(2)写成矩阵形式Ax=b(b表示样本数据x(t);x表示系数矩阵A由ck(t)构成)。对回归矩阵A作奇异值分解[5,6]:

式中,U和V分别为左和右奇异矩阵;m和n分别为A的行数和列数;σ1≥σ2≥…≥σs为A的奇异值。其中大于σr者对应于显著性变量,且σr+1/σ1≤0.05或0.1即可判定阶数为r;而σr+1,…,σS均对应着噪声或随机误差。如此判定阶数较为稳定、可靠。

2)时变β分布统示法的应用:十多年前笔者对云南滇池某种水质指标两年的四季样本数据剔除异常数据后,做β分布分段拟合(静态),估计结果β分布参数有多处较剧烈变动。后改进采用BAMA处理方法(动态),估计β分布参数呈平稳的缓变性。此即时变β分布统示法的实际应用示例。另,由于其样本数据虽剔除异常数据后仍不时有所起伏,再改进为运用中位值滤波式BAMA处理方法将更佳。

时变β分布统示法的具体BAMA处理方法,即将样本总数据量N按n<N/5分段,在数据量为n分段内以本系列论文(三)中述及的β分布矩估计方法为BA[3],再予以移动进行MA处理的方法。要点在于:

(1)简捷识别缓时变性:尽管有拟合优度检验、熵差异识别等较复杂的方法常用于概率分布检验。然而这里所需的是识别各分段β分布参数(a,b,g,h)差异性的简捷方法。既然各分段的偏态-峰态系数均需估计,建议运用偏态-峰态系数差异性的识别概率分布不同的近似方法。这样兼有识别对称性而运用对称性优先原则与识别随机性分布差异性之优越性和简捷性。具体处理方法如下:

利用文献[5]中式(5.512)所得偏态-峰态系数估计的置信界限识别对称性与随机性分布差异性,即2个以上相邻分段的偏态-峰态系数估计超出此范围就视为有差异。对β分布参数(a,b,g,h)需做缓时变性处理。

(2)若β分布无时变性,在分段中按样本前四阶矩估计β分布参数(a,b,g,h)时,其中(a,b)=(xmin-N,xmax-N)应恒按样本整体N数据中的最小值和最大值估计。这样准确性、可靠性更高。同时,可用各分段β分布参数(a,b,g,h)估计的均值作为其估计结果进行后续处理。显然这样可弥补按全样本数据一次估计β分布参数(a,b,g,h)的不足。

(3)BA求解β分布参数(a,b,g,h)算法探讨

对称性优先原则:按识别对称性。

求解β分布参数(a,b,g,h)算法:现代BA多强调用基于全局优化随机搜索的智能化算法,求解β分布参数(a,b,g,h),其结果具有随机性。样本数据量较大时,建议运用(2)所述具有平均效果的处理方法,以提高准确性和可靠性。若样本数据量不大,(a,b)不宜按数据中的最小值和最大值估计。建议按(μx,σx,γ3,γ4)与(a,b,g,h)关系的联立方程求解β分布参数。

3)时变粒子滤波(PF)的应用:文献[10]中已阐述卡尔曼滤波(KF)作移动平均式处理的方法,并得出具有抑制随机误差即噪声的较显著效果;可适应缓时变性;具有平均效果等优点。然而,除计算速度略低外,还受制于高斯性。在现代数据处理中要求不能受制于线性和高斯性,显然可应用对粒子滤波(PF)作移动平均式处理的方法,即缓时变PF方法,取得上述优点。

对PF作BAMA处理的具体方法类同文献[10]中的3.(3)对KF的移动平均算法。首先,将分段中的BA:KF替换为PF,即对动态测试中已分离出的随机变动部分整体N个数据做适当分段,将分段中的n个数据作PF(含其各种改进算法);然后,作有d重叠的相邻分段PF,直至N个数据终端。这样具有每个d重叠的PF结果均取其均值的优点(对d应作适当地偏大选择),可取得抑制噪声约30%以上的效果。

3常量测量的BAMA处理方法

多数据、长过程的常量测量有缓变,宜用BAMA处理,即使无缓变也具有平均效果。

强调:对于测量误差只限于随机变量型,不涉及平稳过程型,否则将同动态测试中随机变化部分一样处理,可归之于动态测试类。具体算法以分布仿真数据示例述之。

示例:采用正偏态分布仿真数据作为长过程常量测量数据,如图3所示。整体数据N=200,取分段数据n=100,重叠数d=50(n,d可有更佳选择),进行BAMA处理,处理结果如表1所示。对长过程常量测量数据的BAMA处理结果表明:经验证分段的相邻均值之间并无差异,即无时变性;BAMA处理方法优于一般的整体数据处理。对BAMA参数选择合适可取得更佳平均效果。还需指出,该例对重叠部分尚未作处理,显然还会有其平均效应。 图3正偏态分布仿真数据作为长过程常量测量数据  下载原图 表1长过程常量测量数据BAMA处理方法分析    下载原表

4结语

不论何种基本算法均可运用移动平均式处理方法,可体现缓时变特性,得到平均效应,其重点在于合理设置参数(n,d)。

当前网址:http://www.paperaa.com/newss/12712.html

 
你可能喜欢的: