论文回顾 | Perspectives on nonstationary process monitoring in the era of industrial AI
今天读完了赵春晖老师的论文《Perspectives on nonstationary process monitoring in the era of industrial artificial intelligence》,在这里做一下简单的回顾,复习一下所学到的知识。
这篇文章是一篇工业领域非平稳过程检测的综述,对非平稳过程及其特性以及不同监控方式做了详细的回顾和介绍,并指明了未来有前途的研究方向。
1. 背景
随着物联网、人工智能和云计算等技术的迅速发展,以自动化为主要特征的工业3.0正在逐渐地向以智能化为主要特征的工业4.0发展。物联网技术的兴起让大量精密传感器广泛安装在了各种工业设备上,人们利用这些传感器可以非常方便地获取、传输各种大量地数据,有助于人们更加深入地了解、分析工业生产过程。但在另一方面,未经过加工处理的原始数据有着数据价值密度低的特点,而AI技术则给我们提供了很好的工具,去提炼和分析大尺度混合类型数据。而云计算又帮助人们降低了训练模型的成本。另外,文章中也提到,由于实际工业过程中,系统的具体模型难以获得,因此不要求确切模型的数据驱动方式更加适合工业过程监控,也因此获得了广泛的应用。
复杂工业环境下的智能化过程监控是工业人工智能的重要研究方向。它主要包括故障检测、故障隔离和故障识别,由于故障隔离和故障识别又被统称为故障诊断,因此,整个过程我们简称为FDD(fault detection and fault diagnosis )。故障检测是对系统进行评估,判断系统是否出现故障,故障诊断则是利用现有过程参数,结合已知结构特征和历史记录,对可能出现或者已经出现的故障进行预测、分析和判断,确定故障发生的位置、时间和幅度。同时,又根据有没有过程恢复阶段将FDD分为开环FDD和闭环FDD,过程恢复是一种基于FDD结果的反馈。具体图示如下:

然而,大多数过程监测领域的研究都是基于平稳过程的,这意味着过程中时间序列的均值和方差不会随着时间的变化而变化。但是在工业系统中,非平稳是一个重要的特点,这也就意味着应用于平稳过程的监控方式不再适用于工业系统,因此非平稳过程监测的研究也受到了越来越多的人的重视。这篇论文就是在这样的背景下,回顾分析了先前的多种非平稳过程监测的研究。
2. 非平稳过程的特点和监测难点
2.1 非平稳过程
在开始后面的介绍前,首先先要了解平稳过程和非平稳过程。平稳过程是指一个过程的统计学特点不会随着时间的变化而变化,它的均值、方差等特征都是一个常数。而相对的,非平稳过程的统计学特点会随着时间变化而变化。在工业生产过程中,由于明显的非平稳特性,使得过程监测更为困难,因为某些参数正常的过程阶段变化与故障造成的变化非常相似,这会导致某些正常变化可能会被看成故障,造成错误警报或者某些故障被看作正常变化,不产生警报。
此外,在非平稳过程中,故障的表现是复杂且多样的,这就意味着同样的故障类型在不同的工作条件下会有不同的表现,这也使得故障的检测和诊断更加困难。
2.2 其他和非平稳相关的特征
由于工作条件的频繁切换,一些常见的问题在非平稳过程中会显得比在平稳过程中更加严重,文中列举了非线性、非高斯性、动态特性和变量分布四个方面。
1. 非线性
线性假设是指在任意时刻 都存在一个列向量
,可以使得如下等式恒成立。
其中, 是测量样本。
在非平稳过程中,由于操作条件的频繁切换加剧了变量间的非线性关系,因此,这个线性假设也就不存在了。
2. 非高斯性
大部分情况下,因为高斯分布更便于计算,我们往往假设一组数据符合高斯分布,但非平稳过程中的数据往往是多模态的,并且不符合高斯分布。
3. 动态特性
动态特性意味着非平稳过程中的数据是时间序列相关的,它们并不满足IID假设,但之间相互影响。
动态特性可以用如下公式表示:
其中, 是在
时刻下的过程变量向量,
是每个变量的回归系数,
是残差。
4. 变量分布
在传统的数据分析任务中,为了确保模型的精度和可靠性,我们一般都会假设新的测试样本的目标域和训练样本
用于学习的源域具有相同的分布,但是在非平稳过程中,由于工作条件的频繁切换,它们在边缘分布
不同时,分布并不相同。同时考虑上标签空间
作为样本
的映射函数的输出,这个变化可以表示为:
训练样本和测试样本在边缘分布和条件分布上的不同导致了变量分布的不同,使得模型在非平稳过程中错误匹配。
3. 数据驱动的传统过程监测方法
由于数据驱动不需要精准的系统模型并且有着强大的建模能力,逐渐成为了过程监测方法的主流。
基于统计学的机器学习方法,例如主成分分析(PCA)、偏最小二乘(PLS)、独立成分分析(ICA)、慢特征分析和线性判别分析等方法被广泛用于过程监测。它们可以对高维数据进行降维,消除变量之间的共线性并提炼关键特征和信息,构建过程监测的统计性能指标。但是这些方法大多是基于对数据的IID假设的线性模型,由于先前提到过的诸多问题,这些方法难以处理复杂的过程控制。
对比传统机器学习方法,一些非线性模型被用来弥补线性模型的缺陷,比如kernel PCA和主曲线等。神经网络也被用来进行过程监测,因为它具有强大的非线性表达能力。但是大多数神经网络有需要依靠大量的数据来保证它较好的模型表达能力,同时也需要训练集和测试集的分布相同,这同样也在先前提高过,在生产实际过程中难以保证。
因此,讨论到这,我们可以看到,数据驱动的传统方法在处理实际过程监测问题上有很多缺陷难以弥补,因此就需要继续讨论我们下面要提到的诸多方法。
4. 非平稳工业过程监测方法
上述方法,都仅考虑了单一操作模式,但实际上的工业生产过程,往往会不断地在不同工作条件下切换,这给过程监测带来了诸多困难,特别是难以区分正常的条件切换和因为错误导致的切换。这一部分将会对非平稳工业过程监测方法进行介绍。
4.1 非平稳时间序列分析方法
非平稳时间序列分析的核心思想是将它们转化为平稳序列。在这方面,小波变换、短时傅里叶变换和Wigner-Ville分布等信号处理方法被广泛应用。此外,文章中还提到了一种经验模态分解方法,可以适用于任何类型的信号分解。这些方法都可以有效地处理具有非平稳性质的振动信号,但都局限于单一信号分析而不考虑变量之间的相关性。
除此之外,我们还可以通过计算原始信号的差值的方式来消除非平稳性。例如ARIMA模型。但是插值处理会使得数据中例如动态信息等信息丢失,会对过程监测带来影响。
另外一些学者还发展出了自适应策略来解决非平稳问题。其核心思想是通过持续地更新预定义模型来捕捉非平稳变化。具有代表性的方法有递归PCA、递归指数慢特征分析、JITL算法等。但是这些自适应策略难以有效地区分正常变换和错误。
4.2 长期常数关系分析法
长期常数关系分析法主要包括共积分分析(CA)和平稳子空间分析(SSA)。
如果一组非平稳变量的积分顺序是相同的并且拥有相同的趋势,那么它们的线性组合就可能是平稳的。CA的目标就是寻找出这组线性组合,来反映非平稳变量之间的长期稳定关系。
SSA的目的则是从观察到的混合非平稳时间序列中分离出平稳源和非平稳源。
4.3 时驱多模态分析方式
多模态分析就是将过程按照不同条件分成多种模态,并且用不同模型分别针对相应模态进行分析。这种方式的重点是如何对过程进行划分。各种常见的聚类方法如K-means等被广泛运用。
时驱多模态划分就是将非平稳过程在时间方向上划分成不同模态,在相同模态里,变量相关性相同而在不同模态里具有很大差别。
对于时间驱动的多模态分析方法,很难确定当前样本属于哪种模态,应该采用哪种模态来进行在线应用的监控统计数据的计算。一般来说,尝试不同的模型是为了检查哪些模型最适合当前的样本。但这并不方便,并且可能会导致错误的模式识别结果。
4.4 条件驱动多模态分析方式
时驱的多模态分析是非常复杂的,因为总会有一些意料之外的操作切换在随机的情况下发生,因此文章中又提到了条件驱动下的多模态分析方法。
条件驱动多模态分析方法基于以下几点认知:
1. 虽然过程特征在时间维度上的变换是无限的,但其在操作条件范围内的变化是有限的。
2. 虽然操作条件会随着时间发生变化,但相同的条件模态下潜在变量相关性是相似的。
3. 过程根据固有的过程相关性随条件变化发生的变化可以被分成几种不同的条件模态。
基于以上几点认知,我们就可以使用一种全新的数据分析方法用来准备建模数据。如下图所示:

操作条件的变化可以反应过程特性的变化,而过程特性的变化可以用来作为重组数据数组的指示器。显示时间上非平稳变化的数据被转化成条件轴上一种规律性的数据分析单元,在这里我们称其为条件切片。相同的条件切片里,过程特性是相似的,对不同切片的过程特性的差异性进行评估可以将其聚类成不同的模态。最终,整个过程会被分成几个不同的条件模态,之后我们便可以利用一些常见的方法对每个条件模态进行建模。条件模态的新概念解决了工作条件切换的时间无序和在线判断当前模态的困难。
在上述提到的全部方法中,条件驱动多模态分析在文章中被认为是一种非常有前途并有可能在未来被广泛应用的一种方法。时间序列和常数关系分析法对过程数据有着严格的要求,不适合大尺度的非平稳过程,而时间驱动方法又因为操作条件在时间上频繁随机地切换而非常复杂。
本文来自网络,不代表协通编程立场,如若转载,请注明出处:https://net2asp.com/800e731737.html
