您当前的位置:首页 >> 技术 >> 注塑 » 正文
基于TCN-BiGRU-SE两阶段特征提取与多特征融合的注塑质量预测方法
  浏览次数:11303  发布时间:2025年05月16日 15:29:57
[导读] 注塑成型过程中,塑件尺寸易受多种复杂因素的耦合影响。为提高预测精度,提出一种基于时间卷积网络(TCN)-双向门控循环单元(BiGRU)-SE注意力机制(SE)的注塑质量预测方法(TCN-BiGRU-SE)。采用TCN-BiGRU-SE网络提取时序数据的深层特征,表征注塑过程中的动态变化;提取注射和保压阶段的定量特征值及无量纲值,堆叠形成三维矩阵,通过卷积神经网络(CNN)进行降维,捕捉关键阶段的变化趋势。通过融合高频数据、统计特征与机器状态信息,构建了一个端到端的深度预测模型,以实现对塑件质量的精确预测。
邓晓强1战韬阳1项薇1林文文1余军合1郑志鹏1
1.宁波大学机械工程与力学学院,宁波,315211

摘要:注塑成型过程中,塑件尺寸易受多种复杂因素的耦合影响。为提高预测精度,提出一种基于时间卷积网络(TCN)-双向门控循环单元(BiGRU)-SE注意力机制(SE)的注塑质量预测方法(TCN-BiGRU-SE)。采用TCN-BiGRU-SE网络提取时序数据的深层特征,表征注塑过程中的动态变化;提取注射和保压阶段的定量特征值及无量纲值,堆叠形成三维矩阵,通过卷积神经网络(CNN)进行降维,捕捉关键阶段的变化趋势。通过融合高频数据、统计特征与机器状态信息,构建了一个端到端的深度预测模型,以实现对塑件质量的精确预测。在富士康注塑成型数据集上进行了对比、消融实验和稳定性检验,并在三类注塑小样本实验数据集上进行了泛化性检验,结果表明,模型在多项评价指标上优于其他方法,具有良好的鲁棒性和泛化能力。

关键词:注塑成型;质量预测;时序数据;多特征融合;深度学习
 
引言

塑成型是塑料制品制造中最常见的工艺之一,全球约40%的塑料制品通过注塑机加工完成[1]。通过更换模具,注塑机能够生产出各种复杂结构的制品,广泛应用于汽车、家电、航空等领域。注塑件的质量直接关系到产品的整体性能和使用寿命,注塑成型过程中,各种工艺参数、环境和人工操作等因素往往相互耦合,呈现出显著的非线性和复杂性。这些因素的波动可能导致成品尺寸偏差、形状不稳定等问题,严重影响产品质量。目前,产品质量检测主要依赖于生产完成后的人工抽样检测。这种事后检测方式存在滞后性,难以在生产过程中发现潜在的质量问题,导致企业生产成本增加[2]。因此,对注塑件质量进行在线监测至关重要。

现代注塑机通常配备了大量传感器,能够实时监测生产过程中的关键工艺参数,记录注塑过程数据,为数据驱动的预测模型奠定了基础。目前,已有研究使用机器学习的方法构建注塑质量预测模型。刘永兴等[3]利用轻量级梯度提升机 (LightGradientBoostingMachine,LightGBM)建立注塑成形尺寸预测模型,并通过加权修正方法提高了对超规尺寸的预测精度。Lockner等[4]使用六种机器学习算法的集合进行特征选择,成功克服了单一模型的局限性。陈昱等[5]采用三段式特征选择方法,通过特征重要度排序筛选关键特征,再使用最大信息系数(MaximumInformationCoefficient,MIC)评估特征相关性,最后结合APRIORI算法挖掘与注塑产品质量最相关的特征输入分类器,有效提升了注塑产品异常检测的准确性。然而,上述研究主要依赖于离散的统计值作为特征,未能充分考虑时间依赖性和各阶段工艺参数的动态交互,在处理高维和动态数据时存在一定的局限性。

注塑成型过程的非线性动态特性和时序依赖性对质量预测提出了更高的要求。工艺参数如熔体温度、注射压力和螺杆速度等随时间动态变化,其时序特征对制品质量有着重要影响。如果仅使用统计特征或静态参数,忽略时序特征,可能无法准确捕捉工艺过程中的动态变化,导致预测精度下降[6]。深度学习在处理多维时序数据方面展现出显著优势。不同于传统机器学习,深度学习模型能够自动从原始数据中提取多层次特征,在捕捉复杂的时序依赖和非线性关系时表现优异[7]。研究表明,利用深度学习模型对时序数据进行建模,可以更有效地捕捉工艺参数的动态关系,提高质量预测的准确性。例如,Zhou等[8]提出了一种基于长短期记忆网络(LongShort-TermMemoryNetwork,LSTM)的工具剩余寿命预测方法,通过Hilbert-Huang变换提取磨损特征,捕捉变工况下的复杂时空关系,实现了高精度的寿命预测,并表现出优异的适应性。Liang等[9]利用CNN和LSTM的结合,开发了一种电能质量预测模型,能够提取时序数据的局部和全局特征,实现了对主动配电网电能质量稳态指标的高精度预测。针对注塑质量预测,Muaz等[10]提出了一种基于多任务编码-解码(MED)的深度学习模型,通过融合时间序列和非时间序列数据,利用注意力机制显著提升了质量特性预测精度,其平均均方误差较基准模型降低了一个数量级。这些研究表明,深度学习在捕捉复杂时序特征及其动态交互方面具有显著优势,为复杂工业场景中的质量预测提供了有效解决方案。

此外,借助特征融合方法,深度学习能将不同来源的特征进行有效整合,进一步提升模型的预测性能。Xie等[11]提出了一种基于多传感器融合和CNN的机械故障诊断方法,通过主成分分析 (PrincipalComponentAnalysis,PCA),将多传感器信号融合为RGB图像,用于诊断任务,显著提高了故障分类的准确性。Duan等[12]提出了一种基于多信息融合轴注意力机制(MFA)和改进的多尺度卷积神经网络(IMSCNN)的滚动轴承故障诊断方法,提高了小样本和噪声环境下的特征提取能力,在复杂工况和强噪声条件下具备更高的分类准确性和抗干扰能力。Ma等[13]提出了一种基于多传感器和多层信息融合的压缩机叶片裂纹检测方法,利用循环平稳性相关度(CyclicallyDependentCorrelationStability,CDCS)进行数据融合,并结合多尺度注意力模块和双分支1D-CNN进行特征提取与融合,在复杂工况下显著提升了裂纹检测的准确性。钱庆杰[14]提出了一种基于双层双向门控循环单元网络(DL-BiGRU)的多特征融合模型,用于注塑件尺寸预测。该模型融合了高频时序特征、瞬时特征和成型机状态特征,显著提升了预测精度和稳定性。以上研究证实了深度学习结合特征融合的有效性。

已有研究表明,注射和保压阶段对注塑件质量有显著影响。Chen等[15]提出了一种基于拉杆伸长信号的质量监控系统,通过调整注射速度、V/P切换点和保压压力来提高注塑件的质量稳定性,发现注射和保压阶段对注塑件质量影响较大。LÓPEZ等[16]通过设计实验方法研究了注塑参数对复杂零件重量质量的影响,实验结果表明,保压时间、保压压力和注射温度显著影响零件重量。因此,提取注射和保压阶段的统计特征作为关键补充特征,有助于提升多特征融合模型的预测精度。

综上所述,深度学习模型对回归预测问题存在一定优势。考虑到深度学习模型对输入特征有着较高的质量要求,不同于以往相关特征工程研究中的高频时序特征、统计特征、状态特征的简单拼接融合思路,为了更高效捕捉关键注塑过程中复杂的动态变化影响,本文提出了一种基于TCN-BiGRU-SE的注塑质量预测模型,引入两阶段特征提取的多源特征融合思路,第一阶段从高频传感器数据、注射和保压阶段统计特征及机器状态信息中构建高质量输入;第二阶段分别对输入数据进行深度特征提取,保留每类数据的独特信息;然后通过特征融合输入非线性映射层进行回归预测。为系统全面地验证方法的有效性,本文在富士康成型数据集上进行了模型性能对比和稳定性检验,此外,设计两类消融实验分别验证特征融合策略和各网络层对提升模型性能的作用,并扩展到多个小样本实验数据集上进行泛化性检验。这些系列实验均证实该方法在多源数据融合和时序特征建模中的优势,模型具有较强的稳定性和广泛的适应性。

1 注塑过程分析

1.1注塑过程基本原理

注塑成型是一种高效的塑料加工工艺,通常通过注塑机完成。图1展示了注塑机的关键结构。注塑机主要由料斗、螺杆、加热带、喷嘴、模具等部件组成,注塑机通过这些部件实现塑料的加热、熔融、注射、冷却及制品脱模等完整的成型过程。注塑成型的工作原理可以分为以下几个步骤。首先,具有热塑性的塑料颗粒从料斗进入螺杆系统,螺杆在加热带的作用下不断加热塑料,使其逐渐熔融。接着,螺杆通过旋转和轴向前移将熔融状态的塑料推送至喷嘴,在高压的作用下,从喷嘴注入模具,逐渐填充模腔。随后,熔融塑料在模具内逐渐冷却固化,形成与模具型腔一致的塑料制品。冷却完成后,模具打开,成型的制品通过机械装置或顶针从模具中取出,成品脱模,重复下一个注塑循环。整个注塑成型过程实现了高效的制造。

图1 拷贝

1.2数据来源及特征分析

1.2.1数据来源

数据来源于第四届工业大数据竞赛注塑成型工艺虚拟测量,该数据集由富士康工业互联网股份有限公司提供。本文将对注塑成型过程中的产生的数据及特征进行具体分析。

现代注塑机通常会在模具内部安装多个传感器,以实时监测生产过程中的关键工艺参数。这些传感器通常具有0.5%~1%的测量精度,能够准确测量模内压力、温度等信息,并记录大量的生产过程数据。具体可分为以下三类:
(1)高频数据、(2)机器状态、(3)成型产品的质量(标签)。不同类型的部分特征说明如表1所示。机器状态数据通常反映设备的运行效率和生产周期中的关键节点,帮助分析生产过程是否顺畅并检测潜在的设备故障,值是离散的。质量标签(如尺寸、重量等)则直接体现了成品的精度和质量,是评估注塑工艺好坏的核心标准,值是离散的。高频数据反映工艺参数的实时变化情况,一般由高频传感器通过一定频率进行采集,值是连续且高维的时间序列。

虽然机器状态等非时间序列的数据在质量建模中也能提供较好的准确性,但它们无法捕捉生产周期内的动态变化。生产过程中的微小波动常常对成品的最终质量产生深远影响,忽视这些动态可能导致模型错失关键信息,从而影响预测的精度。因此,深入挖掘和分析高频数据,能构建更为精准的质量预测模型,优化生产过程,提升产品质量和生产稳定性。

表1 拷贝 2

1.2.2传感器高频特征分析

在注塑成型过程中,高频传感器记录了聚合物从固态到熔融状态的动态转变。压力和温度曲线反映了熔体从喷嘴注入模腔的全过程,对于模型预测微小偏差的质量标签至关重要。注塑数据集提供了产品三个关键部位的尺寸及上下偏差,见表2。随机抽取一个合格产品和不合格产品,绘制温度、压力随工序和时间变化的过程,对注塑过程进行具体分析,如图2所示。图中,P是模内压力,T是模内温度,D为实际螺杆位置。

图2 拷贝

点A到点B为合模阶段,此时螺杆位置和模腔内压力、温度保持不变,动模和定模逐步合拢直至完全闭合;点B到点C为中子进入阶段,中子进入模具内并定位,以形成复杂的产品几何结构,螺杆位置开始移动,模腔内压力、温度逐渐上升;点C到点D为注射填充阶段,螺杆按照给定速度移动,熔体由喷嘴迅速进入浇口并填充模腔,模腔内压力传感器读数开始变化,由于熔体接触模具壁,温度传感器读数迅速升高,达到最大值;点D到点E为保压阶段,螺杆以给定速度缓慢移动,模内压力在前半段呈现先升后降再升的趋势,这是由于熔融塑料快速填充模具型腔,当型腔接近充满时,流动速度减慢,压力有所下降,随着塑料开始冷却和收缩,模具内需要增加保压压力来补偿收缩和变形,确保产品的形状和尺寸稳定,之后产品逐渐成型,当保压压力达到最大设定值后,螺杆停止移动直到保压结束,模内压力开始下降,由于长时间的保压过程,熔体逐渐冷却导致膜内温度下降;点E到点F为熔胶阶段,螺杆逐渐回退并开始新一轮熔融塑料的准备,此时模腔内压力、温度迅速下降;点F到点G为后松退阶段,螺杆回退到初始位置,释放压力,为下一次注塑循环做准备;点G到点H为冷却阶段,模腔内的塑料冷却固化,形成最终产品,模腔内压力逐渐下降;点H到点I为中子返回阶段,冷却完成后中子回到初始位置;点I之后为开模-顶出阶段,模具打开,顶出系统将塑料制品顶出模腔,完成一个注塑循环。
通过对比合格与不合格产品的压力与温度曲线,可以明显看出合格产品和不合格产品的压力、温度差异。在注射和保压阶段,合格产品的模内压力变化曲线更加稳定,模内压力升降较为平稳,温度曲线呈均匀的降温过程,有助于材料的均匀冷却,确保成型的精度。不合格产品的压力则波动较大,而模内压力的异常变化可能导致材料流动不均,进而影响成品尺寸的稳定性。除注射、保压阶段外的其余动作阶段的压力则无明显差异。抽取合格产品的3个部位尺寸分别为300.026mm、199.962mm、199.979mm,而不合格产品3个部位的尺寸分别为300.3mm、199.915mm、199.082mm,两者差值分别为-0.274mm、0.047mm、0.897mm,表明注射、保压阶段对成品质量有直接影响。

表2 拷贝
 
图3 拷贝 
图3基于TCN-BiGRU-SE多特征融合的注塑质量预测模型

全动作阶段的时序特征提取有助于捕捉生产
过程中的动态变化,并准确反映整个生产周期的质量变化。而以上分析表明注射和保压阶段对产品质量的影响显著,且两阶段加工时间约占整个注塑循环的40%。因此,提取注射、保压阶段的统计特征作为补充特征,可提升模型对细微质量差异的敏感性,使模型对微小差异标签的预测更为准确。

2 基于TCN-BiGRU-SE的注塑质量预测模型

为了满足注塑质量预测任务对高精度的要求,提出了一种基于时间卷积网络(Temporal ConvolutionalNetwork,TCN)-双向门控循环单元 (BidirectionalGatedRecurrentUnit,BiGRU)-SE注意力机制(Squeeze-and-Excitation,SE)的注塑质量预测模型(TCN-BiGRU-SE)。如图3所示,该模型主要由三部分组成:第一阶段特征提取、第二阶段深度特征提取以及输出层。第一阶段的特征提取主要由高频数据抽样、统计特征提取、机器状态数据清洗构成。第二阶段通过深度学习模型对各类特征进行深入提取,之后,将不同来源的特征进行融合。最终,深度融合特征经过多层感知机(MultilayerPerceptron,MLP)进行非线性映射,得到预测输出。

2.1第一阶段特征提取

在第一阶段,针对三种不同来源的数据进行相应的预处理,为第二阶段的深度特征提取提供高质量的特征输入。

(1)高频传感器时序特征:由于传感器采集的数据是长时间序列,将其完整输入模型处理会导致计算复杂度过高。因此,采取了基于时间窗口的抽样方法,选取128个关键数据点作为样本,以保留生产过程中的动态变化同时减少计算量。

(2)统计特征:针对注射和保压这两个关键阶段,提取统计特征。除了定量特征值(最大值、最小值、均方根、平均值和标准差)外,还提取了无量纲指标(峰度因子、偏度因子、波形因子、冲量因子和间隙因子)。与传统特征拼接方式不同,本研究将定量统计特征与无量纲指标进行通道拼接,构建三维特征矩阵,以便通过CNN进行高效的降维处理。

(3)成型机状态特征:状态特征为离散值,只需进行常规的数据清洗处理,如异常值剔除和缺失值填补,以确保数据质量。

2.2第二阶段特征提取

在第二阶段,通过构建多种深度特征提取模型,对第一阶段预处理后的数据进行进一步的特征提取。

(1)时序特征由TCN-BiGRU-SE模块提取。首先,时序数据输入TCN。TCN由两种卷积形式组合:因果卷积和膨胀卷积。通过因果卷积保证模型在预测时仅依赖过去信息,避免未来信息干扰;同时,膨胀卷积扩大感受野,使其能够有效捕捉长时间的依赖特征,使每个时序特征能够完整表达独特的时序关系。接着,TCN提取的特征进一步输入至BiGRU,通过双向处理路径同时捕捉前向和后向的依赖信息,增强对复杂时序特征的理解与表达。随后,BiGRU提取的特征传递至SE注意力机制,SE注意力机制通过全局加权对各通道特征进行自适应调整,突出关键通道特征,优化特征表示的有效性,使模型能学习到最重要的特征。最后,将提取的时序特征通过一层全连接层(FullyConnected,FC)进行非线性降维,确保高频传感器时序特征中的关键动态变化被精准捕捉,同时便于后续的特征融合操作。

(2)统计特征的提取主要通过CNN和SE注意力机制进行处理。由于不涉及时序信息,且两类统计特征在通道上堆叠形成三维矩阵,因此使用简单的CNN即可完成特征提取操作。首先,特征经过一维卷积层(1DConv),高效提取局部模式并减少维度,确保计算效率。接着,特征进入SE注意力机制,通过自适应调整通道权重,增强关键特征的表达。随后,再使用一层1DConv细化局部模式的提取,增强对特征的建模表现。最后,特征被展平并传递至FC2层进行处理。此流程避免了特征直接展平并通过全连接层降维带来的高计算开销,同时保留统计特征的核心信息。

(3)成型机状态特征由于其离散性和低维性,采用两层FC(FC3,4)进行降维,随后传递至特征融合阶段。

各深度学习模型的机制及介绍将在后文阐述。此外,模型将采用Huber损失函数,以兼顾小误差下的精确拟合和大误差下的鲁棒性。
2.2.1TCN网络

TCN[17]是一种针对序列数据设计的神经网络结构,主要特点是结合了因果卷积和膨胀卷积。TCN通过因果卷积确保在预测当前值时,只依赖于过去的信息,避免未来信息的干扰。通过膨胀卷积使网络能够在不显著增加参数的情况下,扩大其感受野,捕捉更长距离的数据依赖,有效处理长序列数据。TCN层的计算公式如下:

公式1 拷贝
 
式中,xt表示输入序列,yt表示输出序列,W为卷积核的权重,b为偏置项,K是卷积核的大小,d代表膨胀因子,ReLU是非线性激活函数。

TCN通过引入随机失活(Dropout)和权重归一化(WeightNorm)技术,提高了模型的稳定性与泛化能力。Dropout随机丢弃神经元,以减少对特定数据点的依赖,防止过拟合;WeightNorm则解决梯度爆炸问题,加速训练过程。如图4所示,TCN由多层残差连接的膨胀卷积层组成,每层的膨胀因子逐步增大,扩展感受野,从而捕捉更长的时间依赖信息。残差连接用于缓解深层网络的梯度消失问题,确保信息跨层传递,并加速模型的收敛。

图4 拷贝 
图 4 TCN网络

2.2.2 BiGRU网络

GRU[18]是一种高效的循环神经网络,通过更新门和重置门保留长依赖信息,同时降低计算复杂度。BiGRU进一步增强了模型对正反向依赖关系的捕捉能力,通过同时处理正向和反向的输入序列,能够有效地获取序列的前向和后向信息,如图5所示。通过将正向和反向GRU单元的输出拼接,BiGRU能够在每个时间步上综合前后文信息,从而提高模型对复杂时序特征的建模能力。其工作机制可表示为:

公式2 拷贝
 
公式3 拷贝
 
公式4 拷贝

式中,ht表示正向GRU在时间步t的隐藏状态,ht表示反向GRU在时间步t的隐藏状态,xt为输入序列在时间步t的输入,ht为正向和反向隐藏状态的拼接结果。
 
2.2.3SE注意力机制

SE注意力机制[19]通过对卷积网络的特征图进行通道的重标定,有效提升了模型对关键特征的捕捉能力。如图6所示,该机制通过全局平均池化操作,将每个通道的空间信息压缩为通道描述符z,随后,利用两层全连接网络对zc进行非线性变换:第一层通过ReLU函数降维,第二层通过Sigmoid函数恢复维度并生成每个通道的权重。通过这一机制,SE自适应地对各通道的重要性进行加权,从而增强模型对显著特征的响应能力。其数学计算公式如下:

公式五 6
 
式中,xi,j,c表示特征图在通道位置(i,j)的处的值,H、W是特征图的高和宽;W₁和W₂是全连接层的权重矩阵,b₁、b₂为偏置项,σ表示Sigmoid函数,ReLU为非线性激活函数。

2.2.4Huber损失函数

Huber损失函数特别适用于标签值差距较小的回归任务。在注塑工艺中,产品质量的变化范围通常较小,要求模型需要有较高的预测精度。Huber损失函数在误差较小时采用平方损失,以确保模型对小误差的精细拟合;当误差较大时,损失函数切换为线性损失形式,从从而降低异常值的影响。其计算公式为:

公式7

式中,y为真实值,y为预测值,δ为阈值。

2.3多特征融合与输出层

在完成时序特征、统计特征以及成型机状态特征的深度提取后,通过拼接操作融合不同类型特征的深度表征:

图5 拷贝
图 5 BiGRU结构

图6 拷贝
图 6 SE注意力机制结构

式中,X、Y、Z为提取的时序、统计和成型机状态特征。

公式8 拷贝

在输出层中,融合后的深度特征矩阵传递到MLP,通过若干全连接层结合ReLU激活函数进行非线性映射,最终生成预测结果。

3 实验结果与分析

为验证所提出方法的有效性,本节将通过实验进行系统评估。主要内容为所用数据集介绍、超参数设置、模型的性能对比与稳定性分析、消融实验以及泛化性检验,全面评估模型的表现。

3.1数据集介绍

研究使用了两个注塑数据集,分别用于模型验证和泛化性检验。

模型验证使用第四届工业大数据竞赛的注塑成型数据集,共16600模次的数据记录。该数据集包含多种高频传感器采集的1562~1672维时序信息、机器状态数据和质量标签。数据集按照8:2的比例划分为训练集和测试集,用于模型训练和评估。

泛化性检验使用来自Bogedale等[20]提供的注塑实验数据。实验在德国Allrounder520E1500-800注塑机上进行,采用人为干扰变量(如料筒温度、模具温度、注射流量等)诱导不同的过程状态,以模拟实际的工业生产环境。实验共收集了三类不同产品的注塑数据,用于评估模型在多变生产条件下的泛化能力。其中一个为外壳产品 (1167模次),其余为堆叠箱产品(829、1332模次),两个堆叠箱数据集是在不同工艺条件下生产的。数据集包含2个(注射流量、注射压力)高频传感器采集的2048维时序信息、机器状态和质量标签。同样以8:2的比例划分为训练集和测试集,用于模型训练和评估。

3.2模型超参数设置

所有程序均基于TensorFlow2.10深度学习框架在Python平台上实现,运行环境为Windows11操作系统,硬件配置包括3.40GHz的IntelCorei7-14700KFCPU、8GB显存的NVIDIAGeForceRTX4060GPU以及32GB的运行内存。采用Adam优化器训练模型,模型的batch_size设置为64,epoch为400,学习率为0.001,损失函数选用Huberloss。超参数优化通过贝叶斯算法完成,具体模型参数设置见表3。
 
3.3模型对比与稳定性检验

3.3.1评价指标

研究以注塑件尺寸为预测目标,属于典型的回归任务。为全面评估模型性能,选择如下3个的评价指标:决定系数(R²)、均方误差(MSE)以及平均绝对误差(MAE),计算公式如下:

公式9 拷贝
 
公式10 拷贝
 
公式11
 
式中,yi为真实值,yi为预测值,y为真实值的均值,n为为样本数。

3.3.2对比实验

为了验证所提出的TCN-BiGRU-SE多特征融合模型在注塑件尺寸预测中的性能,选取常用的传统机器学习模型(支持向量回归(SVR)、极限梯度提升(XGBoost)、LightGBM,以及常见的时序提取模型(MLP、LSTM、GRU、Transformer、CNN-GRU和CNN-LSTM)模型作为对比基准。

表3 拷贝
 
由于传统机器学习模型不能直接提取时序特征,故提取时序特征的统计值(均值、标准差等),使特征粒度统一,并通过相关性系数和多模型平均重要度进行两步特征筛选,选取最重要的12维特征(膜内温度均值、压力标准差等)作为机器学习模型的输入。模型进行多次独立训练和测试,结果取均值。表4展示了各模型在Size1、Size2和Size3的具体预测结果。

表4 拷贝

表4可看出,TCN-BiGRU-SE模型表现优异。所提出的模型在3个尺寸的预测上均取得了最高的R2和最低的MSE、MAE。与表现最好的传统机器学习模型XGBoost相比,所提出模型在Size1、Size2和Size3上的MSE分别降低了20.0%、11.2%和19.3%;与常用时序提取模型GRU对比,分别降低了31.3%、22.4%和13.9%;与一些较为先进的组合模型(CNN-GRU、Transformer等)相比也有所提升。这表明所提出的模型具有良好的预测性能。TCN-BiLSTM-SE与TCN-BiGRU-SE的效果相近,LSTM可以处理可变长输入,在处理复杂时序数据时有优势,但计算成本较高。在资源有限的情况下,TCN-BiGRU-SE是更高效的选择。

所提出的模型预测效果如图7所示。可以看出,预测值曲线与真实值曲线较为吻合,模型具有较高的预测准确性。此外,预测曲线的波动与真实曲线的波动趋势基本一致,表明工艺变动导致的尺寸变化能被模型准确捕捉,验证了模型在处理数据动态变化方面的有效性。

图7(a) 拷贝

图7(b) 拷贝

图7(c) 拷贝
 
图7TCN-BiGRU-SE模型预测效果。
 
3.3.3稳定性检验

深度学习模型由于其复杂的结构和高维参数空间,容易受到随机初始化和数据分布变化等因素的影响,从而导致模型性能在不同训练过程中出现波动。因此,进行稳定性检验是必要的。为了验证本文提出的TCN-BiGRU-SE模型的稳定性,将预测效果较好的一些模型进行了10次独立的训练与测试,绘制箱线图,如图8所示。可看出,所提出的模型的波动范围最小,稳定性最好。
 
3.4消融实验

3.4.1特征融合消融

为了评估不同特征组合对注塑件尺寸预测模型的影响,研究进行了消融实验,测试了统计特征、高频传感器特征和机器状态特征的单独使用及其组合效果。表5展示了不同特征组合对模型预测性能的影响。相比单独使用统计特征时,采用高频+统计+机器状态特征的组合后,Sizel的MSE和MAE分别降低了91.9%和59.2%,Size2的MSE和MAE分别减少了81.1%和48.7%,Size3的MSE和MAE分别降低了76.7%和41.8%。与任意两种特征组合相比,三特征融合在MSE和MAE上的性能表现均显著优越。结果表明,多特征融合显著提升了模型的预测性能,有效降低了预测误差。
 
3.4.2模块消融

为了验证所提出的TCN-BiGRU-SE多特征融合模型中各模块的有效性,需要进行模块消融实验。在消融实验中,分别测试了移除或替换TCN、BiGRU和SE模块后的模型性能,以评估每个模块的独立贡献。对不同消融模型进行了多次独立的训练和测试,结果取均值,如表6所示。在Sizel上,TCN-BiGRU相比仅使用BiGRU进行时序特征提取时,MSE降低了4.6%,表明TCN模块在捕捉长时间依赖关系上发挥了重要作用。TCN通过卷积操作,能够更高效地提取全局时序特征。当增加SE注意力后,MSE有一定幅度的下降。这表明SE注意力通过自适应调整各特征通道的权重,能够增强重要特征的表达,削弱无关特征,从而进一步优化了整体模型的表现。在Size2和Size3上,完整模型的MSE比仅使用BiGRU分别减少了6.6%和8.5%,进一步证明了TCN、BiGRU和SE模块的协同作用。整体来看,多模块的合理结合,提高了模型的预测精度,在模型计算效率与复杂度之间找到了较好的平衡。
此外,通过对比TCN-BiGRU-SE,FC,FC和TCN-BiGRU-SE,CNN,FC模型,发现使用CNN降维的误差比FC降维略低,且FC参数多、计算复杂度高,因此,采用将不同类型的统计特征进行通道堆叠后再使用CNN进行降维的策略,可以减少模型复杂度,优化模型性能。

图8(a) 拷贝

图8(b) 拷贝

图8(c) 拷贝
 
图8模型稳定性箱线图
 
3.5泛化性检验

为验证所提出模型的泛化性,在三种小样本产品的数据集上进行了实验。以线性回归(LR)、SVR、K近邻算法(KNN)和XGBoost作为对比基准,以确保实验结果的代表性。同样对尺寸进行预测,模型的表现如表7所示。Dataset1为注塑外壳产品数据集,Dataset2和Dataset3则为注塑堆叠箱产品数据集,两者的区别在于不同的注塑工艺条件。实验结果表明,TCN-BiGRU-SE模型在三类不同产品的尺寸预测上同样表现出色。在Dataset1和Dataset2上,其R²、MSE和MAE均优于对比模型;在Dataset3中,尽管所提出的模型未能取得最优R²,但其误差控制依然良好,接近最佳结果,展现了较强的泛化性。

表5 拷贝
 
表6 拷贝
 
表7 拷贝
 
4 总结

(1)分析注塑过程的基本原理及特征数据来源,选取典型注塑数据集,分析注射和保压阶段对产品质量的影响。通过提取注射、保压阶段时序特征的定量特征值和无量纲值,将其在通道上进行堆叠,形成三维的补充特征集,为模型提供数据支持。

(2)提出基于TCN-BiGRU-SE的多特征融合预测模型。通过两阶段的特征提取策略,充分提取高频传感器数据、统计特征和机器状态等不同来源的深度特征,并进行有效融合,提升了模型在注塑过程中的动态变化捕捉能力和预测精度。

(3)将模型与传统机器学习和常见深度学习模型进行比较,结果表明,TCN-BiGRU-SE在多项评价指标(R²、MSE、MAE)上均表现更佳,精度提升约10%;通过10次独立的稳定性检验,箱线图显示模型在不同训练过程中保持了较高的稳定性;通过模块消融和特征融合消融实验,验证了TCN、BiGRU、SE模块各自的独立贡献及其协同作用,展现了多特征融合在提升模型性能上的效果。

(4)通过三类注塑小样本数据集进行泛化性检验,结果显示TCN-BiGRU-SE模型在小样本条件下具有良好的泛化能力。在不同工艺条件下,模型能稳定捕捉工艺变化特征,表现出较强的适应性。
 
参考文献:
[1] 王新铭,党开放,马艺涛,等.注塑机故障诊断技术进展[J]. 塑料工业,2023,51(11):15-20.
[2]KHOSRAVANIMR,NASIRI S.Injection molding manufacturing process:review of case-based reasoning applications [J].Journal of Intelligent Manufacturing, 2020,31:847-864.
[3] 刘永兴,唐小琦,钟靖龙,等.基于轻量级梯度提升机的非对称风险注塑成形产品尺寸预测模型[J]. 中国机械工程,2022,33(8):965-969.
[4] LOCKNER Y,HOPMANN C,ZHAO W.Transferlearning with artificial neural networks between injection molding processes and different polymer materials[J].Journal of Manufacturing Processes,2021, 73(2):395-408.
[5] 陈昱,项薇,龚川.基于数据挖掘的注塑产品质量在线故障检测及预测[J]. 中国机械工程,2023,34(14):1749-1755.
[6]LU Fanlci,GUI Wcihua,QIN Liyang,ct al.A Novcl Semi-Supervised Prediction Modeling Method based on Deep Learning for Flotation Process With Large Drift of Working Conditions [J].Advanced Engineering Informatics,2024,62(Part D):1-9.
[7] SOBRIE L,VERSCHELDE M,HENNE V,et al. Capturing complexity over space and time via deep learning:An application to real-time delay prediction in railways [J].European Journal of Operational Research, 2023,310(3):1201-1217
[8]ZHOU Jingtao,ZHAO Xuan,GAO Jing.Tool Remaining Useful Life Prediction Method based on LSTM Under Variable Working Conditions J]. International Journal of Advanced Manufacturing Technology,2019,104:4715-4726.
[9]LIANG Hua.Comprehensive Early Warning of Power Quality in Distribution Network based on Deep Learning[J].Wireless Networks,2024,30:6371-6384.
[10]MUAZM,YU Hanxin,SUNGWL,et al.A Multitask Encoder-Decoder Model for Quality Prediction in Injection Moulding [J].Journal of Manufacturing Processes,2023,103:238-247.
[11]XIE Tingli,HUANG Xufeng,CHOISK.Intelligent mechanical fault diagnosis using multisensor fusion and convolutional neural network [J].IEEE Transactions on Industrial Informatics,2022,18(5):3213-3223.
[12]DUAN Xiaoyan,XUE Linlin,LEI Chunli,et al.Rolling bearing fault diagnosis method based on multi- information fusion characteristics under complex working conditions [J].Applied Acoustics,2023,214: 109685.
[13]MA Tianchi,SHEN Junxian,SONG Di,et al.Multi- sensor and multi-level information fusion model for compressor blade crack detection [J].Measurement, 2023,222:113622.
[14]钱庆杰,余军合,战洪飞,等.基于DL-BiGRU 多特征融合的注塑件尺寸预测方法[J]. 浙江大学学报(工 学版),2024,58(3):646-654.
[15]CHENJianyu,ZHUANG Jiaxiang, HUANG Mingshyan.Enhancing the quality stability of injection molded parts by adjusting V/P switchover point and holding prcssurc[J].Polymcr,2021,213:123332.
[16]LÓPEZ A,AISA J,MARTINEZ A,et al.Injection moulding parameters influence on weight quality of complex parts by application of DOE:Case study [J]. Measurement,2016,90:349-356.
[17]Bai S,Kolter JZ,Koltun V.An empirical evaluation of generic convolutional and recurrent networks for sequence modeling [J].arxiv preprint arxiv:1803.01271, 2018.
[18]Chung J,Gulcehre C,Cho K H,et al.Empirical evaluation of gated recurrent neural networks on sequence modeling [J].arxiv preprint arxiv:1412.3555, 2014.
[19]HU Jie,SHEN Li,SUN Gang.Squeeze-and-Excitation Networks [C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition,Salt Lake City,UT, USA,2018:7132-7141.
[20]BOGEDALE L,DOERFEL S,SCHRODT A,et al. online prediction of molded part quality in the injection molding process using high-resolution time series [J]. Polymers,2023,15(4):978.