1. 引言
太赫兹波是位于远红外和毫米波之间的电磁波,因其波段具有指纹谱性被广泛应用于物质检测领域。随着太赫兹光学技术的高速发展,太赫兹时域光谱(terahertz time-domain spectroscopy, THZ-TDS)技术 [1] 脱颖而出。THz-TDS技术可以通过识别物质的指纹图谱对各类危险品进行无损检测 [2]。近年来,越来越多的学者 [3] 将深度学习技术应用于太赫兹时域光谱数据分类识别任务中。马帅等 [4] 首先利用深度信念网络(Deep Belief Network, DBN)对8种化学品的太赫兹时域光谱进行特征学习,然后通过K近邻(K-Nearest Neighbor, KNN)算法在不同测试集上进行分类识别,输出的分类准确率均在90%以上。实验结果证明使用神经网络对太赫兹时域光谱进行识别的可行性。虞浩跃等 [5] 提出使用基于双向长短期记忆网络(BLSTM-RNN)对15种化合物进行分类检测,实验结果表明深度学习方法可以自动提取光谱数据的主要特征,进而提高模型的识别精度。然而,深度学习算法需要依赖大量标注训练数据来避免模型过拟合的现象。
在太赫兹时域光谱物质检测领域中,由于采集物质太赫兹时域光谱的成本高、周期长,导致训练样本的数量稀缺。针对这一问题,刘俊秀等 [6] 在对15种有机化合物的识别中,首先利用差分数据的方法扩充样本容量,然后输入PCA-SVM分类模型中进行分类识别,识别准确率在90%以上。也有学者提出将目前在时序数据增强领域中大获成功的生成对抗网络(GAN)应用于太赫兹时域光谱数据增强中,如:崔向伟等 [7] 将原始太赫兹时域光谱数据集和使用GAN扩充后的数据集分别输入SVM、LSTM和DNN分类模型中,并对分类模型的识别精度进行对比分析。实验结果表明,经过扩充后的数据集在各个分类模型上的识别准确率更高。
GAN作为一种生成式深度学习模型,能够学习真实样本的分布特性,生成全新的数据样本,为解决原始训练样本不足问题提供了一种全新的解决思路。但是传统的GAN模型在训练时存在收敛困难、模式奔溃以及梯度爆炸等问题。对此,学者们提出了WGAN (Wasserstein GAN)、辅助分类GAN (ACGAN)等衍生GAN模型来缓解传统GAN的缺陷。王守相等 [8] 提出使用WGAN对电力系统量测缺失数据进行重建,实验分析了量测缺失数量和重建误差等指标,得出使用WGAN重构出的数据与真实量测分布基本拟合。Pu Wang等 [9] 提出使用ACGAN对心电信号进行数据增强,并输入ResNet与LSTM并行连接的模型进行分类识别,实验结果表明对数据集进行扩充可以提高分类模型的识别准确率。上述研究体现出GAN模型在时序数据增强方面的潜力。
针对太赫兹时域光谱训练数据不足的问题,提出一种基于残差网络(ResNet) [10] 和长短时记忆网络(Long-Short Term Memory, STM) [11] 的辅助分类生成对抗网络(RL-ACGAN)进行样本扩充。RL-ACGAN模型在生成器中引入ResNet来缓解梯度爆炸、收敛困难等问题,同时实现时间序列数据的特征提取和重构;在判别器中引入LSTM层,挖掘数据间更深层次的时序特征,提高判别器鉴别真伪的能力。同时,采用W Wasserstein距离 [12] 替换传统GAN模型中的损失函数,缓解梯度消失、模式崩溃等问题。实验首先将酒精、煤油、食用油、乳香油、松节油、松香油以及樟脑油等七种易燃液体太赫兹时域光谱数据输入RL-ACGAN进行数据增强,然后使用原始数据集训练ResNet、CNN、FCN和MLP分类模型,最后,将生成数据集和扩充后的数据分别输入训练好的模型,对识别准确率进行分析,并与ACGAN和Mixup进行对比。实验结果证明使用RL-ACGAN模型进行数据扩充后,四个分类模型的识别精度平均提高了1.256%,比表现较好的ACGAN高出0.709%。
2. 基于ResNet和LSTM的辅助分类生成对抗网络
2.1. GAN
图1展示的是GAN模型 [13] 的网络结构,主要由生成器和判别器两部分组成。该模型的工作原理是,首先将生成的随机噪声送入生成器,然后将生成的合成数据与实际训练数据混合输入判别器中,最后由判别器鉴别数据的真与假。通过这种零和博弈的动态训练过程,GAN模型根据学习到的特征不断改进生成器和判别器的性能,直到生成器和判别器之间达到纳什均衡,这时生成器可以生成高度拟合真实数据分布的新样本。
![](//html.hanspub.org/file/16-1542443x7_hanspub.png?20220321174531243)
Figure 1. GAN model network structure diagram
图1. GAN模型网络结构图
公式(1)描述的是GAN模型的目标函数,式中
、
、
分别表示对应分布的期望、生成器的输出、判别器的判定结果。公式(2)、公式(3)分别描述生成器与判别器的损失函数LG、LD。由上述目标函数可知,在GAN模型训练结束后,生成器将通过无监督学习来拟合真实数据的分布,使得判别器无法鉴别出真实数据与生成数据。
(1)
(2)
(3)
2.2. 辅助分类生成对抗网络(ACGAN)
图2展示ACGAN的网络结构 [14],在传统GAN模型的基础上引入了辅助分类标签,用以指导数据生成的方向,进而改进传统GAN模型训练过程不可控的缺陷。在ACGAN模型中的标签信息只作用于生成器,将辅助分类器与判别器相结合用于识别数据的真假以及类别。ACGAN的损失函数包含生成器损失LG、判别器损失LD和分类损失LC三部分,分别如公式(4)、(5)、(6)所示。其中,生成器和判别器必须满足
且
。
(4)
(5)
(6)
![](//html.hanspub.org/file/16-1542443x19_hanspub.png?20220321174531243)
Figure 2. ACGAN model network structure diagram
图2. ACGAN模型网络结构图
2.3. 基于ResNet和LSTM的辅助分类生成对抗网络
2.3.1. RL-ACGAN网络结构
为了避免传统ACGAN模型难以对时序数据进行建模、模式过度自由且易崩溃的缺点,提出在ACGAN的生成器和判别器中分别加入ResNet和LSTM,帮助模型学习真实数据长距离间的动态特性,并使用Wasserstein距离来衡量真实数据与生成数据的差距,构建改进的ACGAN对原始太赫兹时域光谱数据进行扩充,以满足在太赫兹时域光谱深度学习分类任务中依赖大规模训练样本的需求。RL-ACGAN由1个输入模块、5个残差模块和1个输出模块组成,结构如图3所示。输入模块由1个全连接层和Leaky ReLU激活函数 [15] 组成。图4展示的是残差单元结构,共有三个卷积层,分别使用8 × 8、5 × 5、3 × 3卷积核,并且三层卷积步长全部设置为1;输出模块由1个1维全连接层和Tanh激活函数组成。判别器网络结构由1个LSTM单元、5个卷积模块和1个输出模块组成。卷积模块由1个5 × 5的卷积层、1个Leaky ReLU激活函数和1个dropout层组成,输出模块由1个全局平均池化层和Softmax分类器组成。每个卷积层后都经过1个dropout层来减少模型计算参数,缓解过拟合现象。
![](//html.hanspub.org/file/16-1542443x20_hanspub.png?20220321174531243)
Figure 3. RL-ACGAN model network structure diagram
图3. RL-ACGAN模型网络结构图
![](//html.hanspub.org/file/16-1542443x21_hanspub.png?20220321174531243)
Figure 4. Residual unit network structure diagram
图4. 残差单元络结构图
2.3.2. 模型训练
RL-ACGAN模型的训练分为预训练和实际训练两个阶段。在预训练阶段,对判别器预训练10次,使得判别器在早期就具备对真假数据的区分能力,从而加快模型的训练进程。在实际训练阶段,使用RMSProp优化器更新网络参数,并将生成器与判别器的学习率设置为0.0002,批样本数量设置为64。单次训练过程包含以下2个步骤:
a) 生成器利用潜在空间的随机噪声建立起与真实数据分布的映射关系,生成带有相应标签的一批样本数据与真实数据混合输入判别器。判别器利用混合数据进行训练,输出判别器网络损失值,并利用RMSProp优化器更新网络参数。
b) 当判别器训练结束后,保持判别器当前的网络权重不变,输出生成器网络损失值,再利用RMSProp优化器更新生成器的网络参数。
在一个周期训练结束后,再次开启训练,直到整个网络达到纳什均衡,此时生成器生成的数据可以扩充原始数据集,送入深度学习模型进行分分类识别。
3. 实验与结果分析
3.1. 数据获取与预处理
实验采用的数据集是由日本爱德万公司的TAS7400反射型太赫兹光谱仪系统测量所得。选取日常生活中易于获取的酒精、煤油、食用油、乳香油、松节油、松香油、樟脑油等七种易燃液体作为实验样品。将棉、毛呢、皮革分别与一次性矿泉水瓶组合,构造出三种隐匿结构。由于液体对太赫兹波的强吸收性 [16],而传统的太赫兹光谱仪没有配备液体检测样品台,本实验自制了一个液体检测容器——比色皿。整个比色皿由四层结构组成,第一层是覆盖物,第二层是普通的PVC材料,第三层为放置样品的腔体层,第四层是太赫兹透射性非常好的塑料薄膜,另外两侧各有一个用于夹紧的金属圆环。实验测量中,首先设置测试时间为128 ps,太赫兹波段为1.9 THz。然后将待测样品注入比色皿中并固定在支架上,使得太赫兹波能够垂直投射其样本中心,记录太赫兹时域光谱数据。每种样品在三种不同隐匿结构下,分别测量60条数据,每条数据的维度是6550,一共测得实验数据1260条。表1总结了实验所需的待测样品种类、覆盖物种类以及容器。
![](Images/Table_Tmp.jpg)
Table 1. Experimental samples, covers and containers
表1. 实验样品、覆盖物与容器
在光谱测量的过程中,系统本身以及光路穿透大气时大气吸收等都会产生随机噪声干扰真实的信号。因此,实验选用标准差标准化和最大最小值归一化方法对隐匿危险品的信号进行预处理,过滤噪声提高数据的真实性,从而提高建模准确度。计算公式分别如公式(7)、公式(8)所示。公式(7)中
表示样本数据的标准差,
表示样本数据的均值。公式(8)中:x表示当前样本值;max表示样本最大值;min表示样本最小值。最后,将预处理之后的数据整理为原始太赫兹时域光谱数据集。
(7)
(8)
3.2. 模型训练
在本小节中将原始太赫兹时域光谱数据集分别输入ACGAN和RL-ACGAN进行对比试验,以此验证RL-ACGAN模型生成的数据更能拟合出实际的数据分布。ACGAN网络生成器和判别器均包含5个卷积模块,每个卷积层均采用LeakyReLU 作激活函数,并增加Dropout层来缓解过拟合。图5描述的是两个模型的分类损失变化曲线,由图可知随着训练次数的迭代,2个模型的分类损失最终都会趋近于零并维持相对稳定,但ACGAN模型的分类损失较RL-ACGAN模型下降速度较慢且波动较高,说明引入残差网络和LSTM单元能够提高网络的特征提取能力,提升分类效率。图6描述的是两个模型分类准确率的变化曲线,图中显示RL-ACGAN模型分类准确率上升速度快且波动幅度小,说明RL-ACGAN模型训练稳定性较好。图7描述的是2个模型Wasserstein距离的变化曲线,由图可见RL-ACGAN模型的Wasserstein距离一直在减小,最终稳定在0.25附近且波动幅度较小,ACGAN模型的Wasserstein距离先增大后减少,最终稳定在0.6附近且波动幅度较大,说明RL-ACGAN模型生成器生成的数据与真实数据相似度较高。综合上述对比分析可得,RL-ACGAN模型能够更全面地学习真实样本的全局和局部特征,从而生成高仿真的样本。
![](//html.hanspub.org/file/16-1542443x26_hanspub.png?20220321174531243)
Figure 5. Classification loss comparison
图5. 分类损失对比
![](//html.hanspub.org/file/16-1542443x27_hanspub.png?20220321174531243)
Figure 6. Classification accuracy comparison
图6. 分类准确率对比
![](//html.hanspub.org/file/16-1542443x28_hanspub.png?20220321174531243)
Figure 7. Wasserstein distance comparison
图7. Wasserstein距离对比
3.3. 模型评估
对于一维时间序列,通常使用欧几里德距离(ED)、皮尔逊相关系数(PCC)和Kullback-Leibler (K-L)散度作为评价指标,评估生成的数据与原始数据之间的相似性。ED表示生成数据与原始数据之间的距离,计算方式如公式(9)所示,式中
,
示样本值。PCC用于衡量两个样本分布之间的线性相关性,计算方式如公式(10)所示,式中
,
表示样本期望,
,
表示样本平均期望。K-L散度用于评估两个序列之间的偏差,计算公式如公式(11)所示,式中p,q表示样本分布,
表示样本值。对于每个类别,具体的评估流程如下:
a) 计算平均原始序列作为模板序列;
b) 计算原始序列与模板序列的ED、PCC和K-L散度,分别取ED、PCC和K-L散度的平均值作为比较指标记为CI;
c) 计算模板序列与生成序列的ED、PCC和K-L散度,分别取ED、PCC和K-L散度的平均值作为最终指标记为FI;
d) 比较CI与FI,两者差异越小,表明原始序列与生成序列相似度越高。
七种实验样品分别经过上述评估步骤,最终得到每个样品类别在RL-ACGAN、ACGAN和Mixup方法中生成序列的定量评估结果分别如表2、表3、表4所示。表2中FI的PCC值均在0.8以上,表3、表4中FI的PCC值位于0.7到0.8之间。由此可得,相比于ACGAN和Mixup,RL-ACGAN生成的数据与原始数据相似性更强。
(9)
(10)
(11)
![](Images/Table_Tmp.jpg)
Table 2. Quantitative evaluation of RL-ACGAN generated sequences
表2. RL-ACGAN生成序列的定量评估
![](Images/Table_Tmp.jpg)
Table 3. Quantitative evaluation of ACGAN-generated sequences
表3. ACGAN生成序列的定量评估
![](Images/Table_Tmp.jpg)
Table 4. Quantitative evaluation of Mixup-generated sequences
表4. Mixup生成序列的定量评估
3.4. 数据增强对比分析
数据增强对比实验选用Mixup、ACGAN和RL-ACGAN对原始太赫兹时域光谱数据集进行扩充,并分别输入ResNet、CNN、FCN和MLP深度学习分类模型进行测试。对比实验流程如下,首先将原始数据分别输入Mixup、ACGAN和RL-ACGAN,将样本扩充3780个,形成Mixup生成数据集、ACGAN生成数据集和RL-ACGAN生成数据集,然后将原始数据集分别与上述3个生成数据集混合形成Mixup扩充数据集、ACGAN扩充数据集和RL-ACGAN扩充数据集,最后将7个数据集分别喂入深度学习分类算法进行分析识别,实验结果如表5所示。图8综合展示了4个深度学习分类算法分别在原始数据集、生成数据集以及扩充数据集上的平均分类精度对比。
![](Images/Table_Tmp.jpg)
Table 5. Comparison of the average classification accuracy of the four classification algorithms
表5. 4个分类算法的平均分类精度对比
![](//html.hanspub.org/file/16-1542443x39_hanspub.png?20220321174531243)
Figure 8. Comparison of the average classification accuracy of the four classification algorithms
图8. 4个分类算法的平均分类精度对比图
由表5可知利用RL-ACGAN模型生成的数据集与原始数据集在4种分类算法上的表现基本一致,说明RL_ACGAN模型生成的数据与真实的数据分布拟合度高。同时,扩充数据集的分类精度均高于原始数据集和生成数据集,说明在训练数据充足的情况下,模型分类性能更好。综上可得,RL-ACGAN模型能够对原始太赫兹时域光谱数据集进行有效扩充,缓解训练样本不足的问题。
4. 结论
针对太赫兹时域光谱数据获取困难导致在深度学习分类算法中训练样本不足的问题,提出基于ResNet和LSTM的辅助分类生成对抗网络对太赫兹时域光谱数据进行增强,该方法通过在生成器中引入残差块以提高生成数据的质量,在判别器中加入LSTM单元提高模型的判别能力。对比实验使用Mixup、ACGAN和RL-ACGAN分别对七种易燃液体的太赫兹时域光谱数据进行增强,并输入4种深度学习分类算法进行对比分析,结果表明使用RL-ACGAN模型有效地改善因样本数据不足引起的深度学习模型过拟合的问题,4种分类模型在扩充数据集上的识别精度较原始数据集平均提高了1.265%。
基金项目
工业机器人健康监测诊断及控制优化理论与方法(2020B15151200010);新一代智能工业机器人研发与应用(1920001001367)。