1. 引言
陈皮学名叫做柑橘皮(PCR, Pericpium Citri Reticulatae),为布兰科柑橘(Citrus reticulata Blanco)及其栽培品种的干燥成熟果皮 [1] 。陈皮因富含橙皮苷、纤维素等黄酮类以及生物碱成分,有理气健脾、燥湿化痰的功效对人体健康非常有益,从而被广泛用于草药和食品中。目前,陈皮已正式被列入中国药典,是一种著名的中草药和功能食品。
陈皮的药用价值与其产地、贮藏年份有关 [2] ,贮藏年份的长短对药用价值影响更大 [3] 。随着陈皮贮藏期增加,其总黄酮类和橙皮苷成分含量越高。由于不同贮藏年份的陈皮之间的形态和香味十分的相似,人们很难通过肉眼和闻气味去分辨不同贮藏年份的陈皮。因此,市场上会有许多不同年份的陈皮掺杂在一起,对消费者进行欺骗。针对这类现象,精准鉴别陈皮年份对于消费者和产业来说是一件十分重要的事情。
目前,用于识别不同年份PCR的传统方法是基于感官分析,通过看、闻、刮、食、泡等方法以达到检查外观、味道和气味之间的差异 [4] 。但是,这种检测方法具有主观性,需要鉴别人进行多次尝试,不仅耗费大量的时间,而且鉴别准确度不高 [5] 。随着科技迅速发展,我们可以借助效液相色谱(HPLC)、气相色谱(GC)、超高效液相色谱–四极杆/飞行时间质谱法(UHPLC-TOF/MS)和气相色谱–质谱(GC-ms)等仪器检测方法 [6] [7] [8] [9] 来分析陈皮中的有效成分及含量以确定陈皮的贮藏年份。虽然上述方法也能够鉴别陈皮的贮藏年份,但是鉴别过程比较复杂且耗时比较长。
太赫兹光谱技术作为一种新的无损检测技术,已广泛应用于食品、药品、环境检测、农产品质量检测以及医学等领域 [10] 。太赫兹(THz)区域是电磁频域的一部分,其频域范围为0.1~10 THz,波长为0.03~3 mm,处于微波和红外线之间的光谱范围 [11] 。相较于其他光谱技术,太赫兹光谱具有高穿透、低能量和指纹光谱等独特的检测特性。基于该独特性太赫兹光谱可以穿透多种材料,可用于分析多种类型的包装材料并提取像吸收、吸收系数、折射率、复介电常数的实部和虚部等不同的光学参数 [12] 。
太赫兹光谱中的时域光谱和吸收系数谱包含了检测样品的大量信息,将光谱数据进行预处理并结合化学计量学方法和机器学习方法可以有效的挖掘出光谱数据中比较有价值的信息,因此被广泛的用来检测物体的成分 [13] [14] 。Liu等 [15] 采用小波包变换、主成分分析(PCA)以及使用不同数量的PC来训练Ensemble、kNN和SVM分类器,以达到自动识别乳腺浸润性导管癌(IDC)的目的,发现Ensemble (88.9%)和采用欧氏距离度量的KNN分类器的精确度最高可分别达到88.9%和87.4%,对于具有三次核函数的SVM分类器,当包含的PC数量从1到50时,总识别精度显着提高并达到最大值86.5%。Chen等 [16] 采用了偏最小二乘法(PLS)、支持向量回归(SVR)、区间偏最小二乘法(iPLS)和后向区间偏最小二乘法(biPLS)进行定量模型构建和预测,通过使用统计交叉验证,发现PLS得到的预测均方根误差(RMSEP)为0.5%,而iPLS和biPLS的平均RMSEP值分别为0.4%和0.3%。但是,上述研究方法的参数优化过程非常耗时耗力,并且在处理复杂光谱数据方面十分有限,可能无法充分挖掘出这些数据中的隐藏特征。因此,开发一种高效的且全面的模型至关重要。
深度学习是机器学习中的一个热门邻域,近年来它被应用在多种邻域内。传统机器学习算术依赖人工设计特征并进行特征提取,而深度学习方法不需要人工,而是依赖算法自动提取特征。Pu等 [13] 针对鉴别PCR地理产地,利用经过标准正态变量(Standard Normal Variate, SNV)方法预处理的光谱数据建立一维CNN模型,采用Gramian角场(GAF)、Markov过渡场(MTF)和递归图(RP)等技术,将未经处理的光谱数据转换为二维图像特征,将预处理的光谱数据和未经处理的光谱数据的二维图像特征与CNN模型相结合,建立CNN模型。该模型被称为Add-CNN模型,结果表明Add-CNN模型最好准确度可达到86.17%。Yang等 [17] 运用深度学习对太赫兹光谱检测农药进行研究,他们提出了一种名为WGAN-ResNet的新方法,该方法结合了Wasserstein生成对抗网络(WGAN)和残差神经网络(ResNet)两个深度学习网络,结果表明WGAN-ResNet方法取得了91.4%的准确率。虽然上述研究方法在无损检测方面都能够达到较好的准确率,但并没有使用三个光谱图相结合的方法,并且未按批次对数据进行随机划分,无法准确反应实际情况。
针对上述方法存在的问题,本文提出一种将三种太赫兹光谱数据经Gramian角场(GAF)、Markov过渡场(MTF)和递归图(RP)图像特征转换方法转化为RGB三维图像的方法,通过构建了ResNet、1D-CNN、CNN-LSTM深度学习模型来进行陈皮年份检测,并比较太赫兹光谱经不同图像特征转换的RGB图像在三种深度学习模型下的平均准确率、召回率和F1分数。通过实验测试,验证了本文所提方法的有效性。
2. 材料与方法
2.1. 样品制备与光谱数据获取
从广东省江门市新会区分别获取2014、2016、2018和2020四个年份的陈皮样品。通过太赫兹光谱仪制备陈皮样品的太赫兹光谱实验数据主要分为四个步骤:第一步,将样品制成直径约13 mm、厚度约1 mm的圆形薄片,利用万分天平称量特定质量的样品;第二步,使用粉碎机将被选定的样品进行粉碎并进一步研磨成粉末,借用200目筛过滤掉粉末中较大的颗粒,使用压力器将细小均匀的样品粉末压制成圆形薄片样本;第三步,将上述制备完成的圆形薄片样本置于太赫兹光谱仪的模具中并将其放置于光谱仪的样品仓内,与此同时,保持样品仓内环境干燥且持续输入氮气;第四步,启动光谱仪采集陈皮样品的太赫兹光谱数据并将其保存在工程机内,随后将数据导出通过数据清洗剔除异常样本数据,最终形成实验用的THz光谱数据。
陈皮THz数据集中2014、2016、2018、2020四个年份的批次数分别为25、31、51、47,每个批次都有6个样本数据,总的样本数为924。为了确保实验结果的可靠性,本文实验将四个年份数据按照批次随机划分为训练集和测试集两部分,记入10次随机实验的平均结果。实验选取频率在0.1~1.3 THz范围内的吸收系数谱、频域谱和时域谱三个光谱数据。太赫兹光谱的时域谱示例图如图1所示、吸收系数和折射率计算公式 [18] 如下:
(1)
(2)
其中
是折射率,c是光速,
是样品信号与参考信号的相位差,
是频率,d是样品的厚度,
是吸收系数,
表示样品与基准的频域幅值比。
2.2. 数据预处理
在数据收集过程中,实验数据可能会因环境等因素产生异常偏差,本文先对数据的异常值进行处理。异常样本检测方法包括DBSCAN聚类方法、箱型图分析方法、Z-score法、孤立森林法和三倍标准差法(3 )等。本研究采用3
方法 [19] 进行数据异常检测,剔除数据集中的异常值。
由于陈皮样品表面凹凸不平,在采集THz光谱数据时会产生一定的噪声。标准正规化(Standard normalization)是一种处理数据中噪声的方法,这种方法基于原始数据的均值(Mean)和标准差(Standard deviation)对数据进行标准化处理,其公式如下所示:
(3)
其中
为标准化后对应的样本,
为原来的样本,
为样本均值。
2.3. 光谱数据转为图像数据
太赫兹光谱数据是一维数据,因当前的深度学习方法主要是处理二维数据,因此,本文首先采用格拉米角场(GAF)、马尔可夫转移场(MTF)和递归图(RP)方法将一维序列数据转化为二维(图像)数据,然后结合深度学习模型对太赫兹光谱数据进行处理。
格拉米角场(GAF) [20] 是将时间序列转换为图像特征的方法,表示时间序列中每对值之间的某种时间相关性。该方法首先将缩放后的一维数据从直角坐标系转换为极坐标系,然后通过考虑不同点之间的角度和/差以识别不同时间点的时间相关性。格拉米角场(GAF)分为格拉米角求和场(GASF)和格拉米角差分场(GADF)两种方法,两者都可以识别不同频率点的时间相关性。本文采用GASF方法对数据进行转化,其公式如下:
(4)
(5)
其中GASF为角度差的余弦值,n为频率点的个数,
为第n个频率点处的角度值,
为数据缩放后的点。
马尔可夫转移场(MTF) [20] 是基于马尔可夫转移矩阵的一种时间序列图像编码方法。由于马尔科夫转移矩阵对时间序列的时间依赖并不敏感,因此考虑时间位置关系,即将时间序列的值放到一个分位数中查看其分布状态。通过任意两个频率点之间的关系来保留原始振动信号的动态信息,其计算方法如下:
(6)
(7)
其中
和
分别为
和
的bins值,
为当前属于qi的第x个点下出现在
中的概率,n为序列数据长度,
为第n个频率点的响应值,M为MTF矩阵。
递归图(RP) [21] 是分析时间序列周期性以及非平稳性的一个重要方法,可以揭示时间序列的内部结构,给出有关相似性、信息量和预测性的先验知识,从而递归图非常适合运用于太赫兹光谱数据。RP可由下式计算:
(8)
(9)
其中m是轨迹的维数,
是时间延迟,
是递归图表示轨迹之间的成对距离,
是Heaviside函数,而
是阈值。
本文将吸收系数谱(x1)、频域谱(x2)和时域谱(x3)三种光谱数据分别采用格拉米角场(GAF)、马尔可夫转移场(MTF)和递归图(RP)方法转换为图像数据,然后,将三种光谱数据的图像数据进行组合形成RP3、MTF3、GASF3、G-M-R、G-R-M、R-G-M、R-M-G、M-R-G、M-G-R伪彩色(RGB)图像。假设将一维数据x分别采用GASF、MTF、RP方法转换为图像数据分别记为G (x)、M (x)、R (x),那么GASF3伪彩色图像则表示三种光谱数据都采用GASF方法转换为图像数据,且记为GASF3:[G (x1), G (x2), G (x3)];G-M-R伪彩色图像则表示为:G-M-R:[G (x1), M (x2), R (x3)],其他类同。
2.4. 数据增强
为了缓解由类别标签引起的训练数据不平衡问题,本文通过采用Synthetic Minority Over-sampling Technique (SMOTE)过采样、色彩偏移(Color Shift, CS) [22] 两种技术用于光谱数据增强来提升训练模型的鲁棒性。
SMOTE的主要原理是通过原始样本以及K近邻域样本来生成合成样本,以增加少数类样本的数量。合成样本的公式如下:
(10)
(11)
其中,
为新生成的数据,
为原始数据,
为邻域样本,
为少数类别的样本数量,
为多数类别的样本数量,
为比例且用于控制合成样本在基准样本和邻居样本之间的位置。
色彩偏移(Color Shift, CS)技术 [23] 是通过调整图像中每个像素的颜色值来添加色彩噪声用于图像数据扩充。该方法主要原理是对选定的颜色通道进行线性放缩,以增加或减少颜色值,同时为了确保生成的图像像素值在合理范围内且避免溢出问题,本文对其像素值进行截断处理,即将小于0的值设置为0,大于1的值设置为1。线性放缩的公式如下:
(12)
其中,
是生成的图像,
是原始图像,
是乘法因子且用于调整亮度和对比度,是加法因子,其范围在−1到1之间,其通常被用于对图像进行亮度调整。
2.5. 所提方法
神经网络作为深度学习方法的基础,其作为特征提取和物质鉴别分类的方法性能在单一分类和多分类任务中得到广泛应用。本文主要通过将光谱数据转换为RGB图像数据,然后将其输入到预训练的残差网络(ResNet) [24] 模型中进行训练。首先,通过7 × 7的卷积层(Convolution layer)接收图像数据;然后,通过最大池化层(Max-pooling layer)进行下采样;其次,通过四个残差层(Residual layer)提取图像特征,这些残差层分别由3、4、6和3个残差块(Residual blocks)组成,每个残差块包含两个3 × 3的卷积层以及一条捷径连接(Skip connection),并在两个卷积层之间使用ReLU函数作为激活函数;最后,通过全局平均池化层(Average pooling layer)将特征图像进一步减小尺寸,随后通过扁平层(Flatten layer)将特征输入到致密层(dense layer)得到最终的输出类别。
3. 结果与讨论
3.1. 实验过程
为了验证ResNet模型的有效性以及对陈皮贮藏年份的鉴别能力,本文将ResNet模型分别与一维卷积神经网络(1D-CNN)和卷积神经网络–长短式记忆网络 [25] (CNN-LSTM)模型进行对比。1D-CNN模型包括两个1 × 3的卷积层,每个卷积层后连接一个1 × 2的最大池化层,并采用ReLU函数作为卷积层与池化层之间的激活函数,通过一个扁平层将池化层的输出展平为一维向量,以便将其传递给两个全连接层,其中第二个全连接层用于输出最终的类别预测结果。CNN-LSTM模型在1D-CNN的基础上剔除第一个卷积层后的池化层,然后再将Flatten之后的一个致密层替换为LSTM层,另一个致密层用于最终的类别预测输出。
3.2. 评价标准
为了充分验证ResNet模型的有效性,本文分别采用准确率(Acc)、召回率(Recall)和F1分数(F1)评价指标对模型的预测结果的性能进行评估和比较。相关公式具体如下:
(13)
其中,
是预测正确的样本数量,
为所有预测类别的准确率,
是预测类别的数量。
(14)
(15)
其中,
、
分别为混淆矩阵中的真正例和假正例,p为精确率,
为召回率。
3.3. 实验设置
在实验过程中,本文分别对1D-CNN、CNN-LSTM和ResNet模型进行了训练设置和优化。1D-CNN和CNN-LSTM模型的训练次数设置为epochs100、batch_size32,并采用Adam优化器对模型进行优化。在模型优化过程中,学习率设置为0.001,通过使用交叉熵(Cross entropy) [26] 作为损失函数计算每次模型优化后的真实标签与预测标签之间的损失值。在优化ResNet模型的过程中,将conv1、layer1、layer2、layer3、layer4的初始学习率为0.01,Fc层的初始学习率为0.02,总初始学习率为0.001,在每次训练迭代后学习率以0.9的衰减因子减少为原来的90%,采用交叉熵作为损失函数,训练次数设置为epochs为100,batch_size设置为8。
3.4. 实验结果
本文实验将陈皮THz数据集按样本批次随机划分为训练集和测试集两部分,训练集和测试集的样本数分别为645、267。由于深度学习方法需要大量的训练样本数据,一方面,将一维数据采用SMOT方法将训练集进行数据扩充达到864个样本;另一方面,采用GAF、MTF、RP方法将一维序列数据转化为二维图像数据,通过色彩偏移(CS)方法二维图像数据进行数据增强达到972张图片。在实验过程中,我们对陈皮THz数据进行了不同处理并采用1D-CNN、CNN-LSTM和ResNet模型进行了实验对比。表1为不同数据处理方法的实验结果,当输入为一维光谱数据时,基于原始光谱数据与CNN-LSTM模型结合可达到最高准确率,相比之下,采用SMOTE方法对原始数据进行增强处理后的数据与CNN-LSTM模型性能更好,准确率达到了0.648;当输入为图像数据时,ResNet模型在基于GASF3、RP3和MTF3原始图像数据的准确率分别为0.7960、0.6043和0.4835,但将这些原始数据图像利用色彩偏移(CS)方法进行图像增强后,ResNet模型的准确率明显提升,最高准确率可达到0.8035。实验结果表明,ResNet模型的整体性能优于1D-CNN模型和CNN-LSTM模型,并且通过数据增强可以进一步提升ResNet模型的性能,其中,采用色彩偏移(CS)方法对GASF3的图像数据进行增强处理后的数据与ResNet模型结合达到0.8035的最高准确率。
此外,为了进一步验证GASF3方法的优越性,我们采用色彩偏移(CS)技术对多种图像转换方法混合进行数据增强处理。从表1可以看出,在采用数据增强的情况下利用ResNet模型,G-R-M、R-M-G、M-G-R、G-M-R的准确率分别为0.6426、0.6435、0.6523、0.6580,这些图像方法的准确率均远低于GASF3方法,由于混合图像转换方法比单一图像转换方法得到的图像产生的噪声更大,从而影响了模型性能。
4. 结论
本文提出了一种太赫兹技术、图像技术与ResNet深度学习模型相结合的方法用于鉴别陈皮的贮藏年份。实验结果表明,运用图像技术与ResNet模型相结合的方法可以提升陈皮贮藏年份的鉴别水平,GASF3方法与ResNet模型结合最为显著,准确率达到0.8035。因此,太赫兹技术、图像技术与ResNet模型相结合的方法可以有效的区分不同贮藏年份的陈皮,为太赫兹光谱无损检测提供了一种快速且准确的检测方法。
基金项目
本文获五邑大学大学生创新创业训练计划项目(202211349189)资助,部分获五邑大学港澳联合研发基金(2022WGALH16)、广东省普通高校重点领域研究专项(2023ZDZX4060)资助。
NOTES
*通讯作者。