1. 引言
近年来,中国食用油市场发展迅速,品种繁多,尤其是一些消费者喜爱的高端油料油脂进口量逐年增加,诸如芝麻、亚麻籽和椰子油等[1]。然而,为了降低食用油的生产成本,一些商家掺假食用油,导致食用油的营养价值贬值甚至对人体有害,比如给高价的茶籽油添加廉价的大豆油、有害的地沟油等[2]。因此,掺假食用油不仅侵犯了消费者的权益,而且对消费者的健康造成了危害。所以,掺假食用油的检测鉴定在食品安全领域具有重要意义。
目前,食用油的掺假检测鉴别技术已有传统的理化检测方法到高精度的仪器分析技术。主流的是色谱法和光谱法,色谱法通过色谱测量,对食用油的某些化学成分分析,优点是准确率高,但是需要对样本进行提前处理,造成一定的损失;另一种光谱法,则不需要对样本进行处理,直接通过光谱结合化学测量方法生成模型,但模型需要具有统计学意义的样本数据,极大降低了模型对外部的适用性[3]。而随着新型传感技术电子鼻[4]、电子舌的发展,在食品检测方面占据了一席之地,其具有简便、易操作,结果客观性、准确性的优点,在食品生产、食品监管和日常生活中对食品质量安全发挥着重要作用[5]。
尽管国内电子鼻的研究相较于国际发展较晚,但近年来已呈现出蓬勃的发展态势。曹森[6]等以芦笋为研究对象,采用电子鼻结合气相色谱技术对不同采收期芦笋样品的芳香品质进行了分析鉴定。电子鼻数据的主成分分析和线性判别分析结果验证了区分芦笋不同采收期的能力。张欣[7]等以荆州鱼糕为研究对象,采用了逐步多元线性回归分析,建立了关于鱼糕新鲜度的判别与预测模型,能够针对鱼糕存储过程中产生的各种气体,快速无损地判别鱼糕的新鲜度。冯蕾[8]等使用电子鼻测量了黄瓜和樱桃的新鲜度,并开发了一套检测系统。
在国外电子鼻已广泛应用于油脂质量分析。Wei [9]等人(2018年)使用电子鼻传感器测定了牡丹籽油的掺假情况。研究结果表明,牡丹籽油中含有大量的a-亚麻酸,可用于鉴别牡丹籽油的纯度和掺假情况。Ayari、Mirzaee-Ghaleh、Rabbani和Heidarbeigi [10] (2018年)之前的研究揭示了电子鼻检测不同含量的葵花籽油和牛酥油中的掺假情况。结果表明,主成分分析对葵花籽油和牛酥油掺假的识别率分别达到了96%和97%。Kishimoto和Kashiwagi [11] (2019年)研究了电子鼻在识别过滤和未过滤橄榄油挥发性变化中的应用。研究结果表明,过滤橄榄油中的主要挥发性化合物,即醛、酮、酯和醇明显减少。而目前国内缺少针对我国食用油模式识别的电子鼻系统。
本文提出了一种基于多元线性回归算法的食用油检测模式识别算法设计与优化,该算法搭建在所设计的便携式电子鼻上,能通过采样装置将不同食用油散发的气体或气味采集进去,并利用传感器阵列对多种气体或气味敏感将气味信号转为电信号,使用实时高速处理器采集传感器阵列输出信号,有效地完成对食用油掺假成分的定性分析和定量检测的目的。
2. 基于电子鼻模式识别的算法设计
2.1. 多元线性回归算法
设随机变量Y于一般变量
的线性回归模型为
(1)
其中Y称为被解释变量;
是k个可以精确控制的一般变量,称为解释变量。是去除k个自变量对Y影响后的随机误差项(残差)。
是
个未知参数,
为回归常数,
称为回归系数[12]。
多元总体线性回归方程,也就是Y的期望与
之间的线性方程为
(2)
其中
是对Y的偏回归系数。
同样,多元线性样本回归方程为
(3)
其中
为参数估计值,
则是实际因变量Y的样本拟合值或者是样本预测值。
MLR算法方程中回归系数
的估计可以使用普通的最小二乘法求得。残差平方和公式为:
(4)
将SSE对
求偏导数,然后将它赋值为零,对它进行简化,就能得出
个方程式:
(5)
(6)
通过求解该方程组便可分别得到
的估计值和
回归系数的估计值。而通过化简等方法可以将这一方程组用矩阵方式表示出来:
(7)
所以通过普通的最小二乘法求得回归系数的求解,可以用矩阵表示为
(8)
其中
。
2.2. 拓展的多元线性回归算法
一般多元线性回归模型进行食用油掺假的定量判别对食用油的判断并不准确,因为其自变量和因变量之间的关系是非线性的,本研究提出了另一种数学模型,对自变量进行扩展。因为非线性的数学模型可由三部分组成:一是个自变量单个变化的影响,二是各自变量自乘方次的影响,三是各自变量互相组合的影响。因此可以得知其数学模型为:
(9)
其中m = 自变量个数,也是自变量的最高幂次;N = 实验所做次数,
;
。
根据(8)的公式将自变量x进行变化之后,接下来对于该公式系数的求解,可以参考普通的多元线性回归算法,这里不再重复书写。
因为优化变化后的模型是用来进行定量判断的,所以样本数据自身携带y值。
采用如下步骤实现优化算法:
(1) 采集食用油的p维气体特征数据
的n个样本
列出矩阵
和
;
(2) 对自变量数据进行标准化,即进行无量纲化处理,使得数值均处在同一数量级别上;
(3) 按照自变量的扩展方式对自变量数据进行相应变化,将变化后的数据重新组合成新的自变量数据矩阵;
(4) 根据新的自变量数据矩阵计算出回归系数,从而建立回归模型;
(5) 将测试数据代入样本数据回归模型中,求得预测值y,即可得所需结果。
3. 食用油检测的模式识别的实验设计
3.1. 采集食用油气味信号的电子鼻系统
图1是所设计的食用油掺假检测电子鼻系统组成框图。
Figure 1. Electronic nose system block diagram
图1. 电子鼻系统结构框图
所设计的食用油掺假检测专用电子鼻系统由气体采样装置、传感器阵列、温湿控制电路、信号调理电路、控制器、显示模块、报警模块和通讯接口电路组成。系统能通过采样装置将不同食用油散发的气体或气味采集进去。并利用传感器阵列对多种气体或气味敏感,将气味信号转为电信号,使用实时高速处理器采集传感器阵列输出信号,并经过模式系统能通过采样装置将不同食用油散发的气体或气味采集进去。并利用传感器阵列对多种气体或气味敏感,将气味信号转为电信号,使用实时高速处理器采集传感器阵列输出信号,并进行相应的预处理,能够滤除测量过程中的干扰和噪声,放大传感器微弱信号,同时实现由模拟量到数字量的精确转换,并经过模式识别技术,有效地完成对食用油掺假成分的定性分析和定量检测的目的。控制器采用浮点的DSP系统,既要实现电路的控制,还要实现对采集到的食用油气味信号的模式识别处理。系统既能脱机使用,可以通过USB接口和PC机相连,将数据传给PC机进行数据的存储和进一步处理。
3.2. 数据预处理
在进行多元线性回归算法的分析之前,我们都需要将所有的数据进行预处理。在本文中我们采取了肖维涅准则和Z-score标准化。
肖维涅准则是一种十分常见的用来剔除可疑数据的方法准则,经过该准则后,在一定程度上可确保数据的稳定性。
首先计算数据(n > 4)的算数平均值X,再计算标准偏差S,求得肖维涅系数
,计算Xmin和Xmax,检测所有数据,剔除不在(Xmin, Xmax)范围内的坏值。
标准偏差的公式为
(10)
其中
为所采集数据的
的均值。
对于肖维涅系数的求解,本文采用了赵九明所提出的一种肖维涅系数的拟合公式,其原理也是根据最小二乘原理而获得的。在给定范围内,拟合度达到了0.01 [13]。
当n大于等于4并且同时满足小于等于70时,肖维涅系数的拟合公式为
(11)
当n大于70并且同时满足小于等于2000时,肖维涅系数的拟合公式为
(12)
数值的最大范围为
(13)
(14)
具体实现时,在进行食用植物油的算法判别前,将训练集数据分样本进入肖维涅准则程序,以免影响该准则的准确性。在程序内判断读取的数据是否符合肖维涅准则,若超出了该准则所容许的范围则记录该组数据的序列号,而后根据序列号集将对应的训练集数据进行坏值的剔除。
若想将数据进行标准化,其方法有很多,而比较常用的是“Z-score标准化”、“最小–最大标准化”和“按小数定标标准化”。在本文中所采取的是“Z-score标准化”。
标准化变换:设有n个待测样本单位,每个单位有p个指标,则有矩阵
,其中
表示第i单位的第j指标值。
从列中的每个值中减去该列的均值,然后将列中的每个值除以该列的标准差。
(15)
(16)
(17)
通过该Z-score标准化处理之后,我们确保了每列数据的平均值等于0,方差的数值都为1。我们之所以要进行标准化处理,是为了在测试集样本数据发生变化时,仍然可以得到我们想要的数据,就是在一定程度上可以保证数据的相对稳定性。记标准化之后的数据矩阵为
。
我们在进行具体实现时,需要将训练集数据经过肖维涅准则之后,再进入标准化模块。在标准化模块中要注意自己想要标准化的是行数据还是列数据。而在进行标准化的过程中,若出现标准差为0的情况,则将该标准差值设为1。
3.3. 多元线性回归算法的实现流程
MLR算法的实现流程如图2所示。
Figure 2. Flowchart of multiple linear regression
图2. 多元线性回归流程图
根据多元线性回归的偏回归系数的求解方程,我们需要先在训练集和测试集的数据前加一列1值,对于多元线性回归中还需要给训练集提供y值,以便后期更好地区分测试集。在多元回归分析的核心算法中,所使用的训练集和测试集的程序也是不同的。
训练集:
将经过肖维涅准则和标准化之后的训练集数据按行分别进行多元线性回归分析,得出偏回归系数矩阵,并保留偏回归系数矩阵,从而得到多元线性回归模型。
测试集:
将经过肖维涅准则和标准化之后的测试集数据按行分别代入由训练集数据所得出的每一组偏回归系数中。得到y的预测值,计算该训练集的y值与测试集所得到的预测值y的相对误差值的绝对值,并选取最小误差值,进行保存。
4. 实验结果
4.1. 食用油种类测量结果
对于该种模式识别算法的检验证明,使用食用植物油的训练集和测试集进行。从表1中可以得到,通过实际的数据检测之后,本研究所采取的MLR算法对食用油类别判别结果的准确率可以达到97%。
Table 1. Actual detection results of multiple linear regression algorithm
表1. 多元线性回归算法实际检测结果表
食用植物油 |
测试个数 |
错判个数 |
土茶油 |
11 |
0 |
大豆油 |
9 |
1 |
花生油 |
12 |
0 |
油菜籽油 |
12 |
1 |
玉米油 |
12 |
1 |
橄榄油 |
9 |
0 |
葵花籽油 |
10 |
0 |
芝麻油 |
12 |
0 |
核桃油 |
10 |
0 |
山茶油 |
12 |
0 |
4.2. 食用油掺假定量测试结果
在多元线性回归模型的检测中,本论文采取的训练集数据是芝麻油中混杂了大豆油的混合油数据。图3是对下位机传送过来的食用油数据进行的检测结果显示,表2是基于拓展多元线性回归算法对芝麻油和大豆油掺杂进行的定量分析测量结果。从图3中可以看出所设计的多元线性回归扩展模型算法能对常见的食用油进行定量的判别并显示。
从表2可知,采用拓展多元线性回归算法的成分含量识别误差基本在4%左右。该测试结果表明所设计的多元线性回归扩展模型算法能对常见的食用油进行定量的判别。
Figure 3. Visual interface of the recognition system
图3. 识别系统的可视化界面
Table 2. Extended multivariate linear regression algorithm actual quantitative detection results
表2. 拓展多元线性回归算法实际定量检测结果
测试样本 |
测试结果 |
测试集1 芝麻油和大豆油掺杂20% |
芝麻油占0.83,大豆油占0.17 |
测试集2 芝麻油和大豆油掺杂20% |
芝麻油占0.80,大豆油占0.21 |
测试集3 芝麻油和大豆油掺杂20% |
芝麻油占0.80,大豆油占0.20 |
测试集4 芝麻油和大豆油掺杂10% |
芝麻油占0.95,大豆油占0.05 |
5. 结论
本文针对食用油类别定性判定和掺假定量分析问题,设计了一套基于MLR的食用油掺假检测的便携式电子鼻系统,实时采集食用油的气味信号,并利用所设计的多元线性回归算法能对食用油类别进行定性判别,实验表明,准确率达97%。同时针对一般多元线性回归算法对食用油的定量检测不准确的问题,使用优化后的多元线性回归算法,在大豆与芝麻的混合油的定量测试实验中,测量误差小于4%,验证了该拓展多元线性回归算法能够准确地对常见的食用油掺假进行定性和定量的判别。
基金项目
国家级大学生创新创业训练计划项目(202310338067)。