1. 引言
我国的烟草行业已经连续13年位于创收第一的产业,其产量和销售额巨大,2019年我国烟草方面工商的税收利润值达到了12056亿元,较往年同比增长了4.3%,而上缴的金额达到了11770亿元,烟草行业对于我国的经济上的发展做出了巨大的贡献,而烟草业作为一个特殊的行业,是我国政府进行垂直管理的行业,虽然担任着我国重要的税收来源,但因其生产原料及产品性质的独特性意味着对于该行业需要进行更加全面的管理和监督。而我国众多的烟草品牌需要为了保证品牌的稳步发展,不断提升企业的竞争力,改进目前的生产管理,如:烟草的储存、生产供应链管理、生产质量管理等。随着互联网技术的发展使烟草企业对于制造过程有了更多的改进措施,例如根据相关的环境、工业数据进行数据挖掘从而对生产过程中进行更加全面、易理解的分析,并且可以反向反馈烟草企业需要的信息,为企业的管理改进提供一定的依据 [1] [2] 。黄夸克根据烟草的培养环境预测分析出了对于烟草原材料的储存条件设计,将BP神经网络用于对于烟草数据的挖掘中 [3] 。
对于在烟草生产过程中的相关数据进行数据挖掘,分析出其中所包含的信息,而其中比较常见的数据挖掘方法有遗传算法、神经网络算法和模糊算法等,对于烟草企业的质量管理也存在对数据的处理不完善、缺乏反馈和未能根据不同企业进行具体管理等问题 [4] [5] 。唐宇等基于目前支持向量机的难以获得最优参数的问题引入改进麻雀算法进行优化,并将优化前后的支持向量机进行对比,明确了改进麻雀算法对异常点检测的有效性 [6] 。贾凯烨研究了有关目前麻雀搜索算法容易陷入局部最优的问题引入Hammeraley低差异序列以使结果更易收敛 [7] 。钱敏对于麻雀算法基于反向策略进行了优化,提出了改进的麻雀搜索算法(ISSA),并且根据对比发现ISSA收敛更好,算法更稳定 [8] 。刘湲使用麻雀搜索算法优化BP神经网络来对短期风的功率进行预测,输入有关风速、风向、温度等作为训练集,并通过沿海电场的具体数据进行仿真测试,以验证算法的准确度 [9] 。有较多的学者对烟草行业的质量管理进行了研究,但对于烟草的加工环节进行分析较少,且BP神经网络很容易出现过拟合,容易陷入局部最优的问题。
基于上述研究中存在的问题,本文考虑了卷烟制作过程中的部分数据缺失,对数据进行了补全,有别于以往实验中并且应用元启发式算法中的麻雀搜索算法对BP神经网络进行优化,根据有关卷烟生产中的批次号、检测时间、重量、圆周、吸阻等烟草数据进行数据挖掘,对烟草的生产过程进行预测分析,并通过某企业的烟草实际生产数据进行分析,验证其合理性和有效性。
2. BP神经网络模型
BP神经网络是一种按照误差进行逆向传播算法训练的多层前馈神经网络,是目前所有神经网络中应用最普及的,其主要由信息的正向传播和反向传播两部分组成,BP神经网络主要思想是梯度下降法(Gradient descent)是一种常用的一阶优化方法,梯度下降法的核心是通过多次重复性训练对训练结果和预期结果进行对比误差分析,进一步修改权值和阈值使训练出来的模型与预期模型一致 [10] 。在本文中设置主要的工艺参数分别为重量、圆周和吸阻。根据神经网络的特性来设置相关的输入层节点数、隐含层层数和输出层节点数,然后根据构建的神经网络模型确定相应连接层之间的权值和阈值,最后构建整个完整的BP神经网络模型。
BP神经网络在深度神经网络中应用最为广泛,因为它作为一个反馈神经网络,能进行反向传播,因此对于风险的评估能力更好,缩小误差,并且能够明确的反应输入信息对输出信息的影响情况并对数据的包容性较好。有较多研究使用BP神经网络进行烟草制造方面的预测,对烟草的原料环境的搭建、虫害防治、能源管理进行预测研究 [11] [12] ,但是对于卷烟制作过程中的预测研究较少且存在一些缺陷不足之处:第一,传统的BP神经网络由于阈值和权值的设定数值不同且BP神经网络的原理为寻找收敛的位置容易出现局部最优的情况,而最后输出的数值并不是预期结果,并且可能因为阈值等的设定不合理,导致训练时间很长 [13] 。第二,由于BP神经网络本质是反复进行迭代,因为对于迭代的步长也需要随着迭代的进行不断优化,这样会导致算法的低效性。第三,传统BP神经网络对于隐含层层数、阈值、权值的选择会导致算法陷入局部最小值,因此对于烟草生产所需要的精度无法满足。对于以上的诸多不足之处,本文使用麻雀搜索算法(Sparrow Search Algorithm, SSA)对阈值和权值的选择进行分析,使算法的精准度更优。
3. 麻雀搜索算法
麻雀搜索算法是元启发算法中的一种,元启发算法主要包括了灰狼算法(Grey Wolf Algorithm)、鲸鱼优化算法(Whale Optimization Algorithm)等。麻雀搜索算法因为其局部搜索能力较强,收敛速度快的特性,多用于图像分析、优化BP神经网络、运行路径规划等方面,麻雀搜索算法通过模拟麻雀进行觅食的行动轨迹建立有关发现者、追随者和警戒者的模型寻求最优解。麻雀搜索算法的原理为通过发现者去搜寻食物较多的地区然后为所有的发现者、追随者和警戒者提供位置指引,而当有麻雀发现捕食者就会发出声音以作警报,警报的信号高于设定的安全范围时,发现者会发送信号带领其他麻雀往其他的富含食物的区域进行觅食。在整个过程中麻雀的身份不固定,可以作为发现者进行寻觅,也可以作为追随者跟随觅食,只要寻找到合适的觅食地点就会成为发现者,但在麻雀搜索算法中,发现者在麻雀总数中所占比例是固定的,在算法中,发现者的能量对于食物获取的有效性有着明显的影响,能量越高,获得的觅食位置就会越好,而能量低的发现者需要前往新的地区寻找食物,而在觅食过程中,一些追随者会与进食位置较好的发现者竞争食物资源,在警戒者发出足够大的警戒信号后,位于进食区域边缘的麻雀会飞往其他安全区域进行觅食,而中间部分的麻雀会随机移动,靠近其余的麻雀。
在麻雀搜索算法中,对于发现者的位置更新公式如下:
(1)
式中,t为常数,表示最大的迭代次数;
表示麻雀中的个体i在第j维空间中的位置;α为常数,
;
和ST分别表示麻雀搜索算法中的预警值和安全值;Q表示服从正态分布的随机数;L为一个1*d的矩阵,其中所有值均为1。
在该位置更新式中,
,其中
、
,表明目前的该区域是安全的,周边并没有较多的警戒者发现危险,而当
时表示该区域已经有危险,有部分警戒者发现了捕食者并且发出来警戒信息,在该情况下麻雀需要前往其他地区进行觅食。
有关追随者的位置更新公式如下:
(2)
其中
是发现者寻找到的最好的觅食位置;
是发现者寻找到的觅食点中最差的位置;A为1*d的矩阵,矩阵中的每一个元素被赋值为−1或者1,并且需要满足
。
在上式中,追随者还会随时观察发现者,当发现者找到更好的食物时会快速离开当前位置,前往与发现者争夺食物,如若成功,追随者将获得该区域进行觅食,反之需要执行上述公式(2),当
时,表示在能量较低的种群中,从第i个开始将无法获取食物,追随者需要前往其他地方发现食物或追随其他发现者前往其他区域进行觅食。
警戒者会随机在麻雀中产生,它们会在出现危险时发出警戒信息并离开该区域前往其他区域进行觅食警戒者在麻雀群体中的占比一般为10%~20%,有关警戒者的位置信息表达式如下:
(3)
其中,
表示全局最优的位置;β表示控制步长的参数,符合均值为0,方差为1的正态分布规律;
是随机数,表示麻雀的移动方向;
表示第i个个体的适应度值;
和
分别表示麻雀群体中全局的最优和最差适应值;ε为常数,避免公式出现分母为0的情况。
4. SSA-BP神经网络的卷烟制造质量管理相关模型
BP神经网络的实现是通过无监督学习,根据模型的表现情况不断对模型的权值和阈值进行调整,以提高模型的准确度,而加入麻雀搜索算法后,可以直接通过麻雀搜索算法的结果来判断BP神经网络中权值和阈值的最优值,从而避免BP神经网络因为训练次数较多而导致的过度训练的情况,同时可以避免模型在预测中陷入局部最优。因此加入麻雀搜索算法对模型进行优化,构建有关烟草企业内部卷烟生产环节的SSA-BP神经网络模型。
SSA对BP神经网络优化的具体步骤为:
1) 数据处理。对提供的数据中存在缺失值超过10%的数据进行分析,删除该特征值,对于缺失值不超过10%的数据使用中位数、平均数补全,为了防止某一组特征值的数据对预测结果产生较大的影响,对数据进行归一化处理,以确保每一组数据都在较小的特定空间内,常见的归一化处理有min-max法、归一化z-score法和归一化比例法,本文使用min-max法进行归一化,以加快模型的收敛速度,提升模型的精确度 [14] 。
2) 确认BP神经网络的模型。由于数据中包含了许多有关卷烟生产环节的要素,而其中对于制丝环节预测有关的要素主要为叶丝增温增湿环节的入口水分以及出口温度,烘丝环节的筒壁温度和加香环节的出口水分,因此可以确定该BP神经网络的输入节点个数为4个,而根据预测的数据分析确定加料润叶的瞬间精度为该模型的输出节点为1个,并通过下列公式计算隐含层节点数:
(4)
其中v为输入层,q为输出层,α为1~10的常数。
寻找合适的隐含层节点数可以保证该网络模型的逼近能力和泛化能力,而为了使精度进一步提升,使用黄金分割法进行隐含层节点数计算,在BP神经网络中,阈值和权值会在每一次训练时进行调整,逐步通过试验获得最优值,使得该神经网络达到最佳效果。神经网络的模型是通过模仿脑部神经来进行构建的,而神经元之间的信息进行相互传输需要对后一个神经元进行适度的刺激,而该刺激量被称为阈值,阈值过大会导致信息改变,过小会对导致信息无法正常传输。
3) 确定麻雀搜索算法有关参数值。设计麻雀搜索算法的进化次数
取值范围为[5, 15],种群规模sizepop的取值范围为[50, 60],同时将发现者设置为在整个种群中占0.2。
4) SSA计算种群适应度及更新最优个体。限制全局最优适应值,根据个人的适应度值对生产者的能量储备水平进行测评,获取初始化收敛曲线,对麻雀的适应度值进行排序,获取其下标,从中获取最大的适应度值及相应的下标,将获取的模型算法结果与预期结果进行对比,差异化最小的模型即为最优解。根据最初设定的权值和阈值代入模型中,计算有关设置预警值,根据预警值的大小判断是否受到威胁,需要前往其他地域进行觅食,对麻雀的饥饿度根据能量进行分析,根据麻雀可能发生的争夺食物和预测危险的行为进行麻雀位置更新,最后进行重复迭代,直至寻找到最佳结果,结束迭代。
5) 输出最优的权值和阈值。根据模型得到输入层到隐含层1层、隐含层1层到隐含层2层、隐含层2层到输出层的相应权值,确认该模型的输入到隐含层的权值、隐含层到输出层的权值分别如下所示:
、
。而根据麻雀搜索算法可以得出BP神经网络的输入到隐含层的初始阈值为
,隐含层到输出层的初始阈值为
。
6) BP神经网络获取最优参数,进行训练及预测。将麻雀搜索算法得到的最优解代入BP神经网络中,明确模型的权值和阈值,在BP神经网络最优化情况下进行有关卷烟制丝环节的质量预测。
5. 实验结论
本文采用了传统BP神经网络与麻雀搜索算法优化的BP神经网络相结合的方式进行对比,如图1~图4所示,对模型的精确度、准确度、误差等方面表现进行分析对比,通过图像及验证麻雀搜索算法优化BP神经网络的预测值与真实值的误差情况,证明麻雀搜索算法优化后的BP神经网络的优越性。使用均方根误差(RMSE)、平均绝对误差(MAE)对模型进行对比分析评价,判断模型的预测值与实际值之间的偏差情况。
(5)
![](//html.hanspub.org/file/57-2571025x33_hanspub.png?20230724102110833)
Figure 1. SSA optimization of the BP neural network process training curve
图1. SSA优化的BP神经网络的过程训练曲线
![](//html.hanspub.org/file/57-2571025x34_hanspub.png?20230724102110833)
Figure 2. SSA optimized BP neural network simulation prediction error curve
图2. SSA优化BP神经网络仿真预测误差曲线
![](//html.hanspub.org/file/57-2571025x35_hanspub.png?20230724102110833)
Figure 3. SSA optimization BP neural network fitness curve
图3. SSA优化BP神经网络的适应度曲线
![](//html.hanspub.org/file/57-2571025x36_hanspub.png?20230724102110833)
Figure 4. The prediction curve of traditional BP neural network
图4. 传统BP神经网络的预测曲线图
(6)
根据卷烟制造环节的相关数据,有关出口温度的均值,筒壁温度的均值和SD值,出口水分的均值和SD值,加料润叶的SD值建立模型,对传统BP神经网络模型和麻雀搜索算法优化的BP神经网络模型进行评估,观察BP神经网络在不同的参数下完成预测的情况,选出泛化能力更强的模型完成质量管理预测工作。
麻雀搜索算法优化的BP神经网络的预测数据与实际数据进行对比,发现平均绝对误差MAE为0.003322,均方差MSE为0.11081,均方根误差RMSE为0.33288,由于平均绝对误差、均方差和均方根误差越小说明模型的预测效果更好,而未经过麻雀搜索算法优化的BP神经网络有关预测数据和实际数据之间对比的结果为:平均绝对误差MAE为0.006765,均方差MSE为0.24445,均方根误差RMSE为0.49442。有关模型的MAE值、MSE值和RMSE值都是常见的回归函数的损失函数,而损失函数越小越好,因此从数据对比可以看出通过SSA优化之后的BP神经网络比未优化的BP神经网络损失函数值更小,表现效果更好,结果更优。
本研究采用了混淆矩阵的评价方法,如表1,将产品分为了TP、FP、FN、TN四种类别,然后根据检验数据的TP、FP、FN、TN四个值进行相关精确率、准确率、召唤率和模型精确率和召回率的一种加权平均的计算,计算公式如下所示:
![](Images/Table_Tmp.jpg)
Table 1. Comparison table of models of SSA optimized BP neural network and BP neural network
表1. SSA优化BP神经网络及BP神经网络的模型对比表
① 精确率Precision,表明预测正确的合格品类的百分比,公式如下:
(7)
② 准确率Accuracy,表示所有样本分类结果与检测数据类型一致的概率,公式如下:
(8)
③ 召唤率Recall,表示预测正确的合格品数量占所有合格品数量的比例,公式如下:
(9)
④ f1代表模型精确率和召回率的一种加权平均,公式如下:
(10)
在上述的实验中可以得出SSA优化的BP神经网络分类预测模型可以对卷烟制造环节的合理的预测,为了明确bp神经网络在预测模型中的优越性,因此使用KNN模型,SVM模型,Logistic回归分类模型和QDA二次判别分析模型对X企业的实际数据进行分析,将结果与BP神经网络模型进行对比,分析不同模型对X企业卷烟生产过程中质量的预测情况,选出最优的模型。
在建立完成以上四种模型之后,对上述的四种模型与BP神经网络进行对比,BP神经网络在模型的精确度、准确度、回收率等方面表现都比其他模型更优。从四项评估标准来衡量,其在四项指标中的数值均是最高的,因此可以判断BP神经网络的分类预测效果最优,而其次是KNN模型,再次是支持向量机模型与Logistic回归分类模型,而分类预测效果最差的是QDA二次判别分析模型。
从数值上来看,BP神经网络的评估数值只比KNN模型高上零点几个百分点,但因为本次实验的样本量只有三万多个,因此虽然从数值来看差距很小,但是当应用于大规模的实际生产之中时,BP神经网络模型的表现会比KNN模型具有更好的优越性。除此之外,支持向量机模型和Logistic回归分类模型在recall的指标上表现很好,说明这两个模型在对合格品的核定上有着一定的借鉴意义,可以在实际检验中用作参考。另外,QDA二次判别分析模型的相关数据,该模型并不适用于对于卷烟生产过程的检验与预测,见表2。
![](Images/Table_Tmp.jpg)
Table 2. Model comparison analysis table
表2. 模型对比分析表
6. 结论
根据数据结果得出经过SSA优化的BP神经网络具有较好的模型效果,通过与原始BP神经网络进行对比,从损失函数中的平均绝对误差MAE、均方差MSE和均方根误差RMSE可以看出经过SSA优化的BP神经网络效果更好,预测值与实际值的误差较小。使用bp神经网络与KNN模型、SVM模型、Logistic回归分类模型,QDA二次判别模型的不同概念及特点进行对比,建立合理的步骤对相应的模型进行分析,判断不同模型对卷烟生产过程中质量管理的效果优劣,证明了bp神经网络在对于X企业的烟草质量分类预测的优越性。但由于使用了实际的烟草数据,有许多个特征值,而本文只考虑了部分特征值构建的bp神经网络,因此在实际使用中可能效果并没有很好的效果。在未来的研究中,需要对企业内部数据的多个特征值综合考虑,尽量添加足够多的特征值进行分析,使构建的模型在实际使用中的效果与实验效果相同。