基于Bi-LSTM的不平衡样本文本分类模型
Bi-LSTM Based Text Classification Model for Imbalanced Samples
DOI: 10.12677/CSA.2023.1311197, PDF, HTML, XML, 下载: 214  浏览: 293 
作者: 王欣羽, 李 薇:燕山大学理学院,河北 秦皇岛
关键词: 不平衡数据LSTM情感分类特异度指标Focal损失Imbalanced Data LSTM Sentiment Classification Specificity Indicator Focal Loss
摘要: 情感分类任务通常是将有情感倾向的样本分为积极和消极两类。在大多数的理论模型中,这两类样本的数量都被假定是平衡的,而事实上,这两类样本在现实生活中一般是不平衡的。为解决这一问题,提出一种基于Focal损失的Bi-LSTM神经网络模型。首先,采集并标注了24,190条旅游评论作为该模型的数据集,其中积极样本远多于消极样本。为达到更好的分类结果,首先将样本数据集分为核心样本和非核心样本,并剔除非核心样本,提高数据质量;其次,用基于Focal损失的Bi-LSTM神经网络模型对数据进行训练;最后,对测试集进行验证并得到最终分类结果。通过准确率(accuracy)、F1、召回率(recall)和特异度指标(specificity)这四个评价指标判断模型优劣。一系列的实验结果显示,基于Focal损失的Bi-LSTM神经网络模型能够更好的解决样本不平衡的问题,与传统的LSTM模型分类方法相比,其分类性能更好。
Abstract: In general, the task of sentiment classification usually divides samples with emotional tendencies into two categories: positive and negative. In most theoretical models, the number of samples in these two categories is assumed to be balanced, while in fact, the two categories are generally un-balanced in real life. In this paper, a Bi-LSTM network model based on Focal loss is proposed to clas-sify sentiment for unbalanced sample data. Firstly, 24,190 travel reviews were collected and la-beled as the dataset of the proposed model, whose positive samples were much more than negative samples. In order to achieve better classification results, the sample dataset is first divided into core and non-core samples, and the non-core samples are eliminated to improve the data quality; secondly, the data were trained with a Bi-LSTM neural network model based on Focal loss; finally, the test set is validated and the final classification results are obtained. Four evaluation metrics, accuracy, F1, recall and specificity, are used to judge the model merits. A series of experimental results show that the Bi-LSTM neural network model based on Focal loss can better solve the problem of sample imbalance and has better classification performance compared with the traditional LSTM model classification method.
文章引用:王欣羽, 李薇. 基于Bi-LSTM的不平衡样本文本分类模型[J]. 计算机科学与应用, 2023, 13(11): 1989-1999. https://doi.org/10.12677/CSA.2023.1311197

1. 引言

近年来,情感分类任务一直是国内外热门的研究课题之一,它主要通过分析文本内容中所表达的意义和情感信息,将其分为积极或消极倾向的两种或多种类型。情感分类的主要目的就是识别用户对事物或人的主观看法和态度,所以它也被称为意见抽取、情感挖掘等 [1] 。随着互联网技术的普及与发展,越来越多的网络用户会在社交平台或购物平台上发表带有主观情感的评论。提取这些评论的重要信息并对其进行分析预测,推断用户情感以及需求的倾向性成为这些平台关注的重点内容之一。而在情感分类任务中,将文本情感倾向划分为积极和消极两类是最为常见的,因此本文研究的是二分类问题。而在目前已有的研究方法中,基于神经网络模型的有监督学习方法是目前的主流方法。杜启明等 [2] 提出了一种结合上下文和依存句法信息的中文短文本情感分析模型,该模型不仅利用双向长短期记忆网络提取文本的上下文语义,而且引入了一种基于依存关系感知的嵌入表示方法,以加强文本表示中的情感特征。实验表明,该模型在SWB,NLPCC2014和SMP2020-EWEC数据集上能够有效融合语句中的语义以及句法结构信息,在中文短文本情感二分类以及多分类中均取得了较好的效果。王娅丽等 [3] 针对目前结合图卷积网络的研究忽略方面术语本身含义以及方面术语与上下文之间的交互的问题,提出了基于交互注意力和图卷积网络的模型IAGCN,该模型结合BiLSTM和修正动态权重层对上下文进行建模,并在句法依存树上使用图卷积网络对句法信息进行编码,然后利用交互注意力机制学习上下文和方面术语中的注意力,重构上下文和方面术语的表示,最后通过softmax层获取给定方面术语的情感极性。与其他模型相比,所提模型在5个数据集中的准确率和F1值都有了显著的提高。

在一般的情感分类模型研究中,通常假定数据集各类别样本数量是相同的,即积极样本和消极样本的数目是均衡的,但在现实生活中遇到的实际问题通常不能满足这个条件。也就是说在实际收集到的数据中,积极样本和消极样本的数量往往是不平衡的,因此如何对不平衡样本进行分析就显得尤为重要,这就产生了进一步的研究 [4] 。当传统的机器学习模型被用来对不平衡的样本进行情感分类时,最终的分类结果会倾向于样本量大的类别,导致模型失真和分类结果准确率的下降。因此,研究不平衡样本的情感分类任务是很有必要的。之前已经有很多学者对不平衡样本情感分类进行了研究。郭朝有等 [5] 融合了Canopy和K-means两种聚类算法,设计了C-K-SMOTE改进算法处理样本不平衡问题。实验表明C-K-SMOTE算法可有效平衡不平衡数据集。梁越等 [6] 提出了基于虚拟对抗训练(VAT)的类别不均衡小样本控申文本分类方法,针对信访信件数量偏少且存在对抗样本的情况,在模型训练时引入VAT进行优化。任金金等 [7] 设计了新的BP NNS非均衡数据分类方法,即采集处理不均衡数据信息降低数据分类难度;计算不均衡数据分类子类样本数量提高数据分类敏感性;构建不均衡数据分类模型提高数据分类的流畅性,从而实现不均衡数据高精度分类。Tanha [8] 在多类不平衡常规数据集和大数据集上,CatBoost算法和LogitBoost算法分别优于其他增强算法。此外,在多类不平衡数据域中,MMCC是比MAUC和G均值更好的评价指标。

本文通过改进机器学习模型中常用的交叉熵损失函数,将Focal损失应用到Bi-LSTM网络中,从模型上处理不平衡分类问题,达到提高分类器性能的目的。

本文的主要贡献概括如下:

1) 构建中文多平台旅游评论数据集,该数据集包含24,190条旅游评论,分为积极和消极两类。

2) 将两类样本分为核心样本和非核心样本,即情感倾向性强的样本和情感倾向性弱甚至于没有情感倾向性的样本,对两类样本的非核心样本进行删除处理,以提高样本质量。

3) 为了有效的解决数据集样本情感倾向类别不平衡对分类效果的影响,提出基于Focal损失的Bi-LSTM神经网络模型,该模型包括输入层,编码层,Bi-LSTM层,Attention层和输出层五个部分。

4) 基于构建的评论数据集进行了相关实验,实验结果表明:不论训练集和测试集是否为同一平台数据,该模型在评价指标上都有优异表现,体现了该模型的泛化性和有效性。

2. 模型设计与实现

2.1. 构建多平台旅游评论数据集

情感分类任务的语料库大多是英文语料,中文的语料很少。主要是因为一些平台的数据涉及到用户的隐私,所以并不会公开大量的评论,这使得研究中文文本分类任务变得困难。本文通过八爪鱼采集器采集了携程网和去哪儿网的旅游评论数据共24,190条,构建了一个多平台的旅游评论数据集 [9] 。评论的情感分类分为积极情感和消极情感两类,在进行人工标注情感极性时发现数据集具有样本不平衡的特点。为进一步提高样本质量,将两类样本分为核心样本和非核心样本,核心样本是指情感倾向性强的样本,如“这里的景色很美,像画一样,还能感受到历史的厚重,值得一游”。非核心样本是指情感倾向性弱甚至于没有情感倾向性的样本,如“该用户默认好评”。清洗掉两类样本中的非核心数据,得到情感倾向性较强的数据集作为本文的实验数据集。最终得到的数据集中积极情感的评论数据集约为消极情感评论数据集的3倍。所以接下来本文将对不平衡样本的情感分类任务进行研究。

2.2. 基于Bi-LSTM模型的文本分类研究

在本节中,本文将详细介绍Bi-LSTM-Att-Focal loss模型。如图1所示,本文提出的模型包含五个部分:

1) 输入层:输入预处理后的旅游评论;

2) 编码层:将句子中的每个词映射到低维向量;

3) Bi-LSTM层:利用Bi-LSTM网络模型获取高级特征;

4) Attention层:生成权重向量,将每个单词级特征合并成句子级特征向量;

5) 输出层:使用句子级特征向量进行情感分类。这些部分都将在本节中详细介绍。

2.2.1. Word2vec词向量方法

文本表示是将非结构化数据、不可计算的文本转换为计算机可以识别的数据信息 [10] ,简单来说就是

Figure 1. Structure of the neural network model

图1. 神经网络模型结构图

不把文本看作字符串,而是看作在数学上处理起来更为方便的向量。常见的文本表示方法有one-hot独热编码、词袋模型、词嵌入等等。Word2vec和Glove是词嵌入的两种主流算法。在提出词嵌入技术之前,one-hot独热编码被广泛应用以处理文本信息,这种编码方式简单直接,一个词用一个长度为词典长度的向量表示,词向量中仅一个元素为1,其它均为0。这种方式的缺点在于编码无法反映词与词之间的关系,且维度较多计算量较大,使得该编码方式储存效率低下 [11] 。同样地,词袋模型也有类似独热编码的缺点。而词嵌入技术作为自然语言处理的重要突破之一,比上述两种编码方式有更多的优点:

1) 该方式不会像独热编码一样维度很长,转而通过低维度的向量来表示文本;

2) 文本中相近词意的在空间上距离也较为相近;

3) 该编码方式普遍适用性强,用途广泛 [12] 。

本文所采用的是词嵌入技术的其中一种,Word2vec。Word2vec有两种训练模式:

1) 连续词袋模型(Continuous Bag-of-Words Model, CBOW),该模型是将一个词本身作为输出,通过上下文来预测这个词和它的意思,适用小型训练数据;

2) 连续跳字模型(Continuous Skip-gram Model, Skip-gram),该模型是将一个词本身作为输入,通过这一个词来预测可能出现的上下文的词,适合训练大型的数据。

上述两者的结构如图2所示。

Figure 2. Word2vec structure diagram

图2. Word2vec结构图

较其他的词嵌入方法相比,Word2vec进行文本表示的效果更好 [13] ,它所依靠的模型会联系上下文关系,从而使词向量维度大大降低,处理速度也更快。并且Word2vec具有高度的通用性,适用于广泛的自然语言处理应用。同时,它能够比较准确的计算词语的相似度。所以本文通过Word2vec对数据预处理之后的样本进行训练,得到相应的词向量。

2.2.2. 神经网络模型

为解决梯度爆炸和梯度消失问题,Hochreiter S.和Schmidhuber J.次提出了LSTM网络模型 [14] ,其主要思想是引入一种自适应门控机制,它可以有选择的将信息去除或增加到当前的单元状态上,从而更好地提取特征信息。之后就有很多学者提出了大量的LSTM变体。本文采用了其中一种变体 [15] 。通常,由三个部分合成基于LSTM的递归神经网络:

1) 输入门 i t 与相应的权重矩阵 W x i W h i W c i b i

2) 遗忘门 f t 与相应的权重矩阵 W x f W h f W c f b f

3) 输出门与相应的权重矩阵 W x o W h o W c o b o 。设置好所有这些相应的部分后,由当前输入 x i 、前一步生成的状态 h i 1 ,以及前一个单元状态 c i 1 ,决定是否进行输入,遗忘之前存储的信息,并记忆新生成的信息。正如下面的方程式所示:

i t = σ ( W x i x t + W h i h t 1 + W c i c t 1 + b i ) (1)

f t = σ ( W x f x t + W h f h t 1 + W c f c t 1 + b f ) (2)

g t = tanh ( W x c x t + W h c h t 1 + W c c c t 1 + b c ) (3)

c t = i t g t + f t c t 1 (4)

o t = σ ( W x o x t + W h o h t 1 + W c o c t 1 + b o ) (5)

h t = o t tanh ( c t ) (6)

因此,当前单元状态 c t 是由前一个单元保留的信息和当前单元生成的新的信息计算加权和来生成的。对于情感分类任务来说,我们需要所使用的网络模型可以通过捕捉双向的语义以更完整的提取文本的特征信息。然而,基础的LSTM网络随时间推移对序列信息按顺序进行处理,因此它们忽略了下文可能对当前状态产生的影响。而Bi-LSTM网络由两个输出方向相反的LSTM隐藏层组成,能够同时利用上下文的信息对当前状态进行计算,能够更准确、更完整的提取特征信息。

在本文中,我们使用了Bi-LSTM网络,该网络包含了两个针对左右序列上下文的子网络,由一个向前传递的网络和一个向后传递的网络组成。第个字的输出为:

h i = [ h i h i ] (7)

在这里,我们使用元素求和来组合正向和反向传递输出。

2.2.3. 注意力机制

本节主要介绍分类任务的注意机制,具体结构如图3所示。设H是一个由Bi-LSTM层产生的输出向量 [ h 1 , h 2 , h 3 , , h T ] 组成的矩阵,其中T是句子长度。句子的表示r由这些输出向量的加权和组成,相关公式为:

M = tanh ( H ) (8)

α = softmax ( ω T M ) (9)

r = H α T (10)

其中 H R d ω × T d ω 是词向量的维数, ω 是一个训练好的参数向量, ω T 是一个转置子。 ω α ,r的维数分别是 d ω ,T, d ω 。最终用于分类的公式为:

h * = tanh ( r ) (11)

Figure 3. Structure of the attentional mechanism

图3. 注意力机制结构图

2.2.4. Focal损失

在文本分类任务中,大多数的分类器都会使用交叉熵损失函数作为模型的损失函数,但它并不能改善不平衡样本对分类模型造成的消极影响。为进一步提升分类器的性能,本文用Focal损失 [16] 代替传统的交叉熵损失函数,从而优化模型以更好的解决样本不均衡问题,并取得了不错的效果。

Focal损失的提出源自图像领域中目标检测任务中样本数量不平衡性的问题,并且这里所谓的不平衡性跟平常理解的是有所区别的,它还强调了样本的难易性。因为Focal损失 [17] 是在交叉熵损失函数的基础上提出的,具体公式如下:

F L ( p t ) = ( 1 p t ) γ log ( p t ) (12)

其中 γ 为调节因子,取值为[0, 5],当 γ = 0 ,就等同于CE函数 [18] ; γ 值越大,表示模型在难易样本上聚焦的更厉害。但是上面的Focal损失公式只是体现了难易样本的区分,没有区分正负。这样就引出了完整版的Focal损失表达形式:

F L ( p t ) = α t ( 1 p t ) γ log ( p t ) (13)

这样Focal损失既能调整正负样本的权重,又能控制难易分类样本的权重。本文将该损失函数应用到文本情感分类任务中处理样本不平衡问题,得到较好的效果。

3. 实验结果与分析

3.1. 数据集采集标注及预处理

本实验的评论语料是由作者通过八爪鱼采集器在携程网和去哪儿网等平台采集了24,190条中文旅游评论构建而成。获取数据集后由3名研究人员以盲的形式对数据集进行情感标注,将表达积极情感的语句标签设置为1,消极情感的语句标签设置为0。经过此处理的评论标签数据才可以作为模型训练的数据。其中包含训练数据集21,244条,测试数据集515条。部分实验数据如表1所示,词向量表示如表2所示。

Table 1. Partial experimental data

表1. 部分实验数据

Table 2. Word vector representation of selected data

表2. 部分数据的词向量表示

3.2. 评论文本预处理

由于采集的数据集是不平衡样本,积极评论远多于消极评论,所以对数据集进行了预处理并构建字典和数字特征列表,得到模型训练数据,具体过程如下:

1) 对数据集进行预处理,筛除去部分不具有情感倾向的样本,如“该用户评价默认好评”。

2) 对评论数据集进行中文分词,去掉评论文本中的表情包,标点符号,以及停用词等,本文选择的分词工具是jieba中文分词库,最终得到只含有汉字的评论数据集,并输出每条评论语句相对应的分词列表。

3) 构建字典,字典中包含评论数据集中所有的词汇集。

4) 得到评论数据集的字典后,利用Word2vec将数据集中的每条评论文本对应的分词列表转换为数字特征列表。处理后得到的部分Word2vec词向量如表2所示。

5) 规定最长文本数据长度,该数据集文本数据的最长长度为169,再截长补短使得所有样本的长度一致。

6) 利用one-hot独热编码对评论标签进行转换,经过这六步处理的评论文本数据才可以作为模型训练的数据。

3.3. 评论情感分类结果及分析

3.3.1. 评价指标

本文采用准确率(accuracy)、F1、召回率(recall)、特异度(specificity)、四个指标作为模型的测评指标,具体公式如下。其中,F1和特异度(specificity)是判定样本不均衡模型优劣的重要指标。

a c c u r a c y = T P + T N T P + T N + F P + F N (14)

F 1 = 2 T P 2 T P + F P + F N (15)

r e c a l l = T P T P + F N (16)

s p e c i f i c i t y = T N T N + F P (17)

损失函数采用Focal损失,公式为:

F L ( p t ) = α t ( 1 p t ) γ log ( p t ) (18)

3.3.2. 分类结果及分析

本文将Bi-LSTM-Att-Focal loss分类模型的与Bi-LSTM分类模型和Bi-LSTM-Att分类模型进行对比,通过测试集的评价指标判断模型效果的优劣,另外,为检测模型的泛化性,本文还针对不同平台数据进行了对比实验,具体结果如下:

a) 表3为训练集与测试集为不同平台数据的结果;

b) 表4为训练集与测试集为同一平台数据的结果。

本实验通过柱状图更直观的表现出三个模型评价指标的优劣,具体结果见图4图5

Table 3. Evaluation indicators for different platform data test sets

表3. 不同平台数据测试集评价指标

Figure 4. Histogram of evaluation indicators for different platform data test sets

图4. 不同平台数据测试集评价指标柱状图

Table 4. Evaluation indicators for the same platform data test set

表4. 同一平台数据测试集评价指标

表3表4的模型评价指标来看,与传统的LSTM分类模型相比,Bi-LSTM-Att-Focal loss分类模型有更优的评价指标。尤其在判断样本不平衡模型优劣的特异度(specificity)指标上,Bi-LSTM-Att-Focal loss分类模型较其他两个模型有显著提高,可见该模型确实能改善样本不平衡给分类模型造成的消极影响。另外,在模型的泛化能力上,以测试集的评价指标为准,我们可以看到当训练集与测试集不是同一平台的数据时,模型的准确率基本在93%以上,而当训练集与测试集是同一平台的数据时,模型的准确率基本在95%以上,说明不同数据在该模型下的准确率都是比较高的,该模型的泛化能力是不错的。

为进一步判断分类模型的优劣,本实验绘制了三个模型的loss随epoch变化的折线图,如图6所示。

Figure 5. Histogram of evaluation indicators for the same platform data test set

图5. 同一平台数据测试集评价指标柱状图

Figure 6. Folding graph of loss with epoch

图6. loss随epoch变化折线图

图6来看,Bi-LSTM-Att-Focal loss分类模型与传统LSTM分类模型相比有更稳定的loss变化,整体loss值较其他两个分类模型显著变小,可见Bi-LSTM-Att-Focal loss分类模型的分类效果更好。通过上述实验反映出的结果来看,本文所提出的模型指标较另外两个模型有显著提升,为更好地判断该模型与另外两个模型准确率(accuracy)的均值是否有显著差异,本文对三个模型进行了假设检验,假设检验结果如表5所示。

Table 5. Hypothesis testing results

表5. 假设检验结果

表5中可以看出P值都小于0.05,即拒绝原假设,说明Bi-LSTM-Att-Focal loss模型的准确率较Bi-LSTM模型和Bi-LSTM-Att模型相比有显著差异。即Bi-LSTM-Att-Focal loss模型的分类性能更优。

4. 结论

本文提出一种基于Focal损失的Bi-LSTM网络模型,来处理常见的不平衡数据问题。方法中首先构建了旅游评论数据集,采用欠采样方法对数据进行处理,然后利用基于Focal损失的Bi-LSTM网络模型对训练集进行训练,最后使用训练好的模型对测试集进行测试并得到分类结果。最终的实验结果表明,文中提出的方法确实能够更好地处理不平衡样本的情感分类任务,该方法相比于传统LSTM分类模型性能有显著提高。

本文只是提出了一种从模型上处理不平衡样本情感分类问题的方法,还可以从其他角度出发来解决不平衡样本的情感分类问题。未来工作中,会考虑从改进词嵌入 [19] 或样本增广等方面处理不平衡数据情感分类问题。我们会在接下来的时间里研究这个问题,力求提升情感分类器的性能。

参考文献

[1] 林夕, 陈孜卓, 王中卿. 基于不平衡数据与集成学习的属性级情感分类[J]. 计算机科学, 2022, 49(S1): 144-149.
[2] 杜启明, 李男, 刘文甫, 等. 结合上下文和依存句法信息的中文短文本情感分析[J]. 计算机科学, 2023, 50(3): 307-314.
[3] 王娅丽, 张凡, 余增, 等. 基于交互注意力和图卷积网络的方面级情感分析[J/OL]. 计算机科学: 1-16. http://kns.cnki.net/kcms/detail/50.1075.TP.20221228.1124.001.html, 2023-03-29.
[4] Xu, G., Yu, Z., Yao, H., et al. (2019) Chinese Text Sentiment Analysis Based on Extended Sentiment Dictionary. IEEE Access, 7, 43749-43762.
https://doi.org/10.1109/ACCESS.2019.2907772
[5] Barandela, R., Sanchez, B.J.S., Garcia, V., et al. (2003) Strategies for Learning in Class Imbalance Problems. Pattern Recognition, 36, 849-851.
https://doi.org/10.1016/S0031-3203(02)00257-1
[6] 郭朝有, 许喆, 马砚堃, 等. 面向不平衡数据集融合Canopy和K-means的SMOTE改进算法[J]. 科学技术与工程, 2020, 20(22): 9069-9074.
[7] 梁越, 刘晓峰, 李权树, 等. 面向司法文本的不均衡小样本数据分类方法[J]. 计算机应用, 2022, 42(S2): 118-122.
[8] 任金金, 汪绪彪. 基于神经网络的不均衡数据分类方法[J]. 长江信息通信, 2022, 35(12): 70-72.
[9] Tanha, J., Abdi, Y., Samadi, N., et al. (2020) Boosting Methods for Multi-Class Imbalanced Data Classification: An Experimental Review. Journal of Big Data, 7, 1-47.
https://doi.org/10.1186/s40537-020-00349-y
[10] 杨敏, 李君轶, 徐雪. ICTs视角下的旅游流和旅游者时空行为研究进展[J]. 陕西师范大学学报(自然科学版), 2020, 48(4): 46-55.
[11] 史沛卓, 陈凯天, 钟叶珂, 等. 基于Text CNN的中国古诗文分类方法研究[J]. 电子技术与软件工程, 2021(10): 190-192.
[12] Wang, Y.S., Sohn, S., Liu, S.J., et al. (2019) A Clinical Text Classification Paradigm Using Weak Supervision and Deep Rep-resentation. BMC Medical Informatics and Decision Making, 19, 1-13.
https://doi.org/10.1186/s12911-018-0723-6
[13] 李文亮, 杨秋翔, 秦权. 多特征混合模型文本情感分析方法[EB/OL]. 计算工程与应用: 1-12.
https://kns.cnki.net/kcms/detail/11.2127.TP.20210621.1806.004.html, 2021-07-02.
[14] 唐明, 朱磊, 邹显春. 基于Word2Vec的一种文档向量表示[J]. 计算机科学, 2016, 43(6): 214-217.
[15] Hochreiter, S. and Schmidhuber, J. (1997) Long Short-Term Memory. Neural Computation, 9, 1735-1780.
https://doi.org/10.1162/neco.1997.9.8.1735
[16] Zhou, P., Shi, W., Tian, J., et al. (2016) Attention-Based Bidirec-tional Long Short-Term Memory Networks for Relation Classification. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, 2, 207-212.
https://doi.org/10.18653/v1/P16-2034
[17] Mukhoti, J., Kulharia, V., Sanyal, A., et al. (2020) Calibrating Deep Neural Networks Using Focal Loss. Advances in Neural Infor-mation Processing Systems, 33, 15288-15299.
[18] Lin, T.Y., Goyal, P., Girshick, R., et al. (2017) Focal Loss for Dense Object Detection. 2017 IEEE International Conference on Computer Vision (ICCV), Venice, 22-29 October 2017, 2999-3007.
https://doi.org/10.1109/ICCV.2017.324
[19] Pang, T., Xu, K., Dong, Y., et al. (2019) Rethinking Softmax Cross-Entropy Loss for Adversarial Robustness. arXiv preprint arXiv: 1905, 10626.
[20] 张小川, 刘连喜, 戴旭尧, 等. 基于词性特征的CNN_BiGRU文本分类模型[J]. 计算机应用与软件, 2021, 38(11): 155-161.