1. 引言
近年来,随着科技的发展,科技论文投稿数量不断增加,确保论文科学性、可靠性和创新性至关重要。同行评审作为推动科技领域发展的基本学术过程 [1] ,其透明度和可信度仍有待改进。在线评审平台的兴起使同行评审逐渐向更加公开透明的方向发展。自动评审分类技术的应用可为编辑减轻工作负担,提供决策支持,并节省时间和精力。在文献中,确定论文最终是否被接受通常被视为文本分类任务,而对专家评分的预测被视为多分类或回归任务 [2] 。本文将专家评分预测作为回归任务。目前主流的自动评审分类方法包括机器学习和深度学习。例如,Keith [3] 等人使用支持向量机等机器学习算法并结合TF-IDF词向量模型来预测国际会议的研究论文评审结果。Ribeiro [4] 等人使用了人工智能会议和机器人会议的2313篇评论文本作为数据集,基于回归和分类任务的七种机器学习方法以及VADER应用进行预测论文的录用和推荐得分。实验证明,基于传统的机器学习模型进行自动评审分类时难以有效地捕捉和表示大量的复杂语义和上下文信息,因此预测的效果较差。随着深度学习的快速发展,同行评审分类方法通过深度模型进行分类。Li [5] 等人结合了摘要–评审匹配机制和交叉评审匹配机制,从同行评审文本中学习深度特征来进行引文计数预测。Leng [6] 等人提出了一种基于CNN的DeepReviewer模型,用于自动论文审阅。该模型通过学习文章的语义、语法和创新特征,并将这些特征通过一个注意力层整合,得出论文的最终评分。Deng [7] 等人设计了一种用于论文评审评级预测和推荐的分层双向自注意力网络框架(HabNet),作为学术论文评审过程的有效决策工具。该框架利用论文评论的层次结构,包括句子、审稿内和审稿间级别的编码器,通过双向自注意力机制从不同级别的评论中提取有用的语义信息。Chen [8] 等人提出了一种利用科技论文语义信息和开放同行评审中专家评分的自动评审分类方法,发现融合语义信息和评分信息的评审分类模型效果优于仅依靠评分均值进行评审判断。Lin [9] 等人提出了一种整合定性评价的论文质量评价模型,利用论文标题、摘要、Twitter评论和同行评议作为输入,以论文审稿平均分为标准,运用情感分析模型探索开放获取文本的情感极性,并据此对论文进行评价。Li [10] 等人提出了一个多任务学习模型用于自动预测学术论文同行评审的分数,并采用附加信息以提升预测性能。通过引入多任务共享结构编码方法,实现了自动选择合适的共享网络结构和辅助资源。Zhu [11] 等人构建了一个多任务学习模型BLBC,通过在BERT-LCF模型的基础上增加BiLSTM-CRF模块,从而使其具备了同时完成属性词抽取和细粒度情感分析任务的能力。这些研究虽然在一定程度上解决了同行评审自动分类任务和专家评分预测任务,但是尚未有人将这两个任务同时结合。然而,评分的高低与是否接收之间存在一定关联,这导致在论文接收预测方面存在一定的局限性。不仅如此,若要同时解决同行评审自动分类任务和专家评分预测任务,就需要构建两个模型,这会极大地增加模型占用空间和复杂度 [12] ,从而造成模型间的误差。
为应对上述问题,本文提出了一种同行评审文本分析模型BCLJ。该模型利用多任务学习框架,把论文接收预测作为主任务,同时将专家对论文的评分预测作为辅助任务,利用BERT作为预训练词向量,同时利用共享的CNN-LSTM层,实现对论文接收预测和评分预测的双重任务。
本文的主要贡献如下:(1)本文采用多任务学习的方式对论文接收与评分进行预测,相较于单任务学习,多任务学习使用共享参数提升了两个任务的预测效果。(2)本文首次在同行评审中将论文接收预测和评分预测结合考虑,利用专家对论文的评分作为辅助信息来影响论文是否被接收的决策。(3)本文首次在同行评审论文接收和评分预测中引入多任务学习方法,为该领域研究提供了新的思路和方法。
2. 模型构建
本文提出的BCLJ模型任务模型主要由三个组件组成:输入层、共享模块和特定任务层,模型的结构如图1所示。该模型的任务为给定一个同行评审句子序列,其中
为句子中的单词,n为句子的长度。模型的输出结果包括论文是否被接受以及对论文评分的预测。
Figure 1. BERT-CNN-LSTM-Joint Model
图1. BERT-CNN-LSTM-Joint Model预测模型
2.1. 输入层
输入层是深度学习模型的初始部分,其任务是接收经过预处理的文本数据,将处理后的文本转化为向量形式,并使其准备好供模型进一步处理。本文输入层采用基于BERT的词嵌入方法,使用预训练模型BERT-BASE来进行文本表示。BERT (Bidirectional Encoder Representations from Transformers)是一种在大规模语料上进行预训练的语言模型,它能够捕捉文本中丰富的语义信息 [13] 。BERT-BASE模型的输入由词向量,块向量和位置向量组成,如图2所示。多任务学习模型的输入序列为Input。
(1)
输入序列通过BERT编码后得到了文本词向量为
。
(2)
Figure 2. BERT-BASE input features
图2. BERT-BASE输入特征
2.2. 共享层
共享层能够提取不同任务之间通用的特征表示。通过共享层,模型可以学习到适用于多个任务的抽象特征表示,从而提高模型的泛化能力和效率。本文将CNN-LSTM作为共享层,用来对输入词嵌入进行转换和提炼,以便让模型更好地理解文本的语义特征。
卷积神经网络由卷积层和池化层构成。卷积层通过卷积核在输入数据上进行滤波操作,提取不同的文本特征。进行卷积操作的计算公式如下所示:
(3)
其中,
表示输入文本序列的词嵌入矩阵,
表示卷积操作,
表示卷积核的权重参数,
和
分别表示卷积核的通道数,宽度和高度。
池化层的主要目的是通过降维和抽样来减少数据量并突出显著的特征。最大池化和平均池化是两种常见的池化操作类型。本文采用最大池化操作来提取特征,其计算公式如下:
(4)
在深度学习中,出现过拟合是一种常见的现象。Hinton [14] 等人提出了一种Dropout的正则化技术,用于减少神经网络的过拟合。Dropout层通过在神经网络的训练过程中随机地将某些神经元的输出置零,以一定概率抑制神经元的连接从而减少神经元之间的依赖关系和提高模型的泛化能力。本文将Dropout层中抑制神经元连接的概率设置为0.3。输入文本序列的词嵌入矩阵经过卷积和池化操作之后,进行Dropout处理,得到
。
(5)
LSTM是一种用于对序列数据进行建模的神经网络结构。相比于普通的RNN,LSTM能够更好地捕获长序列中的依赖关系,同时有效地避免梯度消失的问题。LSTM通过引入了输入门,遗忘门和输出门来控制信息的输入、遗忘和输出,使得模型能够选择性地保留或遗忘输入数据中的信息。LSTM网络具体的计算公式如下所示:
(6)
(7)
(8)
(9)
其中:
是输入门的输出,
是t时刻细胞状态,
表示t时刻的输出门,
表示上一个细胞的输入,
表示t时刻的输入,
表示sigmoid函数,
表示权重矩阵。在利用卷积神经网络来捕获文本中的局部特征之后接着使用LSTM来进一步编码序列中的语义和上下文信息。将
经过LSTM特征提取,编码后为
。
(10)
2.2. 多任务输出层
多任务输出层负责针对每个任务执行特定的预测。多任务学习是指一个模型同时处理多个任务或目标的机器学习方法,并且在一定程度上实现了共享参数 [12] 。在本文中,BCLJ模型包括两个多任务输出。第一个任务是预测论文是否被接收,而第二个任务是预测论文的评分。
对于论文接收预测任务,本文使用自注意力机制来使模型关注重要的文本信息。自注意力机制 (Self-Attention)是一种用于序列数据建模的注意力机制,能减少对于外部信息的依赖从而更好的捕捉特征之间的内部关系。自注意力机制的计算公式如下所示:
(11)
(12)
其中
以及
是通过线性变换得到的,
和
是可以学习的权重参数,
是用来权重归一化的函数。自注意力机制的框架如图3所示。将经过共享层的
进行自注意力机制编码后得到
。
(13)
在进行自注意力机制后再一次进行Dropout操作来减少模型的过拟合风险,提高模型的泛化能力。
在进行Dropout操作之后得到
。
(14)
本文提出的多任务模型有两个输出头,二者分别使用Sigmoid函数和全连接层来预测论文被接收的概率分布
和论文评分的数值
。
(15)
在多任务学习中,模型的训练损失是由多个子任务的损失函数加权得到的。本文使用交叉熵损失函数作为论文接收预测任务的损失函数,并使用均方误差损失作为论文评分预测任务的损失函数。设定论文接收预测任务的损失权重为1,评分预测任务的损失权重为
。因此,模型的联合损失为
。
(16)
(17)
(18)
其中
为论文接收预测任务的损失,
为分数预测任务的损失,
为联合损失的调整系数。
3. 实验过程及结果
3.1. 数据准备
本文实验使用的数据是从OpenReview平台上爬虫获取的。本文收集了2023年提交给ICLR会议的所有评论,最终得到3851篇文章的数据和15,400篇专家评审数据。对于这15,400篇评审数据,每个专家都为每篇论文提供了一个整体的推荐分数,其范围在1到10分之间,10分代表最高评价。为了综合考量专家们对于某篇论文的评价,本文引入了一个新的变量S来度量该论文的得分。这个得分是各专家对同一篇论文推荐分数的平均值,计算公式如下所示:
(19)
其中n表示由n个专家对于同一篇论文进行评价,
表示第i个专家对于某篇论文的推荐得分。通过绘制直方图展示了综合得分与论文最终决策的数据分布情况,如图4所示。图中显示具有较高评分的文章更有可能被接收,这进一步表明论文评分预测任务对于预测论文接收具有潜在的辅助作用。
本文将专家对于每篇论文的总体评价进行综合,并进行预处理后,按8:2的比例划分为训练集和测试集。最终的分布情况如表1所示。
3.2. 对比实验
为了验证本文提出的多任务学习模型在ICLR同行评审数据集上的性能,本文进行了一系列实验。这些实验分为三组,两组单任务对比实验,一组多任务对比实验。
Figure 4. Histogram of scores and paper decisions
图4. 综合得分与论文决策直方图
Table 1. Data distribution of experimental samples
表1. 实验样本数据分布
针对实验一进行的论文接受预测任务,本文设计了以下实验。
(1) SVM/XGBOOST:以TF-IDF词向量作为输入,再使用SVM/XGBOOST进行论文接受预测分类,如Ribeiro [4] 的研究所示。
(2) TextCNN (GloVe or BERT):Kim [15] 等人提出了一种卷积神经网络的文本分类模型。本文以GloVe或者BERT词向量作为输入,利用TextCNN进行论文接受预测分类。
(3) LSTM (GloVe or BERT):以GloVe或者BERT词向量作为输入,利用长短期记忆网络捕获全局句子信息,将编码后的信息输入到全连接层进行分类,如Fernandes [1] 的研究所示。
(4) BiLSTM-Attention (GloVe or BERT):Zhou [16] 等通过结合双向长短期记忆网络和注意力机制来进行分类。以GloVe或者BERT词向量作为输入,利用BiLSTM-Att进行论文接受预测分类。
针对实验二进行的论文评分预测任务,本文设计了以下实验。
(1) SVM/XGBOOST:以TF-IDF词向量作为输入,再使用SVM/XGBOOST进行论文评分预测,如Ribeiro [4] 的研究所示。
(2) TextCNN/BiLSTM/CNN-LSTM:以GloVe或者BERT词向量作为输入,再分别使用TextCNN,BiLSTM和CNN-LSTM模型进行论文评分预测,如Yang [17] 的研究所示。
针对实验三进行的基于多任务学习的论文接收预测和评分预测任务,本文设计了以下实验。
(1) BCLJ:输入序列以BERT编码,共享CNN-LSTM进行语义特征提取,分别用sigmod函数和全连接层完成接收预测和评分预测。
(2) GCLJ:输入序列以GloVe编码,共享CNN-LSTM进行语义特征提取,分别用sigmod函数和全连接层完成接收预测和评分预测。
3.3. 实验模型参数设置
为了构建多任务学习模型,本文采用了PyTorch深度学习框架,并设置了一些重要参数,如表2所示。其中BERT和GloVe的词嵌入维度大小Embedding size分别为768与100。Learning rate为模型的初始学习率并设置为0.0001。为了提高模型的鲁棒性并避免过拟合,选择Adam作为本文实验的优化器。为了防止模型过拟合,将Dropout的概率设置为0.4。将训练周期设置为20。卷积层中滤波器的数量设置为100,每个卷积核的尺寸为[3, 4, 5]。
Table 2. Experimental parameter settings
表2. 实验参数设置
在多任务学习中,辅助任务的权重用于平衡各个任务对模型整体训练的影响,旨在找到一个合适的辅助任务的权重能够使得各个评价指标尽可能的达到最优。图5显示了各个不同的权重下各个评价指标的比较结果。在权重为0.2和0.5时,论文接收预测任务的准确率和F1值都相对较高。然而,在论文评分预测任务中,权重为0.2时的预测效果优于权重为0.5时的表现。因此,综合考虑各方面因素,选择了权重为0.2。
3.4. 实验结果分析
表3统计了各个单任务模型在论文接收预测任务中的预测效果。在论文接收预测模型中,基于BERT词向量的BiLSTM-Attention模型相较于基于GloVe词向量的BiLSTM-Attention模型,准确率提高了1.77%。这表明基于BERT的词向量模型在预测效果上优于基于GloVe和TF-IDF词向量的模型。在传统的机器学习方法中,如SVM和XGBOOST算法,它们在该任务上虽然劣于BiLSTM-Attention模型,但与CNN和LSTM模型的表现类似。值得注意的是,基本的CNN模型和LSTM模型在无论是使用BERT还是GloVe词向量时,均不及BiLSTM-Attention模型,这表明注意力机制和双向长短期记忆网络能够更有效地学习文本特征。
Figure 5. Performance comparison of different weights
图5. 不同权重的性能比较
Table 3. Paper receiving predictive single-task modeling experimental results
表3. 论文接收预测单任务模型实验结果
表4统计了各个单任务模型在论文分数预测任务中的预测效果。基于GloVe词向量的BiLSTM模型的预测效果最差。在基于BERT类模型中,CNN-LSTM模型的预测效果最好,表明该模型更加充分地捕捉了文本的局部特征和全局特征,并且对序列信息进行了充分建模。在TF-IDF词向量结合机器学习方法中,SVM和XGBoost的预测效果也相当可观,展现了对稀疏数据的良好处理能力,有效捕捉文本特征。整体来看,基于BERT词向量的模型优于基于GloVe词向量的模型。BiLSTM模型无论基于BERT还是GloVe词向量,效果均不如CNN-LSTM,可能是因为未能捕捉文本的局部特征,并未充分利用词向量的语义特征。
Table 4. Experimental results of a single-task model for paper scoring prediction
表4. 文评分预测单任务模型实验结果
表5中对比实验为本文提出的多任务论文接收预测和论文评分预测联合模型BCLJ和使用GloVe词向量的多任务模型的对比。正如结果所示,多任务模型能同时完成论文接收预测和论文评分预测任务。本文提出的多任务模型在论文接收预测任务中击败了所有的基线模型。具体来说,BCLJ模型在论文接收预测任务中相较于单任务的BiLSTM-Attention (BERT)模型,准确率提高了4.03%,F1值提高了3.54%。与单任务模型LSTM和TextCNN相比,在准确率和F1值上的提升超过了6%。针对论文评分预测任务,BCLJ模型相较于基于BERT的BiLSTM单任务模型,MAE、MSE和RMSE分别降低了0.0185、0.03和0.1942。在论文评分预测任务中,BCLJ模型表现与基于BERT或GloVe的CNN-LSTM模型相当。然而,通过论文评分预测任务对论文接收预测任务的辅助,BCLJ模型在论文接收预测任务上效果显著提升,这表明论文评分与论文接收具有一致性。进一步注意到与经典的机器学习分类器相比,BCLJ模型对论文接收预测任务有着显著的提升并且对论文评分预测任务也有一定的改善。在进行多任务学习的模型时,使用基于BERT词向量的多任务模型表现优于使用基于GloVe词向量的模型。
Table 5. Experimental results of a single-task model for paper scoring prediction
表5. 文评分预测单任务模型实验结果
4. 结论
为了解决论文接收预测的难题,本文提出了一种同行评审文本分析模型BCLJ,引入了多任务学习的思想。首先,通过BERT词嵌入获得词向量矩阵;其次利用CNN和LSTM提取语义特征,并引入注意力机制增强对文本信息的理解能力;最后,利用不同的全连接层进行多任务学习,获得论文接受预测和评分预测两种输出。该模型将论文评分预测任务作为辅助任务,将论文接收预测任务作为主要任务,显著提高了论文接收预测任务的准确率。此外,通过论文评分预测任务来增加论文接收预测任务的准确率,从侧面说明了论文评分与论文接收存在一致性。