1. 引言
当今生物医学等领域的文献快速增长,这一方面积极地促进了各领域的科研交流,但同时,大量激增的文献阅读量也为研究人员带来了巨大的查阅负担,尤其是如何获得真正有帮助的最新文献,正在成为很多一线科研人员的阻碍。尽管业界已出现了一些论文搜索和推荐的方法,即现有研究中不乏可用的推荐方法,但这些方法大都只依据论文的元信息和文本信息,例如搜索相似的作者、引用关系,或者通过提取文章关键词或摘录文章内容来度量文章的相似性,进而推测文章间的关系,它们很少利用文章的非文字内容,尤其是插图等复杂对象,尚未充分挖掘并利用,因此,现有系统在给读者的推荐结果中,还存在着大量重复、泛化等低效情况,以基于关键词的方法为例,一个或多个关键词往往不能涵盖一篇文章的完整意义,这样就会导致推荐系统输出很多无关的论文。
为此,有必要深入挖掘并全面利用文献中的非文本信息,将更全面的整篇文章信息用于比较,以此可给推荐系统带来更多的准确推荐结果。在生物医学领域,有一类重要的非文本的内容,是该类文章中的分子式,它们包含着非常重要的信息,值得进一步的提取和利用。但此类探索面临着诸多技术挑战,例如:1) 如何从文章中提取各式各样的图表信息,尤其是精细的分子图信息;2) 如何有效地计算分子图之间的相似度;3) 如何根据内容相关性建立查询文章和备选文章的关系网络,并实现有效的连接预测等。
对此,本项研究基于分子式检索技术的积累,通过检测包含有相同或相似的分子式的文献,实现更为有效的医药文献推荐方法,主要创新体现在:1) 提出了一套从文档到文档的推荐系统,简化了用户交互操作,但增加了输入信息量;2) 根据分子式的特点,对图表示和相似度计算改进了现有的图神经网络模型和图编辑距离算法,以折叠策略更有效地聚合了分子的图形特征,以半分支结构提高了分子相似度计算的准确度和效率;3) 对于文档与分子式之间存在的多对多的包含关系,建立了更全面的关系描述模型,可以更加准确地推测论文之间的相关程度。
2. 相关工作
过去数年中我们可以看到推荐系统的广泛运用,尤其是许多领域中(社交网络,电子商务等)与图神经网络的(GNN)的结合 [1]。然而文献查询相比于商品查询目的有所不同。比如,一个买家在买了一样商品后,他/她可能不会再期待推荐更多同一类型的商品。而科研人员阅读一篇文章后,他/她可能会更加关注与这篇文献相关的,即,研究相同问题的,同类型文章。因此,有效的推荐系统更注重对文件内容相关性的深入挖掘和利用。
文本检索的文章主要基于TF-IDF技术来排序。之后的提升也是通过增加交互信息来改进 [2]。近年来基于机器学习的方法主要关注两个方面:1) 利用神经网络来计分或重新排序,如Co-PACRR [3],KNRM [4];2) 利用特征学习在向量空间来实现准确有效的查询 [5] [6] [7] [8]。为了给图检索构建一个索引,Qian等 [9] 利用文本单元作为节点,关系作为边来构造图。现在效果好的检索系统主要关注如何利用机器学习方法和NLP的技术在索引、检索、排序等方面进行增强 [10]。
和图相似度相关的重要工作有:Zheng等 [11] 通过对边的池化(Hyperedge Pooling)和子图匹配来将正常的图转化成超图来评估相似度;Coupette等 [12] 定义了一个标准的、极小的描述距离来衡量图之间的相似度;Raveaux等 [13] 证明了在特定情况下图匹配工作可以用一个基于重配错误(Reformulated Error-based)模型来等价转化成一个GED问题;Riba等 [14] 通过一个消息传递网络来构建图距离;Ling等 [15] 通过学习图的特征与度量函数共同计算图相似度。
3. 文档推荐模型
要实现文档级的推荐,需要建立一个基于论文内容理解的推荐系统,至少包括:文档解析、文本对象理解、内容相似性度量、索引机制、以及优化推荐结果等重要环节。本文针对生物医学类科技文献中特有的分子式图片提出了一个基于分子式相似度的论文推荐模型,其流程及主要环节如图1所示。
![](//html.hanspub.org/file/22-1542747x7_hanspub.png?20221227085518259)
Figure 1. Medical literature recommender model based on molecule graphs similarity
图1. 基于分子式相似度的医药论文推荐模型
该模型旨在通过分子式的图相似度来提升论文推荐系统的准确性和效率,其工作流程可大致分为以下五个主要的步骤:
· 文档解析(PDF Analysis),首先采用PDF分析器模块提取可用于推荐的内容信息,其中包括,通过深度学习算法定位、检测并提取其中的分子式的原始图片;
· 分子式分割与转换(Molecule Graph Extraction),从分子式原始图片(大多为更复杂的化学反应式)中分割出单个分子式,并将其转换为图的表示形式;
· 图的表征(Molecule Graph Embedding),亦称为图表示,利用新兴的深度图卷积神经网络方法计算图的深层结构信息;
· 分子图相似度度量(Molecule Similarity),本文采用所提出的HB-GED算法来度量单个分子式之间的相似度;
· 文档相似度度量(Paper Similarity),一篇文章往往含有多个分子图,为此本文采用了分子二分图(MBG)来描述两篇文章中分子之间的相似关系,进而计算文章之间的相似度。
通过以上关键步骤,最后的推荐模块就可以根据文档相似度来筛选论文,结合现有推荐方法就可以提供更为精准的论文推荐列表。以下各小节主要针对模型中涉及的分子式分割、分子图表示、分子相似度度量和文章相似度度量几项关键技术进行介绍。
3.1. 分子式分割
由于分子式并不是科技文档中唯一的复杂对象,因此分子式的检测还要针对其与数学公式、插图和表格等做进一步的区分。同时,分子式很少单独出现,而是在化学反应式、化合物转换图、以及合成原理图等场景中出现,这无疑进一步加大了单个分子分割和提取的难度。现有的自然场景对象检测与分割方法可提供很好的借鉴,但文档页面图像不同于自然图像,它们没有丰富的纹理、颜色、频率等特征,因此常规的图像分割算法用于分子式分割后效果并不理想。
针对分子图所占版面区域的不规则性,需要更加细致地研究分子式区域的版面特征,有效挖掘并综合利用图形的上下文信息。据此,本文提出了一种分子式图片分割模型,其整体框架如图2所示,主要分为三个模块:
![](//html.hanspub.org/file/22-1542747x8_hanspub.png?20221227085518259)
Figure 2. The model of molecule segmentation
图2. 分子式分割模型
· 分子式插图筛选:从含有公式、表格、统计图表等其他类型的候选插图集合中,采用一个粗分类的网络,如ResNet-50模型,将含有分子式或化学反应方程式的图片筛选出来。
· 数据增广:为了获得足够多分子式标注插图用于分割模型的学习,本文模拟分子方程式的生成方法,分三步从单个分子式的图片生成分子方程式的图片,第一步是生成多样的反应式中常见的箭头形式,第二步是将箭头和单个分子结合生成单行方程式,第三步是排列多个生成的单行方程式,构成复杂的多行方程式情况,在后两步中,为了进一步模拟真实插图,还需加入分子名称等文字框。
· 分割预测:基于Yolo-v5和RetinaNet等模型,设计了类似的预测架构,包括针对分子式的特征提取网络、特征融合网络、分类网络和位置回归网络,其中的特征提取使用Darknet-53网络,在特征融合使用New CSP-PAN网络,而其位置回归网络和分类网络则对应着Faster-RCNN模型中的全连接层。
在本模型中,我们的损失函数设计除了沿用Yolo-v5等模型中原有的置信度损失、分类损失、定位损失之外,针对现有损失仍不足以描述预测边框与实际边框的覆盖精细度的问题,新增设了外形约束损失函数
,公式如下:
(1)
其中,
表示预测目标框和实际框的交集,w和h表示实际目标框的宽和高。
3.2. 分子式图表示的深度图神经网络模型
以图形方式表示分子可以更深入地探索分子式的结构特征和拓扑特征,本文采用图神经网络(Graph Neural Network, GNN)作为基本的图表示方法。但此类方法中的池化(Pooling)操作对于卷积层之间信息聚合,不能有效地适应分子图的结构特点,因为灵活度很高的图结构在不同层之间信息继承机制上与较为规则的图像有本质不同。为此,本文提出了一种周缘折叠的图归约方法来替代现有的层间信息聚合方法,如图3所示,其出发点是:为真正发挥不同卷积层对图的抽象能力,引入了沿大图周边逐级向内进行动态折叠的图归约算法,逐级提高各个卷积层对全图的概括能力。
![](//html.hanspub.org/file/22-1542747x12_hanspub.png?20221227085518259)
Figure 3. Margin-fold-based pooling is different from the existing pooling operations in graph neural networks for molecule expression
图3. 在用于分子表示的图神经网络模型中,不同于现有池化方法的基于周缘折叠池化方法
具体地,首先将原始图作为最底层,检测其首批外边缘元素(包括节点、边和子结构),作为首次折叠的操作对象,并找到其对应的内向邻居;折叠过程亦可视为低层到高层的抽象过程,即将边缘元素及属性信息融合到其内向邻居中之后,丢弃边缘元素,并形成新的卷积层;重复以上步骤,即重新检测新的边缘元素,完成下一次折叠式的迭代。每次折叠可将图大幅度缩小,形成抽象度更高的卷积层,同时又通过信息融合有效地传递并保留了周边节点的局部信息。折叠的作用等同于传统卷积神经网络中池化作用,同时又更加贴近分子图的拓扑结构,可以自适应地的提取和融合图的信息,能更加准确地汇集不同图层之间的信息。此外,在折叠过程中,算法自动检测并识别分子中的具有化学语义的子结构,如苯环等,并将其直接塌缩为超级节点,从而进一步提高了分子图的池化效率,而且可获得更为简洁,但又不破坏、不丢失化学语义信息的分子表示。
3.3. 分子相似度度量
在图相似性度量方面,图形编辑距离(GED)是目前普遍采用的算法,但在计算分子图相似度时,笔者感受到其有两方面不足:1) 由于大多数分子所含的原子数量较多,导致了图形规模增大,常规的GED算法处理能力非常有限;2) 分子图中存在着大量特有的固定子结构,而且频繁出现,如苯环等,而常规GED算法始终以最基本的节点和边作为计算对象,不能高效地处理或利用这些子结构。
针对上述问题,我们提出了一种半分支编辑距离算法(Half-branch GED,简称HB-GED)用于分子图的相似度度量。具体地,HB-GED将编辑距离的计算对象扩大到“半分支”,即将当前节点和它所连带的边看作一个基本计算单元,因此放大了比较计算的对象,相应地就减少了全图范围内编辑距离的计算操作。同时,HB-GED将计算GED的问题转化为找到半分支图项(Graph Item)最佳排列的问题,以求解最优排列的策略替代传统的遍历式求解策略,即,我们设计了一种在置换空间中的迭代局部搜索算法,在搜索过程中,我们只考虑在一个局部的半分支图项并导出一个次优距离,可以用更少的迭代步骤接近最优或局部最优结果。此外,HB-GED还采用了剪枝策略,基于下限过滤掉不太可能的半分支图项排列,进一步缩小搜索范围,提高了算法的效率。
3.4. 基于二分图的文章相似度
为了评估论文的相似度,我们设计了一种基于分子二分图(MBG)的文章相似度度量算法。在MBG中,如图4所示,左侧节点集
表示查询论文中的分子,右侧节点集
表示一张候选论文中的分子。边集合
表示两个分子之间可能存在的相似性。
![](//html.hanspub.org/file/22-1542747x16_hanspub.png?20221227085518259)
Figure 4. MBG for calculating the paper similarity
图4. 用于计算文章相似度的分子二部图(MBG)
本文根据三个因素(平均权重、全局相似度和自适应权重)计算文章相似度,步骤如下:
· 平均权重,利用边数量将分子间的相似值标准化得到
;
· 全局相似度,作为文章相似度的最重要部分,通过二分图之间的边数
和最多可能边数
的比例来计算;
· 自适应权重,为了强调查询文章的影响而引入,其值为与其它文章有相似度边的分子式数量
和文章总分子式数量
的比例。
最终,可用公式
(2)
计算两篇含有一个或多个相似分子式的文章的相似度。
4. 实验
为评估本文提出技术的有效性,我们对其分别进行了对比实验,特别是量化评估了分割算法、分子相似度算法与现有算法相比的改进效果。
4.1. 分子式分割对比试验
在数据集建设方面,本文首先从万方数据的论文中直接提取的561张分子图片,并据此采用数据增广与合成技术,扩充至2500张图片。为评价分子分割模型的性能,我们采用了平均准确率(mAP)和召回率两个指标,该方法与常见图像分割模型的实验对比情况如表1所示。
![](Images/Table_Tmp.jpg)
Table 1. Comparison of detection results of segmentation model on molecular picture dataset
表1. 分割模型在分子式图片数据集上的检测结果对比
对比实验的结果显示,本文方法较其他方法的准确率有所提升。同时,图5显示了本文所提出的分割模型在真实PDF医药文献中检测并分割分子式图片的效果,即,在较为复杂的版面中,该模型仍可获得较为理想的分子式分割边界。
4.2. 分子相似度实验
在分子式检索的实验中,我们从万方数据官方语料库中,选取了187篇医学论文建立了一个资源文献数据集。借助于分子检测和图形提取模块,我们得到2829张分子图和1325张分子图,在真实数据的环境中验证了推荐体统的有效性。为了量化检验HB-GED的有效性,我们与现有的相似度算法进行了比较,在评价标准方面,在AIDS数据集和LINUX数据集上 [15] 采用了平方误差(MSE)。
在WIKI数据集上的检索实验中,我们采用了公制平均精度(mAP)。
表2和表3的实验结果表明,HB-GED在准确性和有效性方面优于现有方法。
![](//html.hanspub.org/file/22-1542747x23_hanspub.png?20221227085518259)
Figure 5. Examples of molecule segmentation in medical literature
图5. 医药文献中分子式分割效果示例
![](Images/Table_Tmp.jpg)
Table 2. Comparative experimental results of graph similarity algorithms on AIDS and LINUX datasets
表2. 图形相似度算法在AIDS数据集和LINUX数据集上对比实验结果
![](Images/Table_Tmp.jpg)
Table 3. Comparative experimental results of retrieval on the WIKI dataset
表3. 在WIKI数据集上检索的对比实验结果
5. 总结与展望
基于内容的论文精准推荐是大势所趋,其中,非文字类型的内容对象不仅是重要的推荐依据,其理解算法也是推荐系统中的技术难点。本文探索了依据分子式图形相似度的医药文献推荐途径,实验结果表明,该途径不仅可行,而且也是基于文本类型内容推荐算法的重要拓展。但距离医药领域的实际应用要求而言,该项研究还存在着图形提取完整度低、图形大小差异度大、以及分子图与其他类型插图不易区分等问题。在推荐算法方面,也有一些新方向值得关注,例如,分子的表示具有多模态的特征,即图像、图形和字符串等,可借鉴计算机视觉领域中多模态或跨模态的融合方法,进一步提升计算分子相似度的准确率。再如,由于分子研究的门槛较高,标注成本亦同步升高,大规模的分子标注数据集的建设令人望而却步,特别是分子相似度的人工标注数据集几乎还是空白,因此,在加大数据集建设力度的同时,也可以考虑挖掘分子集合自身的内在特征,更多地利用自监督或无监督的学习模型,获得更准确的分子表征。
基金项目
本项研究受到北京市自然科学基金——海淀原始创新联合基金资助项目(项目编号:L192024)的资助。