基于实体不可知表示学习的知识图谱嵌入

doi:10.12677/sea.2024.133033

期刊菜单

基于实体不可知表示学习的知识图谱嵌入
Knowledge Graph Embedding Based on Entity-Agnostic Representation Learning

DOI: 10.12677/sea.2024.133033, PDF, HTML, XML,
作者: 杨科林, 杨斌：陇南通途公路养护工程有限公司，甘肃陇南；秦崇良, 雷荣军, 张永超, 屈睿涛^*：中国电信股份有限公司兰州分公司，甘肃兰州
关键词: 知识图谱嵌入；实体不可知表示学习；连接关系；K近邻保留实体；Knowledge Graph Embedding； Entity-Agnostic Representation Learning； Connection Relation； K-Nearest Neighbor Preserved Entities

摘要: 针对知识图谱嵌入(KGE)引发的参数存储效率低下的问题，本研究提出了一种创新的实体不可知表示学习方法。传统的知识图谱嵌入技术通过为知识图谱中的各个元素(涵盖实体和关系)分配特定的嵌入(即向量化表达)，将其映射至连续的向量空间。然而，这种方法导致了嵌入参数随着知识图谱规模的扩大而呈现线性增长的趋势。在此基础上，我们提出了名为实体不可知表示学习(EARL)的模型。该模型仅学习一小部分实体的嵌入，这些实体被称为保留实体。为了获取完整实体集的嵌入，我们巧妙地结合关系、K近邻保留实体以及多跳邻居中的信息，以编码这些保留实体的独特特征。通过学习通用且实体不可知的编码器，我们将这些特征高效地转换为实体的嵌入。相较于传统的知识图谱嵌入技术，这种创新方法使得我们提出的EARL模型在保持高效的同时，具有更少的参数量，从而展现出更高的静态性。实验结果充分验证了EARL在链路预测任务上的卓越性能，并且在参数效率方面展现出显著优势，进一步凸显了其在减少参数使用方面的有效性。

Abstract: In order to solve the problem of inefficient parameter storage caused by Knowledge Graph Embedding (KGE), this study proposes an innovative entity-agnostic representation learning method. Traditional knowledge graph embedding techniques map each element (covering entities and relations) in the knowledge graph to a continuous vector space by assigning specific embeddings (i.e. vectorized representations). However, this approach leads to a linear growth trend of embedding parameters as the size of the knowledge graph increases. On this basis, we propose a model called Entity-Agnostic Representation Learning (EARL). The model learns the embedding of only a small subset of entities, which are known as reserved entities. To obtain embeddings for the full set of entities, we skillfully combine information from relationships, K-nearest neighbor preserved entities, and multi-hop neighbors to encode the unique characteristics of these retained entities. By learning a generic and entity-agnostic encoder, we efficiently translate these features into entity embeddings. Compared with the traditional knowledge graph embedding technology, this innovative method enables the proposed EARL model to have fewer parameters while maintaining high efficiency, so as to show higher staticity. The experimental results fully verify the excellent performance of EARL in the link prediction task, and show significant advantages in parameter efficiency, which further highlights its effectiveness in reducing the use of parameters.

文章引用：杨科林, 杨斌, 秦崇良, 雷荣军, 张永超, 屈睿涛. 基于实体不可知表示学习的知识图谱嵌入[J]. 软件工程与应用, 2024, 13(3): 330-335. https://doi.org/10.12677/sea.2024.133033

1. 引言

随着大数据时代的到来，知识图谱作为大规模语义知识的有效载体，在人工智能领域中占据了举足轻重的地位[1]。特别地，知识图谱嵌入(KGE)技术，作为推动知识图谱语义理解和推理的核心手段，已经在问答系统、推荐系统等众多应用场景中发挥了重要作用[2]。然而，随着知识图谱规模的不断扩大，传统KGE方法面临的参数存储效率低下的挑战愈发显著。

在应对这一挑战的过程中，本研究聚焦于减少参数量和提高模型效率，提出了一种创新的实体不可知表示学习(EARL)方法。与传统方法不同，EARL通过学习一小部分实体的嵌入表示，并结合关系、K近邻以及多跳邻居中的信息，来编码实体的可区分特征，从而显著降低了参数数量。

在详细阐述EARL模型的理论基础、模型架构和实现细节之后，本研究通过实验验证了EARL在链路预测任务上的卓越性能，并与其他KGE方法进行了对比分析。实验结果表明，EARL不仅在参数效率上表现出显著优势，而且保持了优异的性能表现。

这一研究成果不仅丰富了知识图谱嵌入领域的研究方法，也为大规模知识图谱的应用提供了有力的技术支撑。展望未来，我们计划进一步探索EARL模型在关系提取、问答系统和推荐系统等其他任务中的应用，并研究如何优化模型的训练过程，以进一步提升其性能和泛化能力。

2. 基本原理

2.1. 原理

知识图谱包含一个实体集 $ε$ 、一个关系集 $ℜ$ 和一个三元组集T。更准确地说，一个知识图谱表示为 $g = (ε, ℜ, Τ)$ ，其中 $Τ = {(h, r, t)} \subseteq ε \times ℜ \times Τ$ 。基于特定分数函数，传统的知识图谱嵌入方法经常学习嵌入来表示每个实体和关系，以预测缺失的三元组(即链路预测)。本文的目标不是存储所有实体和关系的嵌入，而是设计一个参数较少的模型来编码实体嵌入，与传统的KGE方法相比，获得具有竞争力的性能，使参数更有效。在本文提出的实体不可知表示学习EARL中，只学习一小部分实体的特定嵌入，并将它们称为保留实体[3]。在实际操作中， $ε^{r e s}$ 中的实体是事先随机选择的。作者对三种可区分的信息进行编码，以获得所有实体的嵌入。由于编码器中的参数数量与实体数量无关，因此编码过程可以减少参数空间开销[4]。下图1直观地展示了这种方法。

Figure 1. Schematic diagram of Entity-Agnostic Representation Learning (EARL)

图1. 实体不可知表示学习(EARL)原理图

2.2. 模型训练

遵循传统的KGE训练方案，作者优化EARL使训练集中的正三元组得分高于抽样的负三元组。在EARL中可以使用许多分数函数。为了展示其通用性，使用代表性方法RotatE [5]作为EARL中的打分函数： $f (h, r, t) = - ‖ h \circ r - t ‖$ 。实体和关系被映射到复杂的向量空间， $h, r, t \in C^{d}$ 。

对于损失函数，作者采用广泛使用的自对抗负采样损失[6]：

$Γ (h, r, t) = - \log σ (r + f (h, r, t)) - \sum_{i = 1}^{n} p ({h^{'}}_{i}, r, {t^{'}}_{i}) \log σ (- r - f ({h^{'}}_{i}, r, {t^{'}}_{i}))$

其中， $γ$ 是固定边界， $σ$ 是sigmoid函数， $({h^{'}}_{i}, r, {t^{'}}_{i})$ 是采样负三元组，n是负三元组的数量。 $p ({h^{'}}_{i}, r, {t^{'}}_{i})$ 是这个负三元组的自对抗权重[7]，计算如下：

$p ({h^{'}}_{j}, r, {t^{'}}_{j}) = \frac{\exp α f ({h^{'}}_{j}, r, {t^{'}}_{j})}{\sum_{i} \exp α f ({h^{'}}_{j}, r, {t^{'}}_{j})}$

其中， $α$ 是温度系数。

3. 分析与讨论

FB15k-237实验结果：

WN18RR实验结果：

对实验结果进行深入分析，我们可以从两个关键表格——表1和表2中，观察到四个不同数据集上的详细对比结果。这些表格不仅汇总了不同模型在特定数据集上的性能表现，还为我们提供了关于参数效率与模型性能之间的权衡。首先，报告了具有大参数计数的RotatE模型的结果，这是为了提供一个数据集上的近似上限性能参考。RotatE作为一种传统且性能卓越的KGE方法，在大参数预算下能够展现出其强大的性能。然而，作者并未尝试在大参数预算上超越RotatE，因为在此场景下，参数效率并非主要关注点，而是模型在给定参数下的性能表现。在对比EARL (红色标记)与使用类似参数预算的NodePiece和RotatE (蓝色标记)时，我们发现EARL在多个指标上均展现出了显著的优势。特别是在MRR (平均倒数排名)和Hits@10 (排名前十的命中率)这两个关键指标上，EARL在使用较少参数的情况下，依然能够取得更好的性能。具体来说，在FB15k-237数据集上，EARL仅使用了RotatE 62%的参数，却能够在MRR上实现4.7%的相对提升。这一结果表明，EARL在参数效率方面表现出色，能够在有限的参数预算下实现更高的性能。在WN18RR数据集上，EARL在使用RotatE 93%的参数时，MRR提高了7%，进一步验证了EARL在参数效率与性能之间的优秀权衡。

Table 1. Link prediction results for FB15k-237 and WN18RR

表1. FB15k-237和WN18RR的链路预测结果

	FB15K-237					WN18RR
	Dim	#P(M)	MRR	Hits@10	Effi	Dim	#P(M)	MRR	Hits@10	Effi
RotatE	1000	29.3	0.336	0.532	0.011	500	40.6	0.508	0.612	0.013
RotatE	100	2.9	0.296	0.473	0.102	50	4.1	0.411	0.429	0.100
NodePiece + RotatE*	100	3.2	0.256	0.420	0.080	100	4.4	0.403	0.515	0.092
EARL + RotatE	150	1.8	0.310	0.501	0.172	200	3.8	0.440	0.527	0.116
w/o Reserved Entity	150	1.1	0.306	0.492	0.278	200	1.7	0.347	0.461	0.204
w/o ConRel	150	1.2	0.309	0.501	0.257	200	3.0	0.432	0.520	0.144
w/o kNResEnt	150	1.6	0.301	0.488	0.188	200	3.3	0.409	0.498	0.124
w/o ConRel + kNResEnt	150	1.2	0.302	0.486	0.251	200	3.0	0.350	0.479	0.117
w/o MulHop	150	1.1	0.250	0.414	0.227	200	2.4	0.048	0.084	0.020

Table 2. Link prediction results of CoDEx-L and YAGO3-10

表2. CoDEx-L和YAGO3-10的链路预测结果

	CoDEx-L					YAGO3-10
	Dim	#P(M)	MRR	Hits@10	Effi	Dim	#P(M)	MRR	Hits@10	Effi
RotatE*	500	78.0	0.258	0.387	0.003	500	123.2	0.495	0.670	0.004
RotatE*	25	3.8	0.196	0.322	0.052	20	4.8	0.121	0.262	0.025
NodePiece + RotatE*	100	3.6	0.190	0.313	0.053	100	4.1	0.247	0.488	0.060
EARL + RotatE	100	2.1	0.238	0.390	0.113	100	3.0	0.302	0.498	0.101
w/o Reserved Entity	100	0.5	0.203	0.337	0.406	100	0.4	0.119	0.226	0.296
w/o ConRel	100	1.9	0.237	0.384	0.124	100	2.8	0.322	0.522	0.115
w/o kNResEnt	100	2.0	0.232	0.374	0.116	100	2.9	0.249	0.429	0.086
w/o ConRel +kNResEnt	100	1.9	0.234	0.375	0.123	100	2.8	0.286	0.487	0.102
w/o MulHop	100	1.8	0.095	0.174	0.053	100	2.7	0.033	0.048	0.012

在这两个数据集中，另一个基线模型NodePiece虽然使用了更多的参数，但在MRR上的表现并未超过RotatE，这表明参数数量的增加并不一定能够带来性能的提升。相反，高效的参数利用和模型设计才是实现高性能的关键。在CoDEx-L和YAGO3-10这两个数据集上，EARL同样展现出了其在参数效率与性能之间的优势。在CoDEx-L上，EARL使用了NodePiece 58%的参数，却实现了25.4%的MRR提升。在YAGO3-10上，EARL使用了NodePiece 73%的参数，MRR提升了22.2%。这些结果再次证明了EARL在知识图谱嵌入任务中的高效性和有效性。综上所述，通过对表1和表2中实验结果的深入分析，我们可以得出结论：EARL模型在参数效率与性能之间取得了优秀的权衡。在使用较少参数的情况下，EARL能够在多个数据集上实现优于传统KGE方法的性能表现。这一结果不仅展示了EARL模型的高效性，也为其在知识图谱嵌入领域的应用提供了有力的支持。

4. 结论

从知识图谱中提取三元组关系，将其转化为节点和边，并定义它们的表示向量；选择适当的模型架构和超参数。在实体不可知表示学习的知识图谱嵌入学习中，通常使用无监督学习方法来训练模型，需要定义损失函数和优化算法；使用训练数据集来训练嵌入模型。使用随机游走策略生成节点和关系的序列，并使用这些序列来训练模型。在每个epoch中计算损失函数并更新模型参数；使用测试数据集来评估模型性能，通常采用链接预测或三元组分类等任务来评估模型的准确性和泛化能力；根据评估结果调整模型的超参数，例如学习率、批次大小、迭代次数等，以优化模型的性能；选择其他知识图谱嵌入方法作为对比模型，并使用相同的评估指标来比较不同模型的性能；根据实验结果进行分析，讨论不同方法的优缺点，并解释实验结果的原因；将训练好的模型应用到实际场景中，例如问答系统、推荐系统等，以验证其有效性和实用性。

NOTES

^*通讯作者。

参考文献

[1]	Galkin, M., Denis, E., Wu, J., et al. (2021) NodePiece: Compositional and Parameter-Efficient Representations of Large Knowledge Graphs. arXiv: 2106.12144.
[2]	Sun, Z., Deng, Z.H., Nie, J.Y., et al. (2019) Rotate: Knowledge Graph Embedding by Relational Rotation in Complex Space. arXiv: 1902.10197.
[3]	Bordes, A., Usunier, N., Garcia-Duran, A., et al. (2013) Translating Embeddings for Modeling Multi-Relational Data. Proceedings of the 26th International Conference on Neural Information Processing Systems, Lake Tahoe, December 2013, 2787-2795.
[4]	Peng, C., Xia, F., Naseriparsa, M. and Osborne, F. (2023) Knowledge Graphs: Opportunities and Challenges. Artificial Intelligence Review, 56, 13071-13102. [Google Scholar] [CrossRef] [PubMed]
[5]	Tamašauskaitė, G. and Groth, P. (2023) Defining a Knowledge Graph Development Process through a Systematic Review. ACM Transactions on Software Engineering and Methodology, 32, 1-40. [Google Scholar] [CrossRef]
[6]	Pan, J.Z., Razniewski, S., Kalo, J.C., et al. (2023) Large Language Models and Knowledge Graphs: Opportunities and Challenges. arXiv: 2308.06374.
[7]	Zhong, L., Wu, J., Li, Q., et al. (2023) A Comprehensive Survey on Automatic Knowledge Graph Construction. arXiv: 2302.05019.

为你推荐

友情链接