且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

《中国人工智能学会通讯》——6.8 主要技术挑战和近期进展

更新时间:2022-09-29 22:04:10

6.8 主要技术挑战和近期进展

近年来,虽然实体链接技术取得了长足的进展,并得到了一定程度的应用。但是实体链接任务仍有很多问题尚未解决,需要进一步的研究和探索。以下列举几个实体链接的主要技术挑战及相关进展。

实体名的歧义性和多样性。歧义性和多样性是自然语言的固有属性,也是实体链接的根本难点所在。因此如何挖掘更多、更有效的消歧证据,设计更高性能的消歧算法,构建覆盖度更高的实体引用表仍然是实体链接系统的核心研究问题。

实体链接系统的效率。考虑到实体链接系统面向的文本规模(Web 网页集合)和大部分应用的实时性要求,效率将是实体链接技术实用化的一个重要考量。目前绝大部分研究都集中在如何提升实体链接的准确率,只有很少部分的研究(如文献[13-14])关注实体链接系统的效率。如何平衡实体链接系统的准确率和效率,或者设计更高效的实体链接算法,仍然需要进一步的研究。

多类型、多模态上下文和知识的统一建模。实体链接的过程会利用到各种各样的上下文,如前面提到的实体知名度、上下文分布、实体类别等;同时也会利用到许多背景知识和常识信息,如实体之间的语义关系。这些上下文信息和知识往往具有多模态、多源和异质的特点。如何通过构建多类型、多模态上下文及知识的统一表示和建模,是提升当前实体链接系统的性能的一个重要方向。目前已有的一些相关探索工作包括基于深度学习将不同上下文嵌入到连续空间中[15] 。

NIL 实体检测和长尾实体的链接。目前,实体链接系统已经在知名实体的链接上取得了较高的链接性能。但是在知识库未覆盖的实体(NIL 实体)和长尾实体(非知名实体)上,实体链接的性能往往离知名实体的链接有较大的差距。如何构建更高效的NIL实体检测算法和面向长尾实体的链接算法,也将是一项重要的研究内容。目前已有的一些相关工作包括如 Lin et al [16] 提出的 NIL 实体处理技术。

面向特定领域的和面向多知识库的实体链接。当前绝大多数实体链接系统,通用知识库(***、Freebase、DBPedia 等)作为其目标知识库。但是,这些通用知识库一方面往往对特定领域知识的覆盖程度不如领域知识库(如电影领域的IMDb、书籍领域的豆瓣、餐馆领域的大众点评等);另一方面实体链接系统在面对特定领域知识库时往往会遇到许多新的研究问题(例如电影名和书名往往包含大量常用词汇,且通常具有更高的歧义)。因此构建面向特定领域的和同时考虑多个不同目标知识库的实体链接系统也是一个值得研究的问题,同时也可以大幅度地扩展实体链接系统的应用范围。目前,面向特定领域的和面向多知识库的实体链接已有一些相关研究,如文献 [17-18]。

面向特定情境的实体链接。现有的大部分实体链接系统通常针对新闻文本,对其他情境下(例如微博、评论、列表页面等)的实体链接研究不足。特定情境下的实体链接往往具有独特的挑战,例如微博和评论中的实体链接具有高噪音、短上下文和强社交媒体的特点,列表页面的实体链接具有上下文缺乏和强类型约束的特点。如何针对特定情境,构建专门的实体链接系统是一项具有挑战性的任务。目前的一些相关工作,包括面向 Twitter 的实体链接[19] 、面向 Web List 的实体链接 [20]等。

总的来说,实体链接是自然语言理解和知识图谱构建的基础技术之一,目前已取得了长足的进展,也得到了一定程度的实用。但是实体链接仍有许多技术挑战(如实体名字的歧义性和多样性、实体链接系统的效率、NIL 实体的检测、长尾实体的链接、常识知识和背景知识的使用等)需要进一步的研究。