《中国人工智能学会通讯》——6.9 从语义网到知识图谱

更新时间：2022-09-29 21:59:15

6.9 从语义网到知识图谱

计算机的研究者一直梦想构建一个高度互联的信息库，来记录和承载人类的思想、记忆与知识[1-2] 。早在 1945 年，美国人 Vannevar Bush 提出了一个称为 Memex 的“记忆机器”(CollectiveMemory Machine) [3] ，目的是让人们更加容易记录和访问知识。Bush 认为人脑记忆偏重“关联”和“连接”，而不是基于“索引”或“层次化”。Memex 模拟了人脑记忆的这种特点，并启发了超文本（Hypertext） [4] 和万维网（World WideWeb）的发明。

超文本通过建立文本之间的电子链接，增强文本数据之间的互联[5] 。1989 年，万维网之父Tim Berners-Lee 提出构建一个分布式超文本系统，并把它命名为 Web [6] 。在这份建议书里，他提出要构建一个基于“链接”的信息系统（LinkedInformation System）。这个系统以“链接”为中心，并能在开放的互联网环境里面逐步演化、生长和扩大链接的范围。他认为这种基于图和链接的组织方式，比起基于树的层次化组织方式，更加适合于互联网这种复杂开放的系统。这一思想逐步被人们实现，并演化发展成为今天的万维网。

1994 年，Tim Berners-Lee 又提出，Web 不应该仅仅只是网页之间的互相链接。实际上，网页上所描述的是现实世界中的个体对象和人脑中的概念，网页之间的链接实际包含有语义，即这些个体对象或概念之间的关系，然而机器却无法有效地从网页中识别出其中蕴含的语义。如果人们在发布这些信息时，就建立对这些个体对象和关系的语义描述，再加上互联网的开放网络扩张效应（NetworkEffect），就能涌现出一个全球互联的“数据互联网”。

他于 1998 年提出了语义网（Semantic Web）的概念[7-8] 。语义网仍然基于图和链接的组织方式，只是图中（见图 1）的节点代表的不是网页，而是个体对象（如人、机构、地点等）；而超链接也被增加了类型描述，具体标明对象之间的语义关系（如出生地是、创办人是等）。相对于传统的网页互联网，语义网的本质是（结构化）数据的互联网。Tim Berners-Lee 希望人们都能用尽可能标准和规范的方式发布自己的数据，并像建立超文本链接一样建立数据之间的链接，从而构建一个庞大、分布互联的全球数据库。这种结构化的链接数据将使得Web 上的信息更加易于被机器所理解和处理，而不仅仅像网页那样只是供人浏览。
《中国人工智能学会通讯》——6.9 从语义网到知识图谱

但语义网的实现并不容易和顺利。TimBerners-Lee 领导的 W3C 用了近十年时间建立语义网的技术标准，这包括基础数据模型 (RDF)、语义查询语言 (SPARQL)、本体描述语言 (OWL)、规则语言 (RIF)、数据发布语言 (RDFa) 等。尽管这些技术标准在生物、医疗、数字出版等很多领域都得到应用[9-10] ，但离语义网最初的理想仍然相差较远。

Freebase 是早期的语义网公司 MetaWeb 于2007 年推出的结构化数据集。Freebase 的数据一部分来源于***等公开数据源，另外一部分来源于社区个人的汇交。谷歌于 2010 年收购了Freebase，并以之为数据基础之一，推出了其基于知识图谱的搜索服务[11] 。

谷歌主要利用知识图谱来优化其搜索体验和支持智能问答。谷歌知识图谱的基本理念与语义网一致，本质是由类型化实体（Typed Entities）互联构成的结构化数据库。谷歌支持各网站定制知识图谱内容[12] ，允许各网站以 RDFa [13] 、JSON-LD [14] 、HTML Microdata [15] 等方式在网页中嵌入语义化数据。谷歌自动搜集这些语义数据，并归并到后端的知识图谱中。

这种方式把搜索内容结构化和语义化，从而实现面向事物和对象的搜索，即语义搜索[16] 。本文概要介绍了利用语义技术构建数据链接的主要实践、关键技术及典型应用；尝试从语义与链接数据的视角，阐述知识图谱的内涵和未来发展趋势。

上一篇 : ：《中国人工智能学会通讯》——12.41 众包技术下一篇 : 新一代NGIPS 掌控下一代网络安全

《中国人工智能学会通讯》——6.9 从语义网到知识图谱

6.9 从语义网到知识图谱

推荐文章