第7章 语义搜索

优质
小牛编辑
110浏览
2023-12-01

王昊奋 上海乐言信息科技有限公司,王萌 东南大学

知识图谱能够赋予信息明确的结构和语义,使机器不仅可以直观地显示这些信息,更能够理解、处理和整合它们。近年来,随着链接开放数据 LOD(Linked Open Data)、OpenKG 等项目的全面展开,知识图谱数据源的数量激增,大量以 RDF 为数据模型的图结构语义数据被发布,如 DBpedia[1] 、Wikidata[2] 、zhishi.me[3] 等。互联网从仅包含网页和网页之间超链接的文档万维网逐渐转变成包含大量描述各种实体和实体之间丰富关系的语义万维网。在这种背景下,以谷歌为代表的各大搜索引擎公司纷纷构建知识图谱来改善搜索质量,从而拉开了语义搜索的序幕。

与传统互联网中的文档检索不同,语义搜索需要处理粒度更细的结构化语义数据,因此也面临着前所未有的挑战[4] 。原有成熟的针对非结构化的、Web 文档的存储与索引技术对知识图谱不再适用。现有的排序算法也不能直接应用到面向实体和关系的知识图谱语义搜索中。以 SPARQL 查询为代表的结构化查询语言的出现,为支持知识图谱的语义搜索提供了基础。此外,支持用户熟悉的关键词、自然语言查询对于知识图谱的语义搜索也至关重要。本章旨在全面系统地介绍以 RDF 为数据模型的知识图谱语义搜索基础技术以及面临的挑战。