wikidata研究和应用

温翔宇
2023-12-01

应用场景

​ 在平台初期或者后期都需要一些标准的官方信息来填充平台缺乏的内容,以往可能是通过爬虫进行爬取,但是这块受限于一些法律或者内容的付费独家信息和内容准确性的问题。因此需要一种渠道拿到我们希望获取的各类数据,比如,城市信息、人物信息、书籍刊物、歌曲、电影等等。

​ 这类信息最直接的方式就是维基百科,里面基本可以搜索到我们能获取的数据,因此我们就考虑怎么从维基百科拉取标准化数据。

数据研究

​ 最开始我们所了解到的一个平台是dbpedia, 基于wikipedia爬取的数据然后标准化落入图形数据库中,关于图形数据库的介绍大家可以自己前往学习了解,其主要是三元组(主谓宾),这里可能也短短几句话描述不完。他使用的查询语言主要是Cypher、Gremlin和Sparql三种,这里我们专注介绍Sparql,本文主要是介绍如何一步步优化,达到我们的目标。

数据库对比分析

​ 在最开始我们使用的是dbpedia,但是这其中绕了一点弯路,因为dbpedia是基于wiki的数据更新的,但是它的数据不会实时更新,导致的一些问题就是很多东西在dbpedia没有。后面了解到wikidata,其完全是wikipedia的数据库。下面是一个对比表格:

数据库 prefix 语言/测试链接 更新方式 来源 导出 SDK
wikidata
 类似资料: