deepdive是由斯坦福大学InfoLab实验室开发的一个开源知识抽取系统。它通过弱监督学习,从非结构化的文本中抽取结构化的关系数据 。是目前人工智能学习领域的一个热门项目。原文见 http://deepdive.stanford.edu/
DeepDive是一个从暗数据(dark data)中提取价值的系统。与暗物质(dark matter)一样,暗数据是隐藏在文本、表格、图形和图像中的大量数据,缺乏结构,因此基本上无法通过现有软件处理。DeepDive通过从非结构化信息(文本文档)创建结构化数据(SQL表)并将这些数据与现有的结构化数据库集成,帮助揭示暗数据。DeepDive用于提取实体之间复杂的关系,并对涉及这些实体的事实进行推断。DeepDive帮助用户处理各种各样的暗数据,并将结果放入数据库。有了数据库中的数据,人们可以使用各种标准工具来使用结构化数据;例如,可视化工具(如Tableau)或分析工具(如Excel)。
DeepDive是一种新型的数据管理系统,它能够在单个系统中解决提取、集成和预测问题,使用户能够快速构建复杂的端到端数据管道,如暗数据BI(Business Intelligence)系统。通过允许用户端到端构建他们的系统,DeepDive允许用户专注于他们的系统中最直接提高应用程序质量的部分。相比之下,以前的基于管道的系统要求开发人员构建提取器、集成代码和其他组件,而不清楚其更改如何提高数据产品的质量。这个简单的洞察是深海系统如何在更短的时间内产生更高质量数据的关键。从古生物学到基因组学再到人口贩卖等许多领域,没有机器学习专业知识的用户都使用基于深海的系统;请参见我们的示例。
DeepDive是一个训练系统,使用机器学习来处理各种形式的噪音和不精确性。DeepDive的目的是让用户通过Mindtagger界面的低级反馈和通过规则的丰富、结构化的领域知识来轻松地训练系统。DeepDive希望能够帮助那些没有机器学习专业知识的专家。深海潜水的关键技术创新之一是能够大规模解决统计推断问题。
DeepDive与传统系统有几个不同之处:
我们在showcase页面中描述了深海应用程序的示例。
使用者应该熟悉DDlog或SQL、使用关系数据库和Python来构建DeepDive应用程序或将DeepDive与其他工具集成。想要修改和改进DeepDive的开发者必须具备DeepDive开发者指南中提到的基本背景知识。
DeepDive是由斯坦福大学Christopher Ré 领导的项目。目前的组员包括:Michael Cafarella, Xiao Cheng, Raphael Hoffman, Dan Iter, Thomas Palomares, Alex Ratner, Theodoros Rekatsinas, Zifei Shan, Jaeho Shin, Feiran Wang, Sen Wu, and Ce Zhang。