DDParser(Baidu Dependency Parser)是百度自然语言处理部基于深度学习平台飞桨(PaddlePaddle)和大规模标注数据研发的依存句法分析工具。其训练数据不仅覆盖了多种输入形式的数据,如键盘输入query、语音输入query,还覆盖了多种场景的数据,如新闻、论坛。该工具在随机评测数据上取得了优异的效果。同时,该工具使用简单,一键完成安装及预测。
依存句法分析是自然语言处理核心技术之一,旨在通过分析句子中词语之间的依存关系来确定句子的句法结构,如下图实例所示:
依存句法分析作为底层技术,可直接用于提升其他NLP任务的效果,这些任务包括但不限于语义角色标注、语义匹配、事件抽取等。该技术具有很高的研究价值及应用价值。为了方便研究人员和商业合作伙伴共享效果领先的依存句法分析技术,我们开源了基于大规模标注数据训练的高性能的依存句法分析工具,并提供一键式安装及预测服务,用户只需一条命令即可获取依存句法分析结果。
数据集 | UAS | LAS |
---|---|---|
CTB5 | 90.31% | 89.06% |
DuCTB1.0 | 94.80% | 92.88% |
Baidu Chinese Treebank1.0
是百度构建的中文句法树库,即本次所发布的依存句法分析工具-DDParser的训练数据来源,包含近100万句子(本次发布模型的训练数据近53万句)。语料来自搜索query、网页句子,覆盖了手写、语音等多种输入形式,同时覆盖了新闻、论坛等多种场景。DuCTB1.0数据集含14种标注关系,具体含义见下表:
Label | 关系类型 | 说明 | 示例 |
---|---|---|---|
SBV | 主谓关系 | 主语与谓词间的关系 | 他送了一本书(他<--送) |
VOB | 动宾关系 | 宾语与谓词间的关系 | 他送了一本书(送-->书) |
POB | 介宾关系 | 介词与宾语间的关系 | 我把书卖了(书<--卖) |
ADV | 状中关系 | 状语与中心词间的关系 | 我昨天买书了(昨天<--买) |
CMP | 动补关系 | 补语与中心词间的关系 | 我都吃完了(吃-->完) |
ATT | 定中关系 | 定语与中心词间的关系 | 他送了一本书(一本<--书) |
F | 方位关系 | 方位词与中心词的关系 | 在公园里玩耍(公园-->里) |
COO | 并列关系 | 同类型词语间关系 | 叔叔阿姨(叔叔-->阿姨) |
DBL | 兼语结构 | 主谓短语做宾语的结构 | 他请我吃饭(请-->我,请-->吃饭) |
DOB | 双宾语结构 | 谓语后出现两个宾语 | 他送我一本书(送-->我,送-->书) |
VV | 连谓结构 | 同主语的多个谓词间关系 | 他外出吃饭(外出-->吃饭) |
IC | 子句结构 | 两个结构独立或关联的单句 | 你好,书店怎么走?(你好<--走) |
MT | 虚词成分 | 虚词与中心词间的关系 | 他送了一本书(送-->了) |
HED | 核心关系 | 指整个句子的核心 |
PaddleHub预训练模型DDParser完成句法分析 DDParser DDParser(Baidu Dependency Parser)是百度NLP基于大规模标注数据和深度学习平台飞桨研发的中文依存句法分析工具,可帮助用户直接获取输入文本中的关联词对、长距离依赖词对等。 NOTE: 如果您在本地运行该项目示例,需要首先安装PaddleHub。如果您在线运行,需要首先fork该项目示例。之后按
在下载好的ddparser\ernie_init_.py中有个对版本的检查,源代码如下: paddle_version = [int(i) for i in paddle.version.split('.')] if paddle_version[1] < 7: raise RuntimeError('paddle-ernie requires paddle 1.7+, got %s' %padd
使用DDParser遇到无法import io from paddle的问题 由于DDParser要求的paddlepaddle版本>=1.8.2, <2.0,在这些低版本的paddlepaddle中io是在paddle.fluid中的,故需要修改文件paddle\parser\data_struct\data.py第30行from paddle import io改为from paddle.fl
在正式开始编译最终系统之前,我们需要静下心来认真分析一下这个最终系统究竟需要哪些东西。 所谓"依赖性"是多方面的。一般来说,可以分为"运行时依赖"、"编译安装依赖"、"测试依赖"三个层面。为了构建一个严谨的自依赖系统,显然这三种依赖性都必须满足。运行时依赖比较简单,一般就是库的依赖;而后两种依赖则比较复杂(运行时依赖实际上取决于编译安装依赖)。比如,如果你不需要安装文档,那么 Textinfo 就
我已经在pom中配置了本地maven存储库。xml。当我构建项目时,它会显示依赖项下载错误(请参阅下面的日志)。Maven正在尝试从我的本地Maven存储库下载所有依赖项。 日志 这是我的pom。xml文件 本地存储库是http://XXX。XXX。XX。XXX:8081/artifactory/libs本地发布 xml。背景
什么是依存句法分析呢? 叫的晦涩的术语,往往其实灰常简单,句法就是句子的法律规则,也就是句子里成分都是按照什么法律规则组织在一起的。而依存句法就是这些成分之间有一种依赖关系。什么是依赖:没有你的话,我存在就是个错误。“北京是中国的首都”,如果没有“首都”,那么“中国的”存在就是个错误,因为“北京是中国的”表达的完全是另外一个意思了。 什么是语义依存分析呢? “语义”就是说句子的含义,“张三昨天告诉
我有一个UserRepository,它是一个CRUD存储库,如图所示: 一个UserController如下所示: 和一个WebMvcTest类来测试我的UserController: 当我运行服务器时,一切都很好。但是,当我运行maven-test时,我得到了这个错误: java.lang.IllegalStateException:未能加载ApplicationContext,原因是:org
对于我使用的帮助库,我最近得到: 错误:无法解决':app@debug /compileClasspath'的依赖关系:无法使用转换ExtractAarTransform转换文件'mylib-release.aar'以匹配属性{artifactType=android-爆炸-aar} 然后在gradle控制台上: 无法解析配置的所有文件:demo: degCompileClasspath。 无法转
我想在Android Studio中包含一个库,但它显示错误如下: 如何解决这个问题? -构建。gradle(应用程序) 我认为与错误无关的其他依赖项: 实现“androidx”。appcompat:appcompat:1.4.2’