当前位置: 首页 > 知识库问答 >
问题:

从Inception注释引擎导出带有标签的文本序列

范成周
2023-03-14

理想的导出格式是,在txt文件的每一行上:text label

我希望实现的数据格式与您在这里看到的类似:https://github.com/law-ai/semantic-segmentation/blob/master/data/text/1953_L_1.txt

共有1个答案

左丘边浩
2023-03-14

假设您已经在INCEpTION中配置了一个名为segment的span层(它可以转换为内部名称webanno.custom.segment),并且您已经在INCEpTION中的注释页面上将名为my-text.txt的文档的几个句子注释为segment。让我们进一步假设层配置为具有名为标签的字符串特性,在该特性中放置诸如事实决策比率先例等值。

现在,您可以通过UIMA CAS XMI(XML1.0)中注释页面操作栏中的export按钮导出单个带注释的文档。您得到的是一个ZIP文件,其中包含两个文件:

  • 包含注释文本的my-text.xmi文件
  • 包含注释方案的typesystem.xml文件

假设您已经安装了Python3,现在可以安装DKPro Cassis,这是一个帮助您使用上面两个文件的库。

pip install dkpro-cassis

现在,您可以使用Cassis编写一个简短的Python脚本,该脚本读取注释并以您所需的格式输出它们:

from cassis import *

with open('TypeSystem.xml', 'rb') as f:
  typesystem = load_typesystem(f)

with open('my-text.xmi', 'rb') as f:
  doc = load_cas_from_xmi(f, typesystem=typesystem)

with open('output.txt', 'w') as f:
  for segment in doc.select('webanno.custom.Segment'):
    f.write(f"{segment.get_covered_text()}\t{segment.label}\n")

在INCEpTION网站的Python examples部分中有一个类似的可供运行的示例。

 类似资料:
  • 我在google Kubernetes引擎上配置入口。我是ingress的新手,但据我所知,ingress可以服务于不同的负载平衡器,不同的LBs应该进行不同的配置。 我从GKE上的一个简单入口配置开始: 它工作得很好,所以我有两种不同的NodePort服务web np和etcd np。但现在我需要用一些重写规则扩展这个逻辑,以便指向服务1的请求将被重定向到另一个np服务,但在服务1之前。html

  • 我正在使用Bootstrap 3选项卡进行页面布局,并Chart.js为项目创建甜甜圈图。 但是,当更改为带有图表的选项卡时,图表不会加载。有时,当您开始在谷歌浏览器中检查元素时,它们会加载。它们似乎只有在第一个可见选项卡上加载时才会呈现。 chrome控制台中的chart.js javascript有一个已知错误: 未捕获的IndexSizeError:无法对“CanvasRenderingCo

  • 问题内容: 我在Spring Boot应用程序中使用一种应该异步运行的方法来做一个类。当我阅读方法时,应该加上注释,而且我还必须运行一个bean。但是在Spring手册http://docs.spring.io/spring/docs/current/spring- framework- reference/html/scheduling.html中, 我找不到任何信息或示例如何在没有XML配置的

  • 我编写基本java已经有一段时间了,现在正在体验Spring Boot。 在Spring引导中经常看到注释。 对我来说,注释是为了节省开发人员实现更少代码的时间,顾名思义是在线的。但这并不能满足我下面的问题 到目前为止,我正在经历@autowed。让我困惑的是@autowmed启用依赖注入并告诉bean配置xml(我还不明白它有多有用) 例如, 然而,在基本的java中,它不允许将实例作为参数传递

  • 我正在尝试使用Bootstrap4创建一个表单。但是文件输入的标签溢出了列。我找不到一个方法使它适合这个专栏。有没有一种引导方式或自定义css可以实现这一点? 编辑:很抱歉,我的问题没有得到很好的解释。我所说的标签是指文件输入中的标签。那个isi“选择文件…”。可以看到,图像中输入的文件在右侧溢出。它与其他输入字段不对齐。