当前位置: 首页 > 工具软件 > Label Studio > 使用案例 >

文本标注开源系统Doccano、Label Studio、BRAT比较

端木野
2023-12-01

竞品分析:

Label Studio 多模态数据标注首选,当然也可以做文本标注,但是角色权限管理没有doccano完善。

BRAT 老牌文本标注工具,擅长关系标注,构建知识图谱数据集比较有优势。界面比较粗超。

Doccano:提供了文本分类,序列标注和序列到序列的标注功能,可以为情绪分析,命名实体识别,文本摘要等创建标记数据。

Doccano标注平台UI风格不错。

主要特点:

  1. 数据导入导出
  2. 标签添加
  3. 角色权限管理
  4. 能否实现单账户同时标注,同一条数据多人标注(背靠背方式也是常用的一种标注方式,用于提高标注质量)

导入与导出
支持多文件上传,导入文件格式可以是文本, json, CoNLL(常用于NER),导出文件为json。唯一不足时多文件,不能自动区分。不过可以通过json格式增加额外的字段来实现这一功能。

标签添加
支持自定义标签颜色,标签对应的值,堪称傻瓜式配置。

角色权限管理
用户角色分为标注人员,审核人员和超级管理员。

增加用户可以在 http://127.0.01:8000/admin/ 中添加,或者命令行 doccano createuser --username user --password pass

额外功能
单一账户实测可以同时标注,多账户可以在项目中设置是否共享标注结果。

除此之外,标注平台还包含一些统计功能和辅助功能。

标注平台使用注意事项:

  1. 如果有预标注标签,下标是不计算空格的,否则标签很容易跑偏。
  2. 尽量保证导入数据无BOM utf-8格式。
  3. Label的key范围只有0~9 a~z,如果生成文件超过这个范围,会无法导入哟。


参考:https://blog.csdn.net/liuxing93619/article/details/120792216

 类似资料: