NL-Augmenter

自然语言转换的协作存储库
授权协议 MIT
开发语言 Python
所属分类 神经网络/人工智能、 自然语言处理
软件类型 开源软件
地区 不详
投 递 者 淳于升
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

NL-Augmenter 旨在增加处理自然语言数据集的转换。变换以不同的方式增强文本数据集,包括:引入拼写错误、翻译成不同的语言、随机化名称和数字、转述......以及任何你所贡献的创造性增强。

安装

要求

  • Python 3.7

指示

# When creating a new transformation, replace this with your forked repository (see below)
git clone https://github.com/GEM-benchmark/NL-Augmenter.git
cd NL-Augmenter
python setup.py sdist
pip install -e .
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-2.2.0/en_core_web_sm-2.2.0.tar.gz

如何创建转换?

设置

首先,在 GitHub 中 fork 仓库

叉形按钮

fork 后将有自己的位置,我们将其称为PATH_TO_YOUR_FORK。接下来,克隆 fork 的存储库并为您的转换创建一个分支,这里我们将其称为 my_awesome_transformation

git clone $PATH_TO_YOUR_FORK 
cd NL-Augmenter 
git checkout -b my_awesome_transformation
cd transformations/
cp -r butter_fingers_perturbation my_awesome_transformation
cd my_awesome_transformation

创建转换

  1. transformation.py文件中,将ButterFingersPerturbation类重命名为MyAwesomeTransformation并从interfaces/文件夹中选择接口之一。在此处查看完整的选项列表
  2. 现在把你所有的创造力都投入到实施这个generate方法中。如果您打算使用外部库,请将它们及其版本号添加到requirements.txt
  3. 更新my_awesome_transformation/README.md以描述您的转变。

测试和评估(可选)

完成后,在 test.json 文件中添加至少 5 个示例对作为测试用例,以便没有人无意中破坏您的代码。

转换准备就绪后,对其进行测试:

pytest -s --t=my_awesome_transformation
 相关资料
  • 本文向大家介绍python自然语言编码转换模块codecs介绍,包括了python自然语言编码转换模块codecs介绍的使用技巧和注意事项,需要的朋友参考一下 python对多国语言的处理是支持的很好的,它可以处理现在任意编码的字符,这里深入的研究一下python对多种不同语言的处理。 有一点需要清楚的是,当python要做编码转换的时候,会借助于内部的编码,转换过程是这样的: python的内部

  • 主要内容 前言 课程列表 推荐学习路线 数学基础初级 程序语言能力 机器学习简介 自然语言学习初级 数学和机器学习知识补充 自然语言处理中级 自然语言处理专项领域学习 前言 我们要求把这些课程的所有Notes,Slides以及作者强烈推荐的论文看懂看明白,并完成所有的老师布置的习题,而推荐的书籍是不做要求的,如果有些书籍是需要看完的,我们会进行额外的说明。 课程列表 课程 机构 参考书 Notes

  • 2. 自然语言和形式语言 自然语言(Natural Language)就是人类讲的语言,比如汉语、英语和法语。这类语言不是人为设计(虽然有人试图强加一些规则)而是自然进化的。形式语言(Formal Language)是为了特定应用而人为设计的语言。例如数学家用的数字和运算符号、化学家用的分子式等。编程语言也是一种形式语言,是专门设计用来表达计算过程的形式语言。 形式语言有严格的语法(Syntax)

  • 自然语言是人类讲话使用的语言,如英语、西班牙语和法语等。虽然人们总要给自然语言加上一些规则,但自然语言并非人类设计,它们是自然演化而来的。 形式语言是人们为特定应用设计的语言。例如,数学家使用的记号就是一种便于表示数字与符号关系的形式语言。化学家也使用一种形式语言来表示分子的化学结构。最重要的是: 编程语言是人为设计的用来表达计算的形式语言。 前面也提到过,形式语言有严格的语法规则。比如3+3=6

  • 知识图谱 接口: nlp_ownthink 目标地址: https://ownthink.com/ 描述: 获取思知-知识图谱的接口, 以此来查询知识图谱数据 限量: 单次返回查询的数据结果 输入参数 名称 类型 必选 描述 word str Y word="人工智能" indicator str Y indicator="entity"; Please refer Indicator Info

  • PyTorch 自然语言处理(Natural Language Processing with PyTorch 中文版)