NL-Augmenter 旨在增加处理自然语言数据集的转换。变换以不同的方式增强文本数据集,包括:引入拼写错误、翻译成不同的语言、随机化名称和数字、转述......以及任何你所贡献的创造性增强。
要求
指示
# When creating a new transformation, replace this with your forked repository (see below) git clone https://github.com/GEM-benchmark/NL-Augmenter.git cd NL-Augmenter python setup.py sdist pip install -e . pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-2.2.0/en_core_web_sm-2.2.0.tar.gz
首先,在 GitHub 中 fork 仓库!
fork 后将有自己的位置,我们将其称为PATH_TO_YOUR_FORK
。接下来,克隆 fork 的存储库并为您的转换创建一个分支,这里我们将其称为 my_awesome_transformation:
git clone $PATH_TO_YOUR_FORK
cd NL-Augmenter
git checkout -b my_awesome_transformation
cd transformations/ cp -r butter_fingers_perturbation my_awesome_transformation cd my_awesome_transformation
transformation.py
文件中,将ButterFingersPerturbation
类重命名为MyAwesomeTransformation
并从interfaces/
文件夹中选择接口之一。在此处查看完整的选项列表。generate
方法中。如果您打算使用外部库,请将它们及其版本号添加到requirements.txt
my_awesome_transformation/README.md
以描述您的转变。测试和评估(可选)
完成后,在 test.json
文件中添加至少 5 个示例对作为测试用例,以便没有人无意中破坏您的代码。
转换准备就绪后,对其进行测试:
pytest -s --t=my_awesome_transformation
本文向大家介绍python自然语言编码转换模块codecs介绍,包括了python自然语言编码转换模块codecs介绍的使用技巧和注意事项,需要的朋友参考一下 python对多国语言的处理是支持的很好的,它可以处理现在任意编码的字符,这里深入的研究一下python对多种不同语言的处理。 有一点需要清楚的是,当python要做编码转换的时候,会借助于内部的编码,转换过程是这样的: python的内部
主要内容 前言 课程列表 推荐学习路线 数学基础初级 程序语言能力 机器学习简介 自然语言学习初级 数学和机器学习知识补充 自然语言处理中级 自然语言处理专项领域学习 前言 我们要求把这些课程的所有Notes,Slides以及作者强烈推荐的论文看懂看明白,并完成所有的老师布置的习题,而推荐的书籍是不做要求的,如果有些书籍是需要看完的,我们会进行额外的说明。 课程列表 课程 机构 参考书 Notes
2. 自然语言和形式语言 自然语言(Natural Language)就是人类讲的语言,比如汉语、英语和法语。这类语言不是人为设计(虽然有人试图强加一些规则)而是自然进化的。形式语言(Formal Language)是为了特定应用而人为设计的语言。例如数学家用的数字和运算符号、化学家用的分子式等。编程语言也是一种形式语言,是专门设计用来表达计算过程的形式语言。 形式语言有严格的语法(Syntax)
自然语言是人类讲话使用的语言,如英语、西班牙语和法语等。虽然人们总要给自然语言加上一些规则,但自然语言并非人类设计,它们是自然演化而来的。 形式语言是人们为特定应用设计的语言。例如,数学家使用的记号就是一种便于表示数字与符号关系的形式语言。化学家也使用一种形式语言来表示分子的化学结构。最重要的是: 编程语言是人为设计的用来表达计算的形式语言。 前面也提到过,形式语言有严格的语法规则。比如3+3=6
知识图谱 接口: nlp_ownthink 目标地址: https://ownthink.com/ 描述: 获取思知-知识图谱的接口, 以此来查询知识图谱数据 限量: 单次返回查询的数据结果 输入参数 名称 类型 必选 描述 word str Y word="人工智能" indicator str Y indicator="entity"; Please refer Indicator Info
PyTorch 自然语言处理(Natural Language Processing with PyTorch 中文版)