Transformers TF-PT

用于 TF 2.0 和 PyTorch 的自然语言处理框架
授权协议 Apache-2.0
开发语言 Python
所属分类 神经网络/人工智能、 自然语言处理
软件类型 开源软件
地区 不详
投 递 者 欧阳俊明
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

Transformers(以往称为 pytorch-transformers 和 pytorch-pretrained-bert)是用于 TensorFlow 2.0 和 PyTorch 的自然语言处理框架。它提供了用于自然语言理解(NLU,Natural Language Understanding)和自然语言生成(NLG,Natural Language Generation)的最先进的通用架构,包括 BERT、GPT-2、RoBERTa、XLM、DistilBert 与 XLNet 等,具有超过 100 种语言的 32 种以上经过预训练的模型,以及 TensorFlow 2.0 和 PyTorch 之间的深度互操作性。

特性:

  • 与 pytorch-transformers 一样易用
  • 像 Keras 一样强大与简洁
  • 处理 NLU 和 NLG 任务时性能高
  • 教育者和从业者的进入门槛低
  • 低计算成本,研究人员可以共享训练模型,不必再训练,内置 8 种架构,包含 30 多种预训练的模型,其中一些采用 100 多种语言
  • 3 行代码即可训练最先进的模型
  • TensorFlow 2.0 和 PyTorch 模型之间的深层互操作性,可以随意在两个框架之间移动单个模型
  • 场景 使用tensorflow将TF模型转化成PyTorch模型 步骤 获取如下三个文件: src/transformers/models/bert/convert_bert_original_tf2_checkpoint_to_pytorch.py:这个是将tensorflow2.x Bert模型转化成PyTorch可用的模型。 src/transformers/models/bert/mode

  • 在我使用transformers进行预训练模型学习及微调的时候,需要先对数据进行预处理,然后经过处理过的数据才能送进bert模型里,这个过程中使用的主要的工具就是tokenizer。通过与相关预训练模型相关的tokenizer类建立tokenizer,例如,对于Roberta,我们可以使用与之相关的RobertaTokenizer,或者直接通过AutoTokenizer类,这个类能自动的识别所建立

  •   本内容主要介绍 Transformers 库 的基本使用。 1.1 Transformers 库简介   Transformers 库是一个开源库,其提供的所有预训练模型都是基于 transformer 模型结构的。 1.1.1 Transformers 库   我们可以使用 Transformers 库提供的 API 轻松下载和训练最先进的预训练模型。使用预训练模型可以降低计算成本,以及节省

  • Transformers种的模型类旨在兼容Pytorch和Tensorflow2,并且可以无缝地在其中使用。本节,会展示如何使用标准的训练工具从头开始训练或微调一个模型。此外,也会展示如何使用Trainer()类来处理复杂的训练过程。 使用PyTorch来微调 自定义任务模型 在Transformers中,不以TF开头的模型类是Pytorch模型,这意味着你可以使用它们像Pytorch模型一样进行

  • 作者|huggingface 编译|VK 来源|Github 本章介绍使用Transformers库时最常见的用例。可用的模型允许许多不同的配置,并且在用例中具有很强的通用性。这里介绍了最简单的方法,展示了诸如问答、序列分类、命名实体识别等任务的用法。 这些示例利用Auto Model,这些类将根据给定的checkpoint实例化模型,并自动选择正确的模型体系结构。有关详细信息,请查看:AutoM

  • 本章介绍使用Transformers库时最常见的用例。可用的模型允许许多不同的配置,并且在用例中具有很强的通用性。这里介绍了最简单的方法,展示了诸如问答、序列分类、命名实体识别等任务的用法。 这些示例利用Auto Model,这些类将根据给定的checkpoint实例化模型,并自动选择正确的模型体系结构。有关详细信息,请查看:AutoModel文档。请随意修改代码,使其更具体,并使其适应你的特定用

  • Quick tour Under the hood: pretrained models 创建 model 和 tokenizer 使用 from_pretrained() 方法 创建 model and tokenizer from transformers import AutoTokenizer, AutoModelForSequenceClassification model_name =

  • 这是我对transformers库查看了原始文档后,进行的学习总结。 第一部分是将如何调用加载本地模型,使用模型,修改模型,保存模型 之后还会更新如何使用自定义的数据集训练以及对模型进行微调,感觉这样这个库基本就能玩熟了。 # 加载本地模型须知 * 1.使用transformers库加载预训练模型,99%的时间都是用于模型的下载。 为此,我直接从清华大学软件("https://mirrors.tu

  • 可以使用convert_pytorch_checkpoint_to_tf.py将pytorch版本的 bert模型转换为TF版本的bert模型,不过需要注意的是需要将程序进行一定的修改: 原始代码: model = BertModel.from_pretrained( pretrained_model_name_or_path=args.model_name,

 相关资料
  • PyTorch 自然语言处理(Natural Language Processing with PyTorch 中文版)

  • 主要内容 前言 课程列表 推荐学习路线 数学基础初级 程序语言能力 机器学习简介 自然语言学习初级 数学和机器学习知识补充 自然语言处理中级 自然语言处理专项领域学习 前言 我们要求把这些课程的所有Notes,Slides以及作者强烈推荐的论文看懂看明白,并完成所有的老师布置的习题,而推荐的书籍是不做要求的,如果有些书籍是需要看完的,我们会进行额外的说明。 课程列表 课程 机构 参考书 Notes

  • 本书旨在介绍如何通过Python和NLTK实现自然语言处理。本书包括三个模块。模块1介绍文本挖掘/NLP任务中所需的所有预处理步骤,包括文本的整理和清洗、词性标注、对文本的结构进行语法分析、文本的分类等。 模块2讲述如何使用Python 3的NLTK 3进行文本处理,包括标记文本、替换和校正单词、创建自定义语料库、词性标注、提取组块、文本分类等。模块3讨论了如何通过Python掌握自然语言处理,包

  • 知识图谱 接口: nlp_ownthink 目标地址: https://ownthink.com/ 描述: 获取思知-知识图谱的接口, 以此来查询知识图谱数据 限量: 单次返回查询的数据结果 输入参数 名称 类型 必选 描述 word str Y word="人工智能" indicator str Y indicator="entity"; Please refer Indicator Info

  • 这是一本关于自然语言处理的书。所谓“自然语言”,是指人们日常交流使用的语言,如英语,印地语,葡萄牙语等。

  • 在本章中,我们以第六章和第七章讨论的序列建模概念为基础,将它们扩展到序列到序列建模的领域,其中模型以一个序列作为输入,并产生另一个可能不同长度的序列作为输出。序列对序列问题的例子随处可见。例如,给定一封电子邮件,我们可能希望预测响应。给出一个法语句子,预测它的英语翻译。或者,给定一篇文章,写一篇摘要。我们还讨论了序列模型的结构变体,特别是双向模型。为了最大限度地利用序列表示,我们介绍了注意机制并对

  • 自然语言处理怎么学? 先学会倒着学,倒回去看上面那句话:不管三七二十一先用起来,然后再系统地学习 nltk是最经典的自然语言处理的python库,不知道怎么用的看前几篇文章吧,先把它用起来,最起码做出来一个词性标注的小工具 自然语言处理学什么? 这门学科的知识可是相当的广泛,广泛到你不需要掌握任何知识就可以直接学,因为你不可能掌握它依赖的全部知识,所以就直接冲过去吧。。。 话说回来,它到底包括哪些

  • 自然语言处理之序列模型 - 小象学院 解决 NLP 问题的一般思路 这个问题人类可以做好么? - 可以 -> 记录自己的思路 -> 设计流程让机器完成你的思路 - 很难 -> 尝试从计算机的角度来思考问题 NLP 的历史进程 规则系统 正则表达式/自动机 规则是固定的 搜索引擎 “豆瓣酱用英语怎么说?” 规则:“xx用英语怎么说?” => translate(XX, English)