当前位置：首页 > 软件库 > 神经网络/人工智能 > 自然语言处理 >

YaLM 100B

千亿参数预训练语言模型

授权协议 Apache 2.0

开发语言 Python

所属分类神经网络/人工智能、自然语言处理

软件类型开源软件

地区不详

投递者郑俊材

操作系统跨平台

开源组织无

适用人群未知

软件概览

YaLM 100B是一个类似 GPT 的神经网络，用于生成和处理文本。

该模型利用了 1000 亿个参数，在 800 个 A100 显卡和 1.7 TB 在线文本、书籍以及海量其他英文和俄文资源的集群上训练该模型花了 65 天时间。

设置

在下载权重之前，请确保有 200GB 的可用磁盘空间。该模型（代码基于 microsoft/DeepSpeedExamples/Megatron-LM-v1.1.5-ZeRO3）应该在具有张量并行性的多个 GPU 上运行。它在 4 个 (A100 80g) 和 8 个 (V100 32g) GPU 上进行了测试，能使用总计约 200GB 的 GPU 内存来正确划分权重维度（例如 16、64、128）的不同配置。

用法

可以从以下脚本开始：

examples/generate_interactive.sh：从命令行交互式生成，尝试模型的最简单方法。
examples/generate_conditional_sampling.sh：带采样策略的条件生成。默认使用top-p，随意更改温度或使用top-k。输入是 jsonlines（例如：examples/example_cond_input.json），输出将是相同的 jsonlines，并且每行都添加了生成的文本字段。
examples/generate_conditional_greedy.sh: 和上文一样，但是一代是贪婪的。
examples/generate_unconditional.sh: 无条件生成。不使用输入，输出将是 jsonlines。

相关资料

ASR 语言模型在线训练

ASR语言模型在线训练分词文本清洗语言模型目前不支持英文，阿拉伯数字，标点符号以及特殊字符，所以需要将训练文本中英文剔除，阿拉伯数字转换成相应的中文表示，删除标点符号和特殊字符。文本分词一般先用结巴或清华分词器分词，再人工矫正，分词的原则是它需要具有独立的实体意义。比如,刘德华, 张学友，这些人名；还有一些地名，张家港，黑龙江等；专有名词，中国，迪士尼等．对于我们需要训练的文本，要保证分
Pytorch加载部分预训练模型的参数实例

本文向大家介绍Pytorch加载部分预训练模型的参数实例，包括了Pytorch加载部分预训练模型的参数实例的使用技巧和注意事项，需要的朋友参考一下前言自从从深度学习框架caffe转到Pytorch之后，感觉Pytorch的优点妙不可言，各种设计简洁，方便研究网络结构修改，容易上手，比TensorFlow的臃肿好多了。对于深度学习的初学者，Pytorch值得推荐。今天主要主要谈谈Pytorch是
使用OpenVino预训练模型与AWS Sagemaker

我希望使用AWS Sagemaker工作流部署一个预训练的模型，用于实时行人和/或车辆检测，我特别想使用Sagemaker Neo编译模型并将其部署在边缘。我想从他们的模型动物园中使用OpenVino的预构建模型之一，但是当我下载模型时，它已经是他们自己的优化器的中间表示（IR）格式。 > 如果没有，是否有任何免费的预训练模型（使用任何流行的框架，如pytorch，tenorflow，ONXX等）
四、训练模型

在之前的描述中，我们通常把机器学习模型和训练算法当作黑箱子来处理。如果你实践过前几章的一些示例，你惊奇的发现你可以优化回归系统，改进数字图像的分类器，你甚至可以零基础搭建一个垃圾邮件的分类器，但是你却对它们内部的工作流程一无所知。事实上，许多场合你都不需要知道这些黑箱子的内部有什么，干了什么。然而，如果你对其内部的工作流程有一定了解的话，当面对一个机器学习任务时候，这些理论可以帮助你快速的找到恰
四、训练模型

在之前的描述中，我们通常把机器学习模型和训练算法当作黑箱子来处理。如果你实践过前几章的一些示例，你惊奇的发现你可以优化回归系统，改进数字图像的分类器，你甚至可以零基础搭建一个垃圾邮件的分类器，但是你却对它们内部的工作流程一无所知。事实上，许多场合你都不需要知道这些黑箱子的内部有什么，干了什么。然而，如果你对其内部的工作流程有一定了解的话，当面对一个机器学习任务时候，这些理论可以帮助你快速的找到恰
tensorflow 固定部分参数训练,只训练部分参数的实例

本文向大家介绍tensorflow 固定部分参数训练,只训练部分参数的实例，包括了tensorflow 固定部分参数训练,只训练部分参数的实例的使用技巧和注意事项，需要的朋友参考一下在使用tensorflow来训练一个模型的时候，有时候需要依靠验证集来判断模型是否已经过拟合，是否需要停止训练。 1.首先想到的是用tf.placeholder()载入不同的数据来进行计算，比如这种方式很简单，也很
预测sklearn中的训练数据

问题内容：我像这样使用scikit-learn的SVM：我的问题是，当我使用分类器预测训练集成员的班级时，即使在scikit- learns实现中，分类器也可能是错误的。（例如）问题答案：是的，可以运行以下代码，例如：分数是0.61，因此将近40％的训练数据被错误分类。部分原因是，即使默认内核是（理论上也应该能够对任何训练数据集进行完美分类，只要您没有两个带有不同标签的相同训练点），也可
python PyTorch预训练示例

本文向大家介绍python PyTorch预训练示例，包括了python PyTorch预训练示例的使用技巧和注意事项，需要的朋友参考一下前言最近使用PyTorch感觉妙不可言，有种当初使用Keras的快感，而且速度还不慢。各种设计直接简洁，方便研究，比tensorflow的臃肿好多了。今天让我们来谈谈PyTorch的预训练，主要是自己写代码的经验以及论坛PyTorch Forums上的一些回

同类工具

YaLM 100B MiniGPT-4 turkish-morphology Alpaca-Turbo OpenAI-Whisper Freedom GPT NLTK PaddleSpeech

相关阅读

加载经过训练的Keras模型并继续训练 pytorch 更改预训练模型网络结构的方法在Tensorflow中使用预训练的inception_resnet_v2 使用Keras预训练模型ResNet50进行图像分类方式在pytorch中查看可训练参数的例子

相关文章

亿道集团软件开发(C语言)初面 PyTorch：数据加载，数学原理，猫鱼分类，CNN，预训练，迁移学习 C语言带参数的宏定义得物JAVA训练营 30min 亿道软件工程师（C语言方向）一面

相关问答

训练分类器模型Opennlp TensorFlow-Lite预训练模型在Android演示中不起作用如何在C#alturos.yolo中预训练数据集YOLOv3 AWS-Sagemaker中的多模型训练使用keras图断开误差的VGG16预训练模型的U-Net模型

相关文档

C/C++ 语言参考认知语言学 - 语言学系列丛书自然语言处理的神经网络模型入门语言本能：人类语言进化的奥秘 Go 语言圣经