当前位置：首页 > 软件库 > 神经网络/人工智能 > 机器学习/深度学习 >

GPT-J

自然语言处理 AI 模型

授权协议 Apache-2.0

开发语言 Python

所属分类神经网络/人工智能、机器学习/深度学习

软件类型开源软件

地区不详

投递者陆仲渊

操作系统跨平台

开源组织无

适用人群未知

软件官网

软件文档

官方下载

软件概览

GPT-J 是一个基于 GPT-3，由 60 亿个参数组成的自然语言处理 AI 模型。该模型在一个 800GB 的开源文本数据集上进行训练，并且能够与类似规模的 GPT-3 模型相媲美。

该模型通过利用 Google Cloud 的 v3-256 TPU 以及 EleutherAI 的 The Pile 数据集进行训练的，历时大约五周时间。

性能对比：

Model	Weights	Training FLOPs	LAMBADA PPL ↓	LAMBADA Acc ↑	Winogrande ↑	Hellaswag ↑	PIQA ↑	Dataset Size (GB)
Chance	✔	0	~a lot	~0%	50%	25%	25%	0
GPT-3-Ada‡	✘	-----	9.95	51.6%	52.9%	43.4%	70.5%	-----
GPT-2-1.5B	✔	-----	10.63	51.21%	59.4%	50.9%	70.8%	40
GPTNeo-1.3B‡	✔	3.0e21	7.50	57.2%	55.0%	48.9%	71.1%	825
Megatron-2.5B*	✘	2.4e21	-----	61.7%	-----	-----	-----	174
GPTNeo-2.7B‡	✔	6.8e21	5.63	62.2%	56.5%	55.8%	73.0%	825
GPT-3-1.3B*‡	✘	2.4e21	5.44	63.6%	58.7%	54.7%	75.1%	~800
GPT-3-Babbage‡	✘	-----	5.58	62.4%	59.0%	54.5%	75.5%	-----
Megatron-8.3B*	✘	7.8e21	-----	66.5%	-----	-----	-----	174
GPT-3-2.7B*‡	✘	4.8e21	4.60	67.1%	62.3%	62.8%	75.6%	~800
Megatron-11B†	✔	1.0e22	-----	-----	-----	-----	-----	161
GPT-J-6B‡	✔	1.5e22	3.99	69.7%	65.3%	66.1%	76.5%	825
GPT-3-6.7B*‡	✘	1.2e22	4.00	70.3%	64.5%	67.4%	78.0%	~800
GPT-3-Curie‡	✘	-----	4.00	69.3%	65.6%	68.5%	77.9%	-----
GPT-3-13B*‡	✘	2.3e22	3.56	72.5%	67.9%	70.9%	78.5%	~800
GPT-3-175B*‡	✘	3.1e23	3.00	76.2%	70.2%	78.9%	81.0%	~800
GPT-3-Davinci‡	✘	-----	3.0	75%	72%	78%	80%	-----

使用案例

Python AI教程之在 GPU 上使用深度速度推理加速 GPT-J 推理

在本文中，您将学习如何使用 Hugging Face Transformers 和 DeepSpeed-Inference来优化 GPT-2/GPT-J 的无差错。将向您展示如何使用深度速度推理应用最先进的优化技术。本文将重点介绍 GPT-2、GPT-NEO 和类似 GPT-J 的模型的单 GPU 推理在文结束时，您将了解如何使用深度推理优化拥抱面变压器模型（GPT-2、GPT-J）。我们将针对
GPT-JT 是训练 AI 的新开源方法，GPT-JT 是开源的，因此与 GPT-3 直接竞争

介绍 GPT-JT 来了！它是训练人工智能 (AI) 的最新开源方法，基于最近发布的开源技术和数据集。GPT-JT 已在 Together Research Computer 上采用分散式方法进行了培训，现已开源。它与按需/请求提供的 GPT-3 形成对比。对于那些希望以更易于访问且更具成本效益的方式训练 AI 模型的人来说，GPT-JT 是完美的解决方案。有了 GPT-JT，可能性是无限的。什
GPT-3.5-turbo小白连接教程

前言最近在看ChatGPT的相关内容，尝试了在自己电脑上调用一下OpenAI的api，下面以调用GPT-3.5-turbo为例进行讲解。本次分享分为三大模块：第一个模块先对连接成功后的AI聊天机器人的功能进行简要了解，第二个模块讲一下国内连接OpenAI的api所需要的前提条件，第三个模块详细讲解一下怎么进行连接调用OpenAI的api接口。 1 聊天模式通过api接口连接的ChatG
gpt-4chan 运行笔记

GPT-4chan是一个脏话回帖机器人，由著名的油管主播yk编写，在某reddit频道的大量帖子与回复上训练。接下来，本文会找到GPT-4chan的模型文件，并用它运行一些样例。下载模型 GPT-4chan的项目页面位于hugginface的ykilcher/gpt-4chan，但公告显示，由于违反互联网协议，模型的下载已被禁用。笔者探索了两种下载模型文件的方法：搜索网盘分享，或搜索网友提供的g
gpt笔记

视频教学推荐阅读 GPT-4chan: This is the worst AI ever GPT-3: Language Models are Few-Shot Learners (Paper Explained) 代码： gpt-4chan代码 gpt-3论文几种前沿NLP模型的对比参考Gpt,gpt2,gpt3,bert,roberta,t5模型区别分析可知，几种模型系列都是由Trans
Databricks 笔记本微调了羊驼数据集上的 GPT-J 6B 模型

这使用 Databricks 笔记本微调了羊驼数据集上的 GPT-J 6B 模型。请注意，虽然 GPT-J 6B 已获得 Apache 2.0 许可，但 Alpaca 数据集已获得 Creative Commons NonCommercial (CC BY-NC 4.0) 许可。 Dolly This fine-tunes the GPT-J 6B model on the Alpaca data

GPT-J

性能对比：

同类工具

相关阅读

相关文章

相关问答

相关文档