nanoGPT

快速轻量的中型 GPT 项目
授权协议 MIT
开发语言 Python
所属分类 神经网络/人工智能、 自然语言处理
软件类型 开源软件
地区 不详
投 递 者 柳羽
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

nanoGPT 自称是训练/调整中型 GPT 最简单、最快的资料库,目前仍在积极开发中,但文件 train.py在 OpenWebText 上重现了 GPT-2(在一个 8XA100 40GB 节点上训练了大约 4 天)。

因为代码非常简单,所以很容易根据你的需要进行修改、从头开始训练新的模型,或者对预训练的进行微调。

安装

依赖项:

  • pytorch <3
  • numpy <3
  • pip install transformers
  • pip install datasets
  • pip install tiktoken
  • pip install wandb
  • pip install tqdm

 

 

 相关资料
  • 问题内容: 我有一个将要推送的特定格式的XML文档。该文档将始终是同一类型,因此非常严格。 我需要对此进行解析,以便将其转换为JSON(嗯,这是一个混蛋版本,以便其他人可以将其与DOJO一起使用)。 我的问题是,我应该使用非常快速的轻量级(不需要SAX等)XML解析器(有什么想法吗?)还是编写我自己的,基本上可以转换为StringBuffer并在数组中旋转?基本上,我假设所有HTML解析器都将旋转

  • GCViewer如果你看一下这个截图,你可以看到几乎是纯蓝色的线,在那里年轻一代的收藏发生迅速连续。

  • 问题内容: 我正在尝试使用NSLocalizedString本地化我的应用程序。当我导入XLIFF文件时,大多数工作都像一个超级按钮,但是有些却没有,有些字符串没有本地化。我注意到问题出在NSLocalizedString中,其中包含一些变量,例如: 要么 也许这不是这类东西的正确语法。有人可以向我解释如何迅速做到这一点?非常感谢你。 问题答案: 您可以在中使用format参数,因此您的示例如下所

  • Keras泛型模型接口是用户定义多输出模型、非循环有向模型或具有共享层的模型等复杂模型的途径 这部分的文档假设你已经对Sequential模型已经比较熟悉 让我们从简单一点的模型开始 第一个模型:全连接网络 Sequential当然是实现全连接网络的最好方式,但我们从简单的全连接网络开始,有助于我们学习这部分的内容。在开始前,有几个概念需要澄清: 层对象接受张量为参数,返回一个张量。张量在数学上只

  • 问题内容: 我有大的(>百万行)MySQL数据库被重复弄乱了。我认为这可能是充满它们的整个数据库的1/4到1/2。我需要快速摆脱它们(我是指查询执行时间)。外观如下: id(索引)| text1 | text2 | text3 text1&text2组合应该是唯一的,如果有重复项,则仅应保留一个text3 NOT NULL组合。例: …成为: 新的id可以是任何东西,它们不依赖于旧表的id。 我已

  • 启动项目(请先完成环境依赖安装) 克隆项目 执行 => composer install (如果安装很慢,可以使用国内镜像,但是镜像包会有延迟) 新建一个runtime目录,用于存放日志等cache文件 配置config中的database配置文件 设置config/service.php中的registry_address.目前只支持redis、mysql作为注册中心 启动http server