GPT-2

基于 transformer 的大型语言模型
授权协议 MIT
开发语言 Python
所属分类 神经网络/人工智能、 自然语言处理
软件类型 开源软件
地区 不详
投 递 者 墨翔宇
操作系统 跨平台
开源组织
适用人群 未知
 软件概览

GPT-2 是一种基于 transformer 的大型语言模型,具有 15 亿个参数,在 800 万网页数据集上进行训练。

它是论文《语言模型是无人监督的多任务学习者》(Language Models are Unsupervised Multitask Learners)的代码实现。

目前发布了 GPT-2 的小型(117M 参数)和中型(345M 参数)版本,还没有发布更大的模型,但已经发布了一个数据集供研究人员研究行为。该存储库旨在成为研究人员和工程师尝试使用 GPT-2 的起点。

 

 

  • GPT:使用通用的预训练提升自然语言的理解能力 使用没有标号的文本来预训练模型,最后在子任务上微调模型。 GPT使用的目标函数1是通过前k个词来预测第k+1个词,任务难度要比BERT的完形填空(根据上下文信息来预测中间被mask的词)要难很多,当然如果能够训练起来,能力也要强大很多。由于是通过前k个词来预测,因此GPT使用的是transformer的解码器(只在当前及之前的特征上做自注意力,之后的

  • 是的,GPT-2是开源的。它是一个强大的大规模自然语言生成模型,由OpenAI开发并在2019年公开发布。GPT-2的代码和模型可以在GitHub上免费获得,并且可以在各种应用中使用。但是,需要注意的是,GPT-2模型有多个版本,其中包括小型版本和超大型版本。小型版本的代码和模型是免费的,但是超大型版本的代码和模型并不是开源的,而是作为有偿服务提供的。

 相关资料
  • 本文向大家介绍语言模型相关面试题,主要包含被问及语言模型时的应答技巧和注意事项,需要的朋友参考一下 语言模型的作用之一为消解多音字的问题,在声学模型给出发音序列之后,从候选的文字序列中找出概率最大的字符串序列。 目前使用kenlm(https://github.com/kpu/kenlm)训练bi-gram语言模型。bi-gram表示当前时刻的输出概率只与前一个时刻有关。即 P(X{n} | X{

  • 语言模型(language model)是自然语言处理的重要技术。自然语言处理中最常见的数据是文本数据。我们可以把一段自然语言文本看作一段离散的时间序列。假设一段长度为$T$的文本中的词依次为$w_1, w_2, \ldots, w_T$,那么在离散的时间序列中,$w_t$($1 \leq t \leq T$)可看作在时间步(time step)$t$的输出或标签。给定一个长度为$T$的词的序列$

  • 本文向大家介绍Go语言并发模型的2种编程方案,包括了Go语言并发模型的2种编程方案的使用技巧和注意事项,需要的朋友参考一下 概述 我一直在找一种好的方法来解释 go 语言的并发模型: 不要通过共享内存来通信,相反,应该通过通信来共享内存 但是没有发现一个好的解释来满足我下面的需求: 1.通过一个例子来说明最初的问题 2.提供一个共享内存的解决方案 3.提供一个通过通信的解决方案 这篇文章我就从这三

  • 1. Hierarchical Softmax的缺点与改进 在讲基于Negative Sampling的word2vec模型前,我们先看看Hierarchical Softmax的的缺点。的确,使用霍夫曼树来代替传统的神经网络,可以提高模型训练的效率。但是如果我们的训练样本里的中心词w是一个很生僻的词,那么就得在霍夫曼树中辛苦的向下走很久了。能不能不用搞这么复杂的一颗霍夫曼树,将模型变的更加简单呢

  • 1. 基于Hierarchical Softmax的模型概述 我们先回顾下传统的神经网络词向量语言模型,里面一般有三层,输入层(词向量),隐藏层和输出层(softmax层)。里面最大的问题在于从隐藏层到输出的softmax层的计算量很大,因为要计算所有词的softmax概率,再去找概率最大的值。这个模型如下图所示。其中V是词汇表的大小, word2vec对这个模型做了改进,首先,对于从输入层到隐藏

  • 本文向大家介绍GO语言基本类型分析,包括了GO语言基本类型分析的使用技巧和注意事项,需要的朋友参考一下 本文实例分析了GO语言基本类型。分享给大家供大家参考。具体如下: 一、整型 go语言有13种整形,其中有2种只是名字不同,实质是一样的,所以,实质上go语言有11种整形。如下: (1)int :依赖不同平台下的实现,可以是int32或int64 (2)int8 :  (-128->127) (3