Chapter 8.用于自然语言处理的高级 Sequence



Sequence-to-Sequence Models, Encoder–Decoder Models, and Conditioned Generation

序列到序列(S2S)模型是一种称为编码器-解码器模型的一般模型家族的特殊情况。编码器-解码器模型是两个模型(图8-1)的组合,一个是“编码器”模型,另一个是“解码器”模型,这两个模型通常是联合训练的。编码器模型需要输入并产生一个编码或表示ϕ的输入,通常一个向量。编码器的目标是捕获与当前任务相关的输入的重要属性。解码器的目标是获取编码输入并产生所需的输出。通过对编码器和解码器的理解,我们将S2S模型定义为编码器-解码器模型,其中编码器和解码器是序列模型,输入和输出都是序列,可能长度不同。 S2S 一种查看编码器-解码器模型的方法是将其作为称为条件生成模型的模型的特殊情况。在conditioned-generation中,替代输入表示ϕ,一般条件上下文c影响译码器产生一个输出。当条件上下文c来自编码器模型时,条件生成与编码器-解码器模型相同。并非所有的条件生成模型都是编码器-解码器模型,因为条件上下文可能来自结构化源。以天气报告生成器为例。温度、湿度、风速和风向的值可以“调节”解码器,生成文本天气报告。在“模型2:条件性姓氏生成模型”中,我们看到了一个基于国籍条件性姓氏生成的例子。图8-2展示了一些条件生成模型的实际示例。


在这一章中,我们深入研究了S2S模型,并在机器翻译任务的背景下进行了说明。考虑一个“智能”的iOS/Android键盘,它可以在你打字时自动将文本转换成表情符号。如果你输入“omg!”房子着火了!,你希望键盘输出类似内联输出的内容。注意,输出的长度(4个令牌)与输入的长度(6个令牌)不同。输出和输入之间的映射称为对齐,如图8-3所示。 example2 同样,在本例中,输入中的单个令牌可以在输出中生成零个或多个令牌。传统上,许多解决S2S问题的方法都是尝试使用工程和启发式重统计方法。虽然回顾这些方法超出了本章和本书的范围,但是我们建议您阅读Koehn(2009)并参考statmt.org中的参考资料。


图8 - 4显示了编码器整个输入一个表示“编码”,ϕ,条件解码器生成正确的输出。您可以使用任何RNN作为编码器,无论是Elman RNN, Long - term Memory (LSTM),还是gate Unit (GRU),。在接下来的两个部分中,我们将介绍现代S2S模型的两个重要组件。首先,我们引入了双向递归模型,该模型将向前和向后传递组合在一个序列上,以创建更丰富的表示。然后,在“从序列中获取更多信息:注意力”中,我们介绍并考察了注意力机制,它在关注与任务相关的输入的不同部分时非常有用。这两个部分对于构建基于S2S模型的解决方案都非常重要。


Capturing More from a Sequence: Bidirectional Recurrent Models


The man who hunts ducks out on the weekends. 如果模型只从左到右观察,那么“duck”的表示将不同于从右到左观察单词的模型。人类一直在做这种回溯性的更新。

因此,如果把过去和未来的信息结合在一起,就能够有力地按顺序表示一个单词的意思。这就是双向递归模型的目标。递归家族的任何模型,如Elmann RNNs或LSTMs或GRUs,都可以用于这种双向表达。与第6章和第7章中的单向模型一样,双向模型可以用于分类和序列标记设置,我们需要预测输入中每个单词的一个标签。图8-5和图8-6详细说明了这一点。在图8-6中,ϕ_{love} 是表示、编码或该时刻网络的“隐藏的状态”,当输入的词是”love”步。当我们讨论注意力时,这种状态信息在“从一个序列中获取更多信息:注意力”中变得很重要。

Attention Attention2

Capturing More from a Sequence: Attention

“序列到序列模型,编码器 - 解码器模型和条件生成”中引入的S2S模型公式的一个问题是它将整个输入句子变成单个矢量(“编码”)φ并使用该编码生成输出,如图8-7所示。虽然这可能适用于非常短的句子,但对于长句,这样的模型无法捕获整个输入中的信息;例如,见Bengio等。 (1994)和Le和Zuidema(2016)。这是仅使用最终隐藏状态作为编码的限制。长输入的另一个问题是,当长时间输入反向传播时,梯度消失,使训练变得困难。 Attention3 对于曾尝试翻译的双语/多语言读者来说,这种首先编码然后解码的过程可能会有点奇怪。作为人类,我们通常不会提炼句子的含义并从意义中产生翻译。对于图8-7中的示例,“pour” we know there will be a “for”; similarly “breakfast” is on our mind when we see “petit-déjeuner,” and so on. In other words, our mind focuses on the relevant parts of the input while producing output. This phenomenon is called attention. Attention has been widely studied in neuroscience and other allied fields, and it is what makes us quite successful despite having limited memories. Attention happens everywhere. In fact, it is happening right now to you, dear reader. Each. Word. You. Are. Reading. Now. Is. Being. Attended. To. Even if you have an exceptional memory, you’re probably not reading this entire book as a string. When you are reading a word, you are paying attention to the neighboring word, possibly the topic of the Section and Chapter, and so on.

以类似的方式,我们希望序列生成模型将注意力集中到输入的不同部分,而不仅仅是整个输入的最终总结。这就是注意力机制。第一个包含自然语言处理(NLP)注意概念的模型是Bahdanau等人(2015)的机器翻译模型。从那时起,人们提出了几种注意机制和提高注意的方法。在本节中,我们将回顾一些基本的注意机制,并介绍一些与注意相关的术语。事实证明,注意力对于改进输入和输出复杂的深度学习系统非常有用。事实上,Bahdanau等人通过“BLEU score”(我们在“评估序列生成模型”中看到的)来衡量机器翻译系统的性能,当输入变长时,机器翻译系统在没有注意机制的情况下会下降,如图8-8所示。增加注意力可以解决问题。


Attention in Deep Neural Networks

注意力是一种通用的机制,可以用于本书前面讨论过的任何一种模型。但我们在这里用编码器-解码器模型来描述它,因为这些模型是注意力机制真正发挥作用的地方。考虑一个S2S模型。回想一下,在一个典型的S2S模型中,每个时间步生成一个隐藏的状态表示,表示 ϕ_w,特定于该时间步的编码器。(如图8-6所示。)为了引起注意,我们不仅要考虑编码器的最终隐藏状态,还要考虑每个中间步骤的隐藏状态。这些编码器隐藏状态,在某种程度上是非信息性的,称为值。在某些情况下,编码器的隐藏状态也称为键。注意力还取决于调用查询的解码器的前一个隐藏状态。图8-9说明了时间步骤0的所有这些。时间步长t=0的查询向量是一个固定的超参数。注意由一个向量来表示,这个向量的维数与它所关注的值的维数相同。这被称为注意力向量,或注意力权重,有时也称为对齐。注意力权重与编码器状态(“值”)相结合,生成一个有时也称为瞥见的上下文向量。这个上下文向量成为解码器的输入,而不是完整的句子编码。使用兼容性函数更新下一个时间步骤的注意向量。相容函数的确切性质取决于所使用的注意机制。

Encoder_Decoder 有几种方法可以实现关注。最简单和最常用的是内容感知机制。您可以在“示例:神经机器翻译”中看到内容感知注意力。另一种流行的注意机制是位置感知注意力,它仅依赖于查询向量和密钥。注意权重通常是0到1之间的浮点值。这称为软注意。相反,可以学习二进制0/1向量以引起注意。这被称为硬关注。


有时,特别是在机器翻译中,可以明确地提供对齐信息作为训练数据的一部分。在这种情况下,可以设计受监督的注意力来使用共同训练的单独神经网络来学习注意力功能。对于诸如文档之类的大型输入,可以设计粗粒度到细粒度的注意机制,也称为分级注意,不仅关注立即输入,而且还考虑文档的结构 - 段落,部分,章节等。 Vaswani等人对变压器网络的研究。 (2017),引入多头注意,其中多个注意向量用于跟踪输入的不同区域。他们还普及了自我关注的概念,这是一种机制,通过该机制,模型可以了解输入的哪些区域相互影响。

当输入是多模式时 - 例如,图像和语音 - 可以设计多模式注意力。关于注意力的文献虽然很新,但已经非常广泛,这表明了这一主题的重要性。详细介绍它们的每一个都超出了本书的范围,我们将引导您到Luong,Pham和Manning(2011)以及Vaswani等人。 (2017)作为起点。

Evaluating Sequence Generation Models

当生成任务中可以看到多个有效答案时,精度,召回,准确度和F1等分类指标无法帮助模型 - 单个法语句子可以有多个英语翻译。序列模型根据称为参考输出的预期输出进行评估。在比较不同的模型时,我们使用分数来表明模型输出的“良好”与参考的接近程度。例如,在像机器翻译这样的任务中,如果一个模型只有一个单词关闭,我们可能不希望像另一个产生完全无法理解的答案的模型那样惩罚该模型。单个输入示例可以有多个参考输出。例如,对于特定的法语句子,可能存在多个有效的英语翻译,使用略微不同的单词。序列生成模型有两种评估:人工评估和自动评估。

人体评估涉及一个或多个人类受试者,要么对模型输出给出“竖起拇指”或“拇指向下”评级,要么进行编辑以纠正翻译。这导致了一个简单的“错误率”,它非常接近系统输出与人工任务相关的最终目标。人类评价很重要,但是很少使用,因为人类注释者往往是缓慢,昂贵和难以获得的。最后,人类也可能彼此不一致,并且,与任何其他金标准一样,人类评估与注释器间协议率配对。测量注释器间协议率也是另一个昂贵的主张。一种常见的人类评估指标是人为目标翻译错误率(HTER)。 HTER是一个加权编辑距离,由人类为了合理充分的意义和流畅性而“修复”翻译输出而进行的插入,删除和转置次数计算得出(参见图8-10)。

Just 另一方面,自动评估操作简单快捷。有两种度量标准可用于自动评估生成的序列。我们再次使用机器翻译作为示例,但这些指标也适用于涉及生成序列的任何任务。这些指标包括基于ngram重叠的指标和困惑。基于Ngram重叠的度量倾向于通过使用ngram重叠统计来计算得分来测量输出相对于参考的接近程度。 BLEU,ROUGE和METEOR是基于ngram重叠的度量的示例。其中,BLEU经受了时间的考验,成为机器翻译文献中的衡量标准.6 BLEU代表“BiLingual Evaluation Understudy”。我们跳过BLEU的确切表述,并建议您阅读Papineni等人。 (2002年)。出于实际目的,我们使用像NLTK7或SacreBLEU8这样的包来计算分数。当参考数据可用时,BLEU本身的计算非常快速和容易。


这为我们提供了一种比较不同序列生成模型的简单方法 - 测量保持数据集的模型的困惑度。虽然这很容易计算,但是当用于序列生成评估时,困惑会有许多问题。首先,它是一个膨胀的指标。请注意,困惑的表达式涉及取幂。因此,模型性能(可能性)的微小差异可能导致困惑的巨大差异,从而产生重大进展的错觉。其次,对困惑的改变可能不会转化为通过其他指标观察到的模型错误率的相应变化。最后,就像BLEU和其他基于ngram的指标一样,困惑的改善可能不会转化为人类判断的可察觉的改进。


Example: Neural Machine Translation

在本例中,我们将介绍S2S模型最常用的实现:机器翻译。随着深度学习在2010年代早期的流行,很明显,使用嵌入式词汇和RNNs是一种非常强大的两种语言之间的翻译方法——只要有足够的数据。引入“序列生成模型评价”中的注意机制,进一步完善了机器翻译模型。在这一部分,我们描述了一个基于Luong, Pham, and Manning(2015)的实现,它简化了S2S模型中的注意方法。



Machine Translation Dataset

对于此示例,我们使用来自Tatoeba Project的英语 - 法语句子对的数据集.数据预处理首先将所有句子设为小写,并将NLTK的英语和法语标记符应用于每个句子对。接下来,我们应用NLTK的特定于语言的单词标记生成器来创建标记列表。即使我们进行了进一步的计算,我们将在下一段中描述,但这个标记列表是一个预处理的数据集。




我们用来选择数据子集的句法模式是以“I am”,“he is ”,“she is”,“they are”,“you are”或“we are”开头的英语句子。数据集从135,842个句子对减少到13,062个句子对,系数为10.为了最终确定学习设置,我们将剩余的13,062个句子对分为70%训练,15%验证和15%测试分裂。从刚刚列出的语法开始的每个句子的比例通过首先按句子开始分组,从这些组创建分割,然后合并每个组的分割来保持不变。

A Vectorization Pipeline for NMT

对源英语和目标法语句子进行矢量化需要比前面章节中看到的更复杂的管道。复杂性增加有两个原因。首先,源序列和目标序列在模型中具有不同的角色,属于不同的语言,并且以两种不同的方式进行矢量化。其次,作为使用PyTorch的PackedSequences的先决条件,我们按源句的长度对每个小批量进行排序。为了准备这两个复杂性,NMTVectorizer实例化了两个独立的SequenceVocabulary对象和两个最大序列长度的测量,如例8-1所示。 Example 8-1. Constructing the NMTVectorizer

class NMTVectorizer(object):
    """ The Vectorizer which coordinates the Vocabularies and puts them to use"""
    def __init__(self, source_vocab, target_vocab, max_source_length,
            source_vocab (SequenceVocabulary): maps source words to integers
            target_vocab (SequenceVocabulary): maps target words to integers
            max_source_length (int): the longest sequence in the source dataset
            max_target_length (int): the longest sequence in the target dataset
        self.source_vocab = source_vocab
        self.target_vocab = target_vocab

        self.max_source_length = max_source_length
        self.max_target_length = max_target_length

    def from_dataframe(cls, bitext_df):
        """Instantiate the vectorizer from the dataset dataframe

            bitext_df (pandas.DataFrame): the parallel text dataset
            an instance of the NMTVectorizer
        source_vocab = SequenceVocabulary()
        target_vocab = SequenceVocabulary()
        max_source_length, max_target_length = 0, 0

        for _, row in bitext_df.iterrows():
            source_tokens = row["source_language"].split(" ")
            if len(source_tokens) > max_source_length:
                max_source_length = len(source_tokens)
            for token in source_tokens:

            target_tokens = row["target_language"].split(" ")
            if len(target_tokens) > max_target_length:
                max_target_length = len(target_tokens)
            for token in target_tokens:

        return cls(source_vocab, target_vocab, max_source_length,

复杂性的第一个增加是处理源序列和目标序列的不同方式。源序列在开始时插入BEGIN-OF-SEQUENCE进行矢量化,并将END-OF-SEQUENCE标记添加到结尾。该模型使用bi-GRU为源句子中的每个标记创建摘要向量,并且这些摘要向量极大地受益于具有句子边界的指示。相反,目标序列被矢量化为两个副本,偏移一个标记:第一个副本需要BEGIN-OF-SEQUENCE标记,第二个副本需要END-OF-SEQUENCE标记。如果您从第7章回忆起来,序列预测任务需要在每个时间步骤观察输入令牌和输出令牌。 S2S模型中的解码器正在执行此任务,但增加了编码器上下文的可用性。为了解决这种复杂性,我们制定了核心矢量化方法_vectorize,无论它是源索引还是目标索引都无关紧要。然后,编写两个方法来分别处理源索引和目标索引。最后,使用NMTVectorizer.vectorize方法协调这些索引集,该方法是数据集调用的方法。例8-2显示了代码。

class NMTVectorizer(object):
    """ The Vectorizer which coordinates the Vocabularies and puts them to use"""
    def _vectorize(self, indices, vector_length=-1, mask_index=0):
        """Vectorize the provided indices

            indices (list): a list of integers that represent a sequence
            vector_length (int): an argument for forcing the length of index vector
            mask_index (int): the mask_index to use; almost always 0
        if vector_length < 0:
            vector_length = len(indices)
        vector = np.zeros(vector_length, dtype=np.int64)
        vector[:len(indices)] = indices
        vector[len(indices):] = mask_index
        return vector

    def _get_source_indices(self, text):
        """Return the vectorized source text

            text (str): the source text; tokens should be separated by spaces
            indices (list): list of integers representing the text
        indices = [self.source_vocab.begin_seq_index]
                       for token in text.split(" "))
        return indices

    def _get_target_indices(self, text):
        """Return the vectorized source text

            text (str): the source text; tokens should be separated by spaces
            a tuple: (x_indices, y_indices)
                x_indices (list): list of ints; observations in target decoder
                y_indices (list): list of ints; predictions in target decoder
        indices = [self.target_vocab.lookup_token(token)
                   for token in text.split(" ")]
        x_indices = [self.target_vocab.begin_seq_index] + indices
        y_indices = indices + [self.target_vocab.end_seq_index]
        return x_indices, y_indices

    def vectorize(self, source_text, target_text, use_dataset_max_lengths=True):
        """Return the vectorized source and target text

            source_text (str): text from the source language
            target_text (str): text from the target language
            use_dataset_max_lengths (bool): whether to use the max vector lengths
            The vectorized data point as a dictionary with the keys:
                source_vector, target_x_vector, target_y_vector, source_length
        source_vector_length = -1
        target_vector_length = -1

        if use_dataset_max_lengths:
            source_vector_length = self.max_source_length + 2
            target_vector_length = self.max_target_length + 1

        source_indices = self._get_source_indices(source_text)
        source_vector = self._vectorize(source_indices,

        target_x_indices, target_y_indices = self._get_target_indices(target_text)
        target_x_vector = self._vectorize(target_x_indices,
        target_y_vector = self._vectorize(target_y_indices,
        return {"source_vector": source_vector,
                "target_x_vector": target_x_vector,
                "target_y_vector": target_y_vector,
                "source_length": len(source_indices)}

复杂性的第二次增加再次来自源序列。为了使用bi-GRU对源序列进行编码,我们使用PyTorch的PackedSequences数据结构。通常,可变长度序列的小批量数字表示为整数矩阵中的行,其中每个序列左对齐并且零填充以适应可变长度。 PackedSequences数据结构通过在每个时间步,一个接一个地连接序列的数据并知道每个时间步的序列数,将可变长度序列表示为数组,如图8-11所示。



Example 8-3. Generating minibatches for the NMT example

def generate_nmt_batches(dataset, batch_size, shuffle=True,
                            drop_last=True, device="cpu"):
    """A generator function which wraps the PyTorch DataLoader; NMT Version """
    dataloader = DataLoader(dataset=dataset, batch_size=batch_size,
                            shuffle=shuffle, drop_last=drop_last)

    for data_dict in dataloader:
        lengths = data_dict['x_source_length'].numpy()
        sorted_length_indices = lengths.argsort()[::-1].tolist()

        out_data_dict = {}
        for name, tensor in data_dict.items():
            out_data_dict[name] = data_dict[name][sorted_length_indices].to(device)
        yield out_data_dict

Encoding and Decoding in the NMT Model

在这个例子中,我们从源序列开始 - 一个英语句子 - 我们生成一个目标序列 - 相应的法语翻译。标准方法是使用“序列到序列模型,编码器 - 解码器模型和条件生成”中描述的编码器 - 解码器模型。在示例8-4和示例8-5中呈现的模型中,编码器首先将每个源序列映射到具有bi-GRU的矢量状态序列(参见“从序列中捕获更多:双向递归模型”)。然后,解码器以解码器的隐藏状态作为其初始隐藏状态开始,并使用注意机制(参见“从序列中捕获更多:注意”)来选择源序列中的不同信息以生成输出序列。在本节的其余部分,我们将更详细地解释此过程。

Example 8-4. The NMTModel encapsulates and coordinates the encoder and decoder in a single forward method.

class NMTModel(nn.Module):
    """ A Neural Machine Translation Model """
    def __init__(self, source_vocab_size, source_embedding_size,
                 target_vocab_size, target_embedding_size, encoding_size,
            source_vocab_size (int): number of unique words in source language
            source_embedding_size (int): size of the source embedding vectors
            target_vocab_size (int): number of unique words in target language
            target_embedding_size (int): size of the target embedding vectors
            encoding_size (int): the size of the encoder RNN.
            target_bos_index (int): index for BEGIN-OF-SEQUENCE token
        super(NMTModel, self).__init__()
        self.encoder = NMTEncoder(num_embeddings=source_vocab_size,
        decoding_size = encoding_size * 2
        self.decoder = NMTDecoder(num_embeddings=target_vocab_size,

    def forward(self, x_source, x_source_lengths, target_sequence):
        """The forward pass of the model

            x_source (torch.Tensor): the source text data tensor.
                x_source.shape should be (batch, vectorizer.max_source_length)
            x_source_lengths torch.Tensor): the length of the sequences in x_source
            target_sequence (torch.Tensor): the target text data tensor
            decoded_states (torch.Tensor): prediction vectors at each output step
        encoder_state, final_hidden_states = self.encoder(x_source,
        decoded_states = self.decoder(encoder_state=encoder_state,
        return decoded_states

THE ENCODER Example 8-5. The encoder embeds the source words and extracts features with a bi-GRU

class NMTEncoder(nn.Module):
    def __init__(self, num_embeddings, embedding_size, rnn_hidden_size):
            num_embeddings (int): size of source vocabulary
            embedding_size (int): size of the embedding vectors
            rnn_hidden_size (int): size of the RNN hidden state vectors
        super(NMTEncoder, self).__init__()

        self.source_embedding = nn.Embedding(num_embeddings, embedding_size,
        self.birnn = nn.GRU(embedding_size, rnn_hidden_size, bidirectional=True,

    def forward(self, x_source, x_lengths):
        """The forward pass of the model

            x_source (torch.Tensor): the input data tensor.
                x_source.shape is (batch, seq_size)
            x_lengths (torch.Tensor): vector of lengths for each item in the batch
            a tuple: x_unpacked (torch.Tensor), x_birnn_h (torch.Tensor)
                x_unpacked.shape = (batch, seq_size, rnn_hidden_size * 2)
                x_birnn_h.shape = (batch, rnn_hidden_size * 2)
        x_embedded = self.source_embedding(x_source)
        # create PackedSequence;, embedding_size)
        x_lengths = x_lengths.detach().cpu().numpy()
        x_packed = pack_padded_sequence(x_embedded, x_lengths, batch_first=True)

        # x_birnn_h.shape = (num_rnn, batch_size, feature_size)
        x_birnn_out, x_birnn_h  = self.birnn(x_packed)
        # permute to (batch_size, num_rnn, feature_size)
        x_birnn_h = x_birnn_h.permute(1, 0, 2)

        # flatten features; reshape to (batch_size, num_rnn * feature_size)
        #  (recall: -1 takes the remaining positions,
        #           flattening the two RNN hidden vectors into 1)
        x_birnn_h = x_birnn_h.contiguous().view(x_birnn_h.size(0), -1)

        x_unpacked, _ = pad_packed_sequence(x_birnn_out, batch_first=True)
        return x_unpacked, x_birnn_h


深入了解编码器,我们首先使用嵌入层嵌入输入序列。通常,只需在嵌入层上设置padding_idx标志,我们就可以使模型处理可变长度序列,因为任何等于padding_idx的位置都会被赋予零值向量,该向量在优化期间不会更新。回想一下,这被称为面具。然而,在这种编码器 - 解码器模型中,掩蔽位置需要以不同方式处理,因为我们使用bi-GRU来编码源序列。主要原因是后向分量可能受到屏蔽位置的影响,其因子与在序列上开始之前遇到的屏蔽位置的数量成比例。

为了处理bi-GRU中可变长度序列的掩码位置,我们使用PyTorch的PackedSequence数据结构。 PackedSequences源自CUDA如何允许以批处理格式处理可变长度序列。如果满足两个条件,则可以将任何零填充序列(例如示例8-6中所示的编码器中的嵌入源序列)转换为PackedSequence:提供每个序列的长度,并根据以下顺序对小批量进行排序。这些序列的长度。这在图8-11中以可视方式显示,因为它是一个复杂的主题,我们在例8-6及其输出中再次演示它.

Example 8-6. A simple demonstration of packed_padded_sequences and pad_packed_sequences

abcd_padded = torch.tensor([1, 2, 3, 4], dtype=torch.float32)
efg_padded = torch.tensor([5, 6, 7, 0], dtype=torch.float32)
h_padded = torch.tensor([8, 0, 0, 0], dtype=torch.float32)

padded_tensor = torch.stack([abcd_padded, efg_padded, h_padded])

Type: torch.FloatTensor
Shape/size: torch.Size([3, 4])
tensor([[ 1.,  2.,  3.,  4.],
        [ 5.,  6.,  7.,  0.],
        [ 8.,  0.,  0.,  0.]])
lengths = [4, 3, 1]
packed_tensor = pack_padded_sequence(padded_tensor, lengths,   
PackedSequence(data=tensor([ 1.,  5.,  8.,  2.,  6.,  3.,  7.,  4.]),
               batch_sizes=tensor([ 3,  2,  2,  1]))
unpacked_tensor, unpacked_lengths = \
    pad_packed_sequence(packed_tensor, batch_first=True)

Type: torch.FloatTensor
Shape/size: torch.Size([3, 4])
tensor([[ 1.,  2.,  3.,  4.],
        [ 5.,  6.,  7.,  0.],
        [ 8.,  0.,  0.,  0.]])
Type: torch.LongTensor
Shape/size: torch.Size([3])
tensor([ 4,  3,  1])


Example 8-7. The NMT Decoder constructs a target sentence from the encoded source sentence

class NMTDecoder(nn.Module):
    def __init__(self, num_embeddings, embedding_size, rnn_hidden_size, bos_index):
            num_embeddings (int): number of embeddings is also the number of
                unique words in target vocabulary
            embedding_size (int): the embedding vector size
            rnn_hidden_size (int): size of the hidden rnn state
            bos_index(int): begin-of-sequence index
        super(NMTDecoder, self).__init__()
        self._rnn_hidden_size = rnn_hidden_size
        self.target_embedding = nn.Embedding(num_embeddings=num_embeddings,
        self.gru_cell = nn.GRUCell(embedding_size + rnn_hidden_size,
        self.hidden_map = nn.Linear(rnn_hidden_size, rnn_hidden_size)
        self.classifier = nn.Linear(rnn_hidden_size * 2, num_embeddings)
        self.bos_index = bos_index

    def _init_indices(self, batch_size):
        """ return the BEGIN-OF-SEQUENCE index vector """
        return torch.ones(batch_size, dtype=torch.int64) * self.bos_index

    def _init_context_vectors(self, batch_size):
        """ return a zeros vector for initializing the context """
        return torch.zeros(batch_size, self._rnn_hidden_size)

    def forward(self, encoder_state, initial_hidden_state, target_sequence):
        """The forward pass of the model

            encoder_state (torch.Tensor): the output of the NMTEncoder
            initial_hidden_state (torch.Tensor): The last hidden state in the  NMTEncoder
            target_sequence (torch.Tensor): the target text data tensor
            sample_probability (float): the schedule sampling parameter
                probability of using model's predictions at each decoder step
            output_vectors (torch.Tensor): prediction vectors at each output step
        # We are making an assumption there: The batch is on first
        # The input is (Batch, Seq)
        # We want to iterate over sequence so we permute it to (S, B)
        target_sequence = target_sequence.permute(1, 0)

        # use the provided encoder hidden state as the initial hidden state
        h_t = self.hidden_map(initial_hidden_state)

        batch_size = encoder_state.size(0)
        # initialize context vectors to zeros
        context_vectors = self._init_context_vectors(batch_size)
        # initialize first y_t word as BOS
        y_t_index = self._init_indices(batch_size)

        h_t =
        y_t_index =
        context_vectors =

        output_vectors = []
        # All cached tensors are moved from the GPU and stored for analysis
        self._cached_p_attn = []
        self._cached_ht = []
        self._cached_decoder_state = encoder_state.cpu().detach().numpy()

        output_sequence_size = target_sequence.size(0)
        for i in range(output_sequence_size):

            # Step 1: Embed word and concat with previous context
            y_input_vector = self.target_embedding(target_sequence[i])
            rnn_input =[y_input_vector, context_vectors], dim=1)

            # Step 2: Make a GRU step, getting a new hidden vector
            h_t = self.gru_cell(rnn_input, h_t)

            # Step 3: Use the current hidden to attend to the encoder state
            context_vectors, p_attn, _ = \

            # auxiliary: cache the attention probabilities for visualization

            # Step 4: Use the current hidden and context vectors
            #         to make a prediction to the next word
            prediction_vector =, h_t), dim=1)
            score_for_y_t_index = self.classifier(prediction_vector)

            # auxiliary: collect the prediction scores

在编码器利用其bi-GRU和打包 - 解包协调创建状态向量之后,解码器在时间步骤上迭代以生成输出序列。在功能上,这个循环应该看起来与第7章中的生成循环非常相似,但是有一些差异明显是Luong等人的注意方式的方法选择。首先,在每个时间步骤提供目标序列作为观察。通过使用GRUCell计算隐藏状态。通过将线性层应用于编码器bi-GRU的级联最终隐藏状态来计算初始隐藏状态.在每个时间步骤处对解码器GRU的输入是嵌入式输入令牌和最后时间步骤的上下文的级联向量。向量。上下文向量旨在捕获对该时间步骤有用的信息,并用于调节模型的输出。对于第一个步骤,上下文向量全部为0(零)以表示无上下文并且在数学上仅允许输入对GRU计算做出贡献。


A CLOSER LOOK AT ATTENTION 了解注意机制在此示例中的工作方式非常重要。回想一下前面的部分,可以使用查询,键和值来描述注意机制。分数函数将查询向量和关键向量作为输入,以计算在值向量中选择的一组权重。在这个例子中,我们使用点积评分函数,但它不是唯一的.在这个例子中,解码器的隐藏状态被用作查询向量,编码器状态向量集是关键和值向量。


Example 8-8. Attention that does element-wise multiplication and summing more explicitly

def verbose_attention(encoder_state_vectors, query_vector):
    encoder_state_vectors: 3dim tensor from bi-GRU in encoder
    query_vector: hidden state in decoder GRU
    batch_size, num_vectors, vector_size = encoder_state_vectors.size()
    vector_scores = \
        torch.sum(encoder_state_vectors * query_vector.view(batch_size, 1,
    vector_probabilities = F.softmax(vector_scores, dim=1)
    weighted_vectors = \
        encoder_state_vectors * vector_probabilities.view(batch_size,
                                                          num_vectors, 1)
    context_vectors = torch.sum(weighted_vectors, dim=1)
    return context_vectors, vector_probabilities

def terse_attention(encoder_state_vectors, query_vector):
    encoder_state_vectors: 3dim tensor from bi-GRU in encoder
    query_vector: hidden state
    vector_scores = torch.matmul(encoder_state_vectors,
    vector_probabilities = F.softmax(vector_scores, dim=-1)
    context_vectors = torch.matmul(encoder_state_vectors.transpose(-2, -1),
    return context_vectors, vector_probabilities




Example 8-9. The decoder with a sampling procedures (in bold) built into the forward pass

class NMTDecoder(nn.Module):
    def __init__(self, num_embeddings, embedding_size, rnn_size, bos_index):
        super(NMTDecoder, self).__init__()
        # ... other init code here ...

        # arbitrarily set; any small constant will be fine
        self._sampling_temperature = 3

   def forward(self, encoder_state, initial_hidden_state, target_sequence,
        if target_sequence is None:
            sample_probability = 1.0
            # We are making an assumption there: The batch is on first
            # The input is (Batch, Seq)
            # We want to iterate over sequence so we permute it to (S, B)
            target_sequence = target_sequence.permute(1, 0)
            output_sequence_size = target_sequence.size(0)

        # ... nothing changes from the other implementation

        output_sequence_size = target_sequence.size(0)
        for i in range(output_sequence_size):
            # new: a helper boolean and the teacher y_t_index
            use_sample = np.random.random() < sample_probability
            if not use_sample:
                y_t_index = target_sequence[i]

            # Step 1: Embed word and concat with previous context
            # ... code omitted for space
            # Step 2: Make a GRU step, getting a new hidden vector
            # ... code omitted for space
            # Step 3: Use the current hidden to attend to the encoder state
            # ... code omitted for space
            # Step 4: Use the current hidden and context vectors
            #         to make a prediction to the next word
            prediction_vector =, h_t), dim=1)
            score_for_y_t_index = self.classifier(prediction_vector)
            # new: sampling if boolean is true.
            if use_sample:
                # sampling temperature forces a peakier distribution
                p_y_t_index = F.softmax(score_for_y_t_index *
                                        self._sampling_temperature, dim=1)
                # method 1: choose most likely word
                # _, y_t_index = torch.max(p_y_t_index, 1)
                # method 2: sample from the distribution
                y_t_index = torch.multinomial(p_y_t_index, 1).squeeze()

            # auxiliary: collect the prediction scores

        output_vectors = torch.stack(output_vectors).permute(1, 0, 2)

        return output_vectors

Training Routine and Results










本章重点介绍了在所谓的条件生成模型的条件上下文中生成序列输出。当条件上下文本身来自另一个序列时,我们将其称为序列到序列或S2S模型。我们还讨论了S2S模型如何成为编码器 - 解码器模型的特例。为了充分利用序列,我们讨论了第6章和第7章中讨论的序列模型的结构变体,特别是双向模型。我们还学习了如何结合注意机制来有效捕获更长距离的背景。最后,我们讨论了如何评估序列到序列模型,并使用端到端机器翻译示例进行演示。到目前为止,我们已将本书的每一章专门用于特定的网络架构。在下一章中,我们将前面的所有章节结合在一起,并查看如何使用各种模型体系结构的综合构建许多真实系统的示例。


