详解Transformer
详解Transformer 前言 自2017年问世以来,Transformer[1] 模型在 NLP 领域取得了巨大的成功,并在计算机视觉领域也取得了显著的进展。本文将详细介绍 Transformer 模型的结构、原理和实现,帮助读者更好地理解这一重要的深度学习模型。 背景 在 Transformer 之前,主流的序列转录模型(sequence transduction models)通常基于 RNN 或 CNN 构建。这类模型普遍采用编码器-解码器架构:编码器负责将输入序列处理成一组隐藏状态,而解码器则依据这些状态逐步生成目标输出序列。然而,RNN 和 CNN 在处理长序列时存在一些固有的问题,为了解决这些问题,Transformer 模型应运而生。 RNN 传统的序列转录模型通常使用 RNN(Recurrent Neural Network)来处理序列数据。RNN 通过递归的方式,将序列中的每个元素作为输入,并生成输入的隐藏状态表示。 RNN 编码器 如图1所示,RNN 编码器将输入序列 $x_1, x_2, \ldots, x_n$ 逐个输入,并生成对应的隐藏...
