Yu's Blog

发表于2026-03-19|深度学习

详解Transformer 前言自2017年问世以来，Transformer[1] 模型在 NLP 领域取得了巨大的成功，并在计算机视觉领域也取得了显著的进展。本文将详细介绍 Transformer 模型的结构、原理和实现，帮助读者更好地理解这一重要的深度学习模型。背景在 Transformer 之前，主流的序列转录模型（sequence transduction models）通常基于 RNN 或 CNN 构建。这类模型普遍采用编码器-解码器架构：编码器负责将输入序列处理成一组隐藏状态，而解码器则依据这些状态逐步生成目标输出序列。然而，RNN 和 CNN 在处理长序列时存在一些固有的问题，为了解决这些问题，Transformer 模型应运而生。 RNN 传统的序列转录模型通常使用 RNN（Recurrent Neural Network）来处理序列数据。RNN 通过递归的方式，将序列中的每个元素作为输入，并生成输入的隐藏状态表示。 RNN 编码器如图1所示，RNN 编码器将输入序列 $x_1, x_2, \ldots, x_n$ 逐个输入，并生成对应的隐藏...