Acadwrite Logoacadwrite Research

为什么现在大家更愿意使用pre-layernorm,而不是post-layernorm?

摘要

随着Transformer模型在自然语言处理和人工智能领域的广泛应用,Layer Normalization(LayerNorm)在提升模型训练稳定性及可扩展性方面的作用日益凸显。近年来,LayerNorm在残差连接中的放置位置——即Pre-LayerNorm(归一化前置)与Post-LayerNorm(归一化后置)——成为理论与工程实践的重要分歧点。由于深层Transformer模型在采用Post-LayerNorm时容易遭遇梯度消失和训练不稳定,Pre-LayerNorm逐渐成为主流选择。本文系统梳理了LayerNorm放置位置演变的理论基础、结构差异和实际表现,深入分析了Pre-LayerNorm在训练深层及超大规模Transformer模型(如GLM-130B、Llama等)时展现的优越梯度流动、可扩展性与高效预训练能力。与此同时,本文也评述了Pre-LayerNorm面临的激活方差膨胀、表达能力瓶颈及“深度诅咒”等挑战,并综述了LayerNorm Scaling、GPAS、HybridNorm等新兴归一化技术对这些问题的应对。总体来看,Pre-LayerNorm架构的兴起不仅推动了大模型训练范式的变革,也为后续归一化策略的创新和Transformer结构演化提供了理论与实践基础。未来,LayerNorm机制的自适应优化、多归一化点融合及软硬件协同创新将成为深化Transformer理论和工程应用的关键方向。

引言

自Transformer模型问世以来,其在自然语言处理、计算机视觉等领域的建模能力持续推动人工智能技术的前沿进步。Transformer通过自注意力机制有效建模了序列之间的长距离依赖,并因其在诸如机器翻译、大规模语言建模任务中的卓越表现成为主流模型架构,。在Transformer的设计中,Layer Normalization(简称LayerNorm)的加入对于提升训练稳定性、加快收敛速度以及促进深层网络的有效训练具有不可替代的作用。然而,随着网络规模持续扩大、深度Transformer模型的广泛应用,LayerNorm在架构中的具体放置位置(即在残差连接前为“Pre-LN”、在其后为“Post-LN”)成为了研究和工程实践中的新焦点

最初BERT等模型多采用Post-LayerNorm结构,但在实践中,研究人员越来越多地发现,随着模型深度增加,Post-LayerNorm容易引发梯度消失等训练不稳定问题,导致深层模型难以收敛或性能受限,。因此,近年的主流趋势是转向Pre-LayerNorm架构,尤其在大规模、多层次Transformer中,Pre-LN由于提供了更优的梯度回传保障,成为众多高性能模型的默认选择,。与此同时,越来越多的大型预训练语言模型(如Llama、Qwen、GLM-130B等)均优先采纳了Pre-LayerNorm变体,用以确保训练和扩展的稳定性与可行性,

尽管Pre-LN在训练大模型方面展现出显著优势,其理论基础及实际表现的深入分析仍值得关注。一方面,Pre-LN极大缓解了梯度消失问题,使极深的Transformer模型成为可能;另一方面,相关文献也指出,Pre-LN可能导致激活方差在层间指数式增长,从而使部分层的学习潜力受限,这为后续的结构优化和理论发展提供了新问题。此外,学界和工业界也正在探索Evaporation、激活缩放、残差结构革新等方法,以进一步平衡模型的表示能力与训练动态。

当前这一范式变迁的现实驱动力,不仅来自深度理论分析,更直接反映在实际应用对模型效率、工程可扩展性及资源消耗的需求上,。因此,理清LayerNorm位置选择背后的理论与现实意义,对于推动Transformer结构进一步演化、建设更加稳健高效的基础模型,具有重要的学术与工程价值。本综述将围绕上述核心问题,系统梳理LayerNorm位置选择及其对Transformer模型训练稳定性、表现能力及实际应用的影响,分析近年来为何主流研究与应用更倾向于采用Pre-LayerNorm,并展望相关挑战与发展方向。

LayerNorm在Transformer中的作用与Placement演变

LayerNorm(层归一化)作为Transformer结构的核心组成部分,其在神经网络中的应用极大提升了模型的训练稳定性与泛化能力。Transformer跳跃连接的设计初衷是改善深层网络中的梯度消失问题,而LayerNorm的引入则进一步规范了各层的激活分布,有效缓解了训练过程中的不稳定性及参数爆炸风险。自Transformer被广泛应用以来,LayerNorm的Placement(放置位置)随着网络层数的扩展和模型复杂度的提升,经历了从Post-LayerNorm(残差连接后归一化)到Pre-LayerNorm(残差连接前归一化)的逐步演化。

早期Transformer(如BERT、原始机器翻译模型)普遍采用Post-LayerNorm,其优势在于浅层模型能保持激活输出的分布稳定,并促进梯度在高层的有效流动,加速收敛。但随着模型深度增加,Post-LayerNorm逐渐暴露出梯度消失及训练难以收敛的问题——归一化操作作用于多个残差之上,导致反向传播中的梯度逐层衰减,严重影响深层参数学习和网络可扩展性 ,

为了解决以上挑战,Pre-LayerNorm策略被提出并迅速成为以大规模多层Transformer为主流的建模技术(如GPT、Vision Transformer等) 。Pre-LayerNorm通过将归一化提前至残差输入,确保梯度可通过直接路径流向更低层,有效降低训练深度增加所引发的优化障碍。理论分析指出,这一点不仅维持了梯度流的下界,也提升了参数空间的可探索性,使得Transformer能够扩展至几十层甚至更大的规模 ,

进一步地,近年来算法研究者结合理论与实验提出多种融合型归一化结构,尝试在稳定性和模型表达能力之间取得新的平衡,并开发了如ResiDual及Magneto等混合范式,为基础模型的通用化奠定理论基础 ,。此外,通过参数初始化约束(如Lipschitz初始方法)及额外归一化操作优化,Transformer能够有效突破深度壁垒,进一步提高大模型的收敛窗口和实际效能

综上,LayerNorm在Transformer体系中的作用和Placement演变,不仅揭示了深层模型训练稳定性的机制,也为大规模预训练模型设计提供了理论与方法的指导。后续章节将围绕Pre-LN与Post-LN的结构及理论差异展开更细致的分析,进而探讨归一化策略对Transformer优化与表达能力的深远影响。

2.1 Pre-LayerNorm与Post-LayerNorm的结构差异与理论分析

在探讨Pre-LayerNorm(前层归一化)与Post-LayerNorm(后层归一化)两种Transformer结构变体时,首先需明确二者在模型实现和理论机制上的根本差异。Pre-LayerNorm将LayerNorm操作置于每个残差模块之前,即在输入特征进入注意力或前馈子层前进行归一化;而Post-LayerNorm则于残差计算完成后、将模块输出加回输入后再做归一化。这种细微的结构变动对模型的梯度传递和训练稳定性带来重大影响 ,,

从梯度流动角度来看,Post-LayerNorm易在深层网络下引发梯度消失现象:归一化操作作用于残差之上,随着层数增加,反向传播时梯度逐层缩小,影响模型收敛甚至训练失败。Pre-LayerNorm的位置设计确保残差路径可直接将梯度传递到更低层,有效防止梯度衰减,尤其在超过十层的Transformer体系下表现更为突出 ,。以往研究显示,通过仅调整归一化顺序即可将深层Transformer的训练收敛性显著提升,使模型能扩展到30层甚至更高,且具备更稳定的训练动力学 ,

然而,二者在激活分布与模型表达能力方面也存在区别。Post-LayerNorm在浅层设置下能更好地保持激活输出的分布稳定,梯度在高层保留较大幅度,利于模型快速收敛,并在诸如6层以内的Transformer中反复被证实性能更优 ,。但离散的梯度表现也增加了深层下的训练易变性和崩溃风险。Pre-LayerNorm则以牺牲部分浅层建模能力为代价,换取了极高的训练鲁棒性和可扩展性,避免了因梯度消失导致的优化堵塞,也消除了过深模型易出现的病态行为

理论分析还指出,归一化位置直接影响残差路径的Lipschitz上界,继而决定了模型参数空间可探索性的大小。Pre-LayerNorm设计能确保残差路径梯度始终有下界,有利于大规模参数初始化和保持梯度信息,潜在推动大模型(如LLM与Foundation Model)在多模态任务上的发展 ,。与此同时,近期提出的融合型结构(如ResiDual与Magneto架构)尝试将Pre-LN与Post-LN优势结合,为模型寻求既有稳定性又具表现力的折中方案 ,

综合文献理论与实验结果,Pre-LayerNorm之所以成为深层Transformer尤其大模型开发的首选,是因其高效的梯度流机制大幅提升训练稳定性与收敛速度。Post-LayerNorm则更适合浅层或特定任务下的性能挖掘,其优化难点在于如何突破深度带来的梯度瓶颈。分层归一化策略的演变与对比,为Transformer结构创新和大模型稳健性提升提供了理论依据与实践指南。

2.2 两种Placement的优缺点对比

在Transformer结构中,LayerNorm(层归一化)的放置位置直接影响模型训练的稳定性和表达能力。Post-LayerNorm(Post-LN)将归一化操作应用于残差连接之后,而Pre-LayerNorm(Pre-LN)则先对输入进行归一化再进入主分支。两者的对比涉及训练深度、稳定性和性能表现等多个维度。

Post-LN结构在较浅层模型中表现稳定,具备较好的表达能力。然而,随着网络深度增加,Post-LN容易引发梯度消失。理论分析表明,残差路径的归一化导致反向传播时,梯度通过多层归一化后急剧缩小,阻碍了深层参数的有效学习。多项研究已证明,深度Post-LN Transformer往往在超过十二层后难以收敛,限制了模型向更高层数和复杂度演化的可能性

相比之下,Pre-LN结构通过先归一化主分支输入,有效保障了残差路径的梯度流动。理论结果显示,Pre-LN设置能够为梯度提供下界,显著降低了梯度消失的风险,尤其在30层以上深度网络中对训练的稳定性和收敛性有明显提升。这种设计允许更深层次的Transformer结构实现高效训练和更优性能,展示了在大型机器翻译任务上优于Post-LN的实证结果。此外,Pre-LN的主分支简化也为未来进一步优化,如RMSNorm和CRMSNorm等轻量归一化变体铺平了道路

尽管Pre-LN明显改善了梯度稳定性,但其主分支归一化可能引发"表达能力瓶颈",即每层输出分布高度一致,影响多样表达。对比分析发现,Pre-LN变体易出现表征收敛和信息塌陷问题;而Post-LN模型能保持更丰富激活分布,但受制于训练深度的稳定性困境。理论与实验观点显示,残差归一化的选择对模型容量、泛化能力及收敛行为有深远影响

归一化方式优点缺点适用场景
Post-LayerNorm浅层模型表达能力强,激活分布稳定深层梯度消失,难以扩展至大规模6-12层以内的Transformer
Pre-LayerNorm深层梯度流动顺畅,训练稳定,易扩展激活方差累积,表达能力易受限深层/大规模模型
混合/新范式兼顾表达与稳定,缓解“深度诅咒”设计复杂,尚需进一步验证超大规模/多任务模型

从优化视角分析,Pre-LN和Post-LN分别在稳定性与表达能力之间存在权衡。前者适合深层结构,但可能限制模型在表示复杂性上的潜力;后者可实现更高的表达多样性,但仅限于浅层或需特别初始化技巧方能收敛。在实际应用中,这一权衡推动了归一化策略的演变,如结合Pre-LN与Post-LN思想的混合结构,以及新的参数初始化和归一化技术的开发。通过对这些结构优缺点的深入理清,为后续理解Pre-LN为何成为主流设计提供了坚实理论和实证基础。

Pre-LayerNorm的优势与主流趋势

近年来,随着大规模预训练模型和深层Transformer架构的广泛兴起,LayerNorm的位置选择成为影响模型训练稳定性、扩展能力和下游性能表现的核心环节。主流趋势显示,Pre-LayerNorm(Pre-LN)已逐步取代Post-LayerNorm(Post-LN),成为各类Transformer模型设计的事实标准。在理论分析框架下,研究表明Pre-LN通过将归一化操作前置于子层入口,有效改善了深层网络梯度消失的问题,大幅提升了训练过程中的梯度流动效率,显著增强了模型在超深结构下的收敛稳定性与扩展性

这一结构调整不仅使Transformer能支持数十层乃至百亿级参数规模模型的高效预训练,在工程实践(如GLM-130B、LLaMA等领军大模型)中也展现出卓越的稳定收敛与推理效率。实证结果显示,依托Pre-LN架构,模型能够在严苛的算力和存储环境下进行高效部署与量化,推动了百亿级模型普及及更深层语言建模的发展

从效率层面来看,Pre-LN变体如Pre-RMSNorm和Pre-CRMSNorm进一步提升了归一化计算效率,而在预归一化与激活方差管理方面,增添新的策略(如GPAS、NormFormer)持续优化了激活统计并解决深层信息融合与梯度匹配问题,

与此同时,Transformer模型归一化布局产生的新变体——如ResiDual、Magneto、Peri-LN等——在继承Pre-LN优势的同时,通过创新的残差结构和归一化策略进一步均衡了模型表达性与训练鲁棒性,为后续超大规模预训练和多模态任务的架构演进奠定了理论与工程基础,,

总的来看,Pre-LN成为主流并非偶然,其多维优势包括训练稳定性、深层梯度流动、模型可扩展性与实际部署效率,促使整个NLP及泛AI领域在超大模型、高效预训练和硬件适配等多方面取得持续突破。下文将率先系统阐述Pre-LN在训练稳定性与梯度流动等关键维度上的优势逻辑和实证依据。

3.1 训练稳定性与梯度流动

在Transformer框架中,模型训练的稳定性和梯度信息的有效传播是决定其能否向更深层扩展的关键因素。对于Layer Normalization(LN)的位置,目前主流的设计分为Post-LN与Pre-LN两种。一系列理论与实证研究已揭示,随着Transformer层数增加,Post-LN架构在训练时容易出现梯度消失和收敛困难,而Pre-LN则显著改善了这一状况,,

首先,在Post-LN结构中,每个残差块完成后再施加LN。理论分析表明,这一设计导致反向传播时梯度需穿越较多的归一化操作,从而在深层网络中引发梯度范数急剧缩小,即“梯度消失”问题。这在十层以上的Transformer体系下表现为训练极端不稳定,收敛缓慢甚至完全无法收敛,无法发挥深模型的潜力。实证研究进一步证实,Post-LN在浅层Transformer(如6层以内)上尚可稳定工作,但深度拓展几乎总是失败,导致模型训练得出的参数无效,

相对而言,Pre-LN架构将LN置于每个残差块的入口处,使得残差连接在反向传播中得以“无衰减”地直接传递梯度,极大降低了梯度消失的风险。理论工作指出,Pre-LN的残差路径为深层模型梯度流动提供了更直接的通道,保证了梯度在多层堆叠下仍能顺畅传递,。实验结果显示,Pre-LN可支持30层甚至更深的Transformer,并能够持续取得优于浅层基线的收敛和性能表现。在具体策略上,此机制被很多大规模预训练模型采用(例如GLM-130B),并在大规模训练中验证了其强大的稳定性和高效收敛能力,极大提升了深层Transformer在机器翻译和语言建模等任务下的适用性和扩展性

值得注意的是,虽然Pre-LN显著提升了训练稳定性,但过大的梯度会带来前层梯度过大、后层梯度过小的“梯度不匹配”现象,进而影响模型泛化。例如,NormFormer针对Pre-LN提出额外归一化措施以优化梯度分布,加速收敛并进一步提升性能,为后续架构设计提供了新范式

目前,理论与实践的共识是:在模型规模和深度不断增长的趋势下,Pre-LN能够以更好的梯度流动保障和收敛表现,显著提升Transformer的可训练性和适应性。因此,越来越多的研究和实际工程项目采用Pre-LN作为默认选择。与此同时,针对Pre-LN和Post-LN各自局限性的研究也在不断推进,包括混合型归一化方法、参数初始化改进等,以进一步平衡训练稳定性与模型表达能力。

3.2 可扩展性与超大模型预训练

近年来,随着大模型规模的迅猛扩张,Transformer架构的可扩展性与高效预训练成为研究和工程实践的核心议题。在这一背景下,Pre-LayerNorm(Pre-LN)设计逐步取代了传统的Post-LayerNorm(Post-LN),在超大参数规模和长序列任务中的表现愈发突出。Pre-LN架构通过在每个子层输入端施加归一化操作,提升了网络的训练稳定性和扩展能力。尤其在深层网络结构下,Pre-LN能够有效缓解梯度消失和爆炸的问题,从而支撑数十甚至上百层的深度堆叠,使更深的语言表征成为可能。例如在机器翻译任务中,通过合理应用LayerNorm并优化残差连接方式,深层Transformer不仅超越了浅层大宽度模型的性能,而且在模型尺寸和训练效率方面实现了显著提升

大规模预训练语言模型(如GLM-130B等)在落地过程中也进一步证明了Pre-LN架构对工程可扩展性的推动作用。工程实践中,模型规模达到百亿参数时,训练过程容易出现损失剧烈波动和收敛困难。GLM-130B等公开模型通过精细调整LayerNorm的应用位置,显著提升了训练效率与稳定性,并借助Pre-LN架构的计算优势,使模型能够在普通的消费级GPU上实现高效推理和量化部署,有力推动了百亿级模型的开放和普及

在硬件加速与长序列任务方面,LayerNorm与Softmax成为计算瓶颈。针对超长序列的稀疏计算与流水线优化,近期研究提出了针对LayerNorm的分组和双通路稀疏策略,强化了Pre-LN模型在超长序列场景下的硬件适应性。预归一化的设计充分释放了稀疏计算潜力,使超大模型在存储与带宽受限的环境下依然具备高效推理和低损精度特性

然而,Pre-LN架构在深层网络中也面临激活方差随层数指数增长等问题,影响残差结构的信息整合和学习能力。为应对这一挑战,最新工作提出了Gradient-Preserving Activation Scaling(GPAS)等激活调整技术,通过缩减中间激活但保持梯度不变,缓解了深层Pre-LN模型的学习瓶颈,为进一步规模扩展和训练动态优化提供了理论和工程基础

综合来看,Pre-LN设计已成为工程界支持海量参数、超长序列和高效训练的事实标准,其在主流开源大模型(如LLaMA、GLM、Qwen等)和硬件加速平台中的广泛应用,标志着其在可扩展性和预训练性能上的决定性优势。这一趋势也促使社区不断发展相关的归一化与激活技术,为大规模NLP模型的未来实现提供坚实基础。

3.3 预训练性能与下游任务表现

在Transformer及其后续架构中,Layer Normalization(LayerNorm)的插入方式对模型训练的稳定性与下游任务表现产生了重要影响。Pre-LayerNorm(简称Pre-LN)作为近年来广泛采用的标准配置,在预训练阶段展现出显著的工程与实证优势。

相较于早期主流的Post-LayerNorm,Pre-LN将LayerNorm置于每一子层前,大幅提升了深层模型(尤其是百亿参数级别及以上)的训练稳定性,减少了梯度爆炸和消失的风险。这一结构设计促成了模型在更深层数下的收敛速度和训练效率的提升。例如,有研究表明,合理采用LayerNorm位置并结合深层结构设计,能够使模型体量在大幅提升的同时,培训速度更快,且下游任务BLEU提升显著,深度可达30层以上且训练资源消耗更低

在大规模预训练语言模型领域,Pre-LN被证明能够更好地适应多样化、复杂性高的训练数据,并在多个基准任务上带来超越先前主流模型的结果。以GLM-130B为例,其训练过程中遇到的超大规模模型优化挑战,很大程度上通过Pre-LN架构设计及相关训练策略解决,实现了对GPT-3等同量级模型的性能赶超,并在低成本环境下部署成为可能

尽管Pre-LN带来了预训练效率与高稳健性,但也存在梯度、激活统计易偏移、影响更深层信息融合等潜在缺点。近期的创新方法如NormFormer架构,通过在每一层插入额外归一化步骤(包括在自注意力后、输出前等关键位置)和头部级别的缩放,在几乎不增加参数和算力开销的前提下,显著提升了预训练的困惑度降低速度和下游任务表现。例如,同等计算预算下,NormFormer可使大模型的困惑度下降速度提升24%,在GLUE等泛化评估上Fine-tune后的平均分最高可提升1.9个百分点,展示了Pre-LN及其增强形式在实际应用中的广泛适用性与持续优化潜力

值得关注的是,随着Pre-LN模型深度的不断增加,激活方差在层间的指数级增长逐渐成为制约深层知识捕获、信息有效流动的主要瓶颈。针对该类问题,工程上已出现例如Gradient-Preserving Activation Scaling(GPAS)等新技术,通过缩放中间激活但保持梯度不变,不仅控制了残差主路径对子层输出的压制,还让更深层网络的有效表达与任务适应性持续提升。这一方法在从七千万到十亿级别模型上的实验证明了其对多种架构的普适稳定训练效用,并进一步扩展了Pre-LN范式下Transformer家族的性能上界

综上,Pre-LN架构由于在大模型的高效预训练、稳定性、下游泛化能力等方面表现优异,已成为当前Transformer类模型的主流选择。其围绕归一化原理的持续技术演进,也为更深层、更大规模模型的进一步突破奠定了坚实基础。

3.4 新变体对Pre-LN策略的继承与优化

近年来,Transformer 架构中的 LayerNorm 位置布局已成为模型设计优化的焦点。Pre-LayerNorm(Pre-LN)方案因其显著提升的训练稳定性,逐渐成为主流选择,推动了Transformer家族的持续演进。然而,随着对更深层次表达力和更大模型容量的需求增长,业界基于Pre-LN思想衍生出了一系列新变体,既继承了Pre-LN策略的优点,又针对其局限性进行了优化。

ResiDual提出了一种融合Pre-LN与Post-LN优势的新型残差设计,通过在每个子层输入前和输出后分别加设LayerNorm,实现了双重归一化路径。该设计不仅继承了Pre-LN抗梯度消失、训练稳定的性质,更结合了Post-LN有利于模型表达能力的优势。理论分析表明,ResiDual结构能有效防止梯度消失,同时通过多样化的归一化路径缓解表示塌陷问题。实验证据显示,无论是Transformer深度还是训练数据规模增大,ResiDual都优于传统Pre-LN和Post-LN,实现了训练稳定性与模型表达力的兼得,为后续各类AI模型(包括大语言模型)提供了坚实基础架构

另一方面,随着Transformer在多模态与多领域(如语言、视觉、语音等)建模中的广泛适用性,对结构泛化能力的要求愈发凸显。Magneto架构通过引入Sub-LayerNorm,进一步提升了模型的表达性,同时采用了理论推导的初始化策略,确保即便在极大规模下依然拥有良好的训练可扩展性。实验结果表明,Magneto不但能够兼容多种主流任务场景,还在大量 benchmark 上超越了传统Pre-LN或Post-LN实现,为通用型Transformer架构的发展探索了新方向

此外,Peri-LN这一新颖的归一化布局方式在学术界和工业界中正逐渐获得认可。与传统Pre-LN或Post-LN只关注单一归一化点不同,Peri-LN将LayerNorm“环绕式”设置在子层外围,以加权调控激活值方差和梯度传播路径。理论与实证分析表明,这种Peri-LN设计不仅有效平衡了激活方差增长,还更好地维持了深层网络中的梯度流,促进大规模Transformer的收敛与稳定。多项实验验证了其在参数规模高达数十亿量级下依然具备优越的收敛速度和训练鲁棒性,为归一化策略设计开辟了新的可能性

这些新变体的集中涌现表明,Pre-LN不仅作为解决训练稳定性的核心策略被采纳,更成为激发创新归一化方法和残差路径多样化探索的理论基础。借助Pre-LN稳定训练深层Transformer的机制优势,后续研究进一步解决了模型表达力、梯度平衡和任务泛化等多重挑战,为Transformer生态的持续演进提供了强大驱动力。

技术/策略主要作用解决的核心问题典型代表/论文
LayerNorm Scaling按层深度缩放归一化输出方差抑制激活方差累积、深度诅咒The Curse of Depth [11]
GPAS激活缩放但保持梯度不变优化深层训练动力学GPAS [9]
HybridNormQKV与FFN采用不同归一化策略兼顾稳定性与表达力HybridNorm [3]
NormFormer多归一化点插入提升收敛与泛化梯度不匹配、收敛加速NormFormer [14]
Peri-LN/ResiDual环绕或多点归一化平衡激活方差与梯度流动激活方差控制、梯度平衡Peri-LN [8], ResiDual [4]

Pre-LayerNorm与Post-LayerNorm的挑战与改进方向

在Transformer及大语言模型研究不断向更大规模和更深层次推进的过程中,归一化策略的选择和改进逐渐成为影响模型训练效率与性能表现的核心技术难点。Pre-LayerNorm(Pre-LN)近年来通过提升梯度流动和训练稳定性,成为主流归一化方式。然而,最新研究不仅揭示了Pre-LN固有的数值稳定性优势,也暴露了其在极深网络下引发的“深度诅咒”现象:随着模型层数增加,Pre-LN输出的方差会呈指数级累积,导致部分深层无法有效参与优化,损害了整体模型的表达能力 。与此同时,传统Post-LayerNorm(Post-LN)虽然在浅层模型表现更优,但在大规模网络中往往面临训练不稳定和梯度消失等结构性难题 。针对这些机制性挑战,领域内出现诸如LayerNorm Scaling、HybridNorm、连接方式优化等新型归一化方法,它们通过多维度兼顾训练稳定性与模型表现,已在理论分析与实验结果中展现出实质性改进 。当前的关键科学问题包括:如何平衡Pre-LN的收敛优点与深度信息流失,如何根据网络结构和任务属性实现归一化机制自适应调整,以及如何系统性评估不同归一化策略对大规模模型泛化和表达力的影响。因此,未来在深层Transformer架构归一化范式创新方面,亟需理论与工程的协同突破,以更好支撑大模型训练与实际应用。

4.1 “深度诅咒”与LayerNorm Scaling

随着大规模深度神经网络尤其是Transformer结构的广泛应用,模型层数不断加深带来了显著的新挑战,其中深度诅咒(Curse of Depth)成为近期受到关注的重要问题。深度诅咒指的是在现代大语言模型(LLM)中,尽管模型愈发庞大且层数众多,但相当比例的深层并不能有效参与学习过程,导致模型表现未能如理论预期般持续提升。近期研究揭示,这一现象在如Llama、Mistral、DeepSeek和Qwen等主流模型家族中普遍存在,其根本诱因在于Pre-LayerNorm(Pre-LN)机制的广泛采用

Pre-LN在训练Transformer类LLM时的主要贡献,是提供更良好的收敛特性和数值稳定性。然而,最新理论与实证分析发现,随着层数加深,Pre-LN输出的方差会呈指数级增长。当网络深度达到一定规模后,梯度信号在反向传播中极易退化,具体表现为模型的深层块(Transformer block)的导数趋近于恒等映射,无法有效进行参数更新,导致该层在整体训练过程中失去实际功能。这种方差膨胀不仅干扰深层权重的优化,而且损害了模型跨层信息的有效整合,最终影响长程依赖的建模能力和表达力

针对这一机制性瓶颈,研究者提出了LayerNorm Scaling(LNS)策略作为应对方案。LNS方法通过对LayerNorm输出的方差进行深度相关的缩放,将每一层的归一化输出标准差按层数的平方根进行反向调整,即若第$d$层,则实际输出被乘以$1/\sqrt{d}$。这种简单而高效的修改,可以有效遏制由Pre-LN带来的方差漲爆,并促使深层Transformer模块重新获得有效梯度传播路径和训练贡献。在多种模型规模(从130M到7B参数量)上的实验结果表明,LNS不仅提升了预训练阶段的收敛速度和表现,还能显著优化有监督微调阶段的最终效果。其核心优势在于,LNS促使网络深层在训练过程中能更充分地参与优化,从而提升整个模型的表达能力和下游任务表现

此外,LNS优于此前提出的多种归一化与激活缩放技术,凸显了方差缩放在极深层神经架构中的不可或缺作用。当前的挑战仍包括:如何进一步兼顾Pre-LN提供的数值稳定性与深度信息流动之间的平衡、如何在不同类型的任务和模型架构下自适应调整缩放机制,以及如何理解不同归一化策略对模型泛化与表现的系统性影响。随着LayerNorm Scaling等技术的发展,深度诅咒引发的失效层问题有望得到更好解决,但该方向的理论与实践探索仍处于持续演进之中。

4.2 HybridNorm等新范式的探索

随着Transformer架构在大规模深度学习任务中的广泛应用,模型训练的稳定性和性能成为研究的核心议题,而归一化策略则直接影响网络的梯度流动与泛化能力。传统的Pre-LayerNorm能够在深层网络中有效缓解梯度消失和爆炸等问题,提升训练稳定性,但在模型收敛速度及最终性能方面偶有不足;相比之下,Post-LayerNorm结构在模型表达力和性能上表现更优,但训练时易发生不稳定。

面对两者难以兼顾的问题,HybridNorm作为新范式应运而生,其创新地将QKV归一化应用于Transformer的注意力模块,而在前馈网络部分则采用Post-Norm方式,形成模块化的混合归一化策略。这种设计不仅强化了身份路径,有助于保持良好的梯度传递,同时利用Post-Norm处理Nonlinearity所带来的性能提升,从理论上实现了稳定性与模型能力的双重兼顾。理论分析表明,HybridNorm能够改善深层网络的梯度流动,并显著提高模型鲁棒性

在实际实验中,HybridNorm被广泛应用于大规模Transformer模型,涵盖Dense与Sparse结构,其表现稳定优于Pre-LN与Post-LN,且在多项基准测试中的模型性能“双升”。这种性能上的一致性优势为归一化策略的未来发展提供了新的范式示例,提示未来可能沿着更细粒度的混合归一化、模块级自适应归一化甚至数据驱动归一化方向进一步探索。

尽管HybridNorm展示出理论与实践的高度一致性,但当前结合模型结构多样性、任务类型和计算资源等更复杂实际需求,融合归一化方法仍存在未解决的问题,如归一化粒度和自适应机制优化等。总体而言,HybridNorm的提出已成为归一化领域迈向更高效、更稳定训练的新里程碑,也为Transformer架构归一化策略的未来发展打开了新的思路

持续创新:Pre-LayerNorm架构的新技术与未来展望

近年来,Pre-LayerNorm(Pre-LN)架构在Transformer领域获得了广泛的关注和应用,并催生了一批针对其结构特性的创新技术。驱动这些进步的,不仅是预训练稳定性和可扩展性的内在需求,还包括对训练效率与硬件架构适配的持续探索。当前主流模型如LLaMA、Qwen和DeepSeek均已采用Pre-LN架构,这一选择本身也已成为行业范式转移的典型案例

在减少梯度消失、提升深层模型学习能力方面,Gradient-Preserving Activation Scaling(GPAS)技术表现出色。GPAS通过缩小中间激活值的幅度但保持梯度不变,有效解决了激活方差层层递增导致残差通路主导的瓶颈,从而显著提升大模型预训练的收敛速度和最终性能,并且其方法简洁、易于集成,具备跨架构(如Sandwich-LN与DeepNorm)通用性的潜力

与此同时,为了进一步缓解梯度范数的不均衡并优化预训练表现,NormFormer提出在每一层引入三重归一化:分别在自注意力之后、针对注意力头的输出进行缩放,以及在第一全连接层之后应用LayerNorm。仅0.4%的参数增长却带来下游任务和预训练收敛效率的显著提高,表现出极强的性价比和泛化能力。这说明Pre-LN架构的归一化策略仍有广阔的创新空间,可以通过巧妙设计提升模型的整体训练动力学

在归一化层的具体位置选择方面,Peri-LN策略带来的理论洞察显得尤为重要。该方法将归一化操作更加“外围化”地环绕各个子层,有效平衡了激活方差的增长,并使梯度流稳定性显著增强。Peri-LN在3.2B参数级模型中的实验证明,其能够带来更稳健的收敛表现,不仅刷新了对归一化层放置最佳点的理解,也为未来归一化机制的设计指明新的方向

Pre-LN架构在硬件适配上的持续创新也不容忽视。面对超长序列输入带来的计算与存储挑战,ULSeq-TA提出了一系列软件-硬件协同优化,包括稀疏Softmax与稀疏LayerNorm,配合专用硬件实现大幅度算力与内存开销削减,同时保证输出质量与推理速度。可见,Pre-LN的技术生态正快速向“高效运算—模块灵活—硬件友好”的趋势演进。

尽管Pre-LN及其相关优化目前已取得显著进展,但仍存若干值得关注的挑战。例如,激活与梯度动态协同的深层机制尚待进一步理论阐释,并且新策略的可解释性与自适应性在快速迭代中依旧是研究瓶颈。此外,多归一化策略以及硬件相关的自动优化需要更多跨领域的系统化整合。因此,未来的方向可能包括:(1)归一化操作自适应配置以兼容更多任务和数据类型、(2)结合稀疏性与量化技术实现极限硬件性能、(3)探索跨模型范式的归一化共性机制以指导新一代Transformer的架构设计。

Pre-LN架构与其创新技术,正以动态演进的方式重塑大模型训练与部署的理论基础与工程实践。新技术的持续迭代不仅强化了模型规模升级的可行性,也为合理优化算力与内存资源、提升模型泛化能力及稳定性开辟了新路径。研究者、工程师与硬件开发者的密切协作,将推动Pre-LN技术生态愈发成熟,迈向更智能、更高效、可持续的AI模型创新时代。

结论与未来展望

通过对近年来Transformer架构中层归一化(LayerNorm)策略的系统回顾,可以明确看到,Pre-LayerNorm(Pre-LN)正逐步成为主流选择,其背后的动力主要来自大模型训练对稳定性和可扩展性的强烈需求。在实际的大规模预训练和多层深度Transformer应用中,Post-LayerNorm(Post-LN)因梯度消失问题常常导致训练不收敛,甚至模型彻底失效,而Pre-LN由于其更优的梯度传播路径,显著提高了深层模型训练的可行性和可靠性,,

然而,Pre-LN并非没有缺陷。例如,层间激活方差的逐层累积可能造成shortcut通路主导、深层表达能力减弱,并引发所谓的“curse of depth”现象,这促使社区进一步探索如LayerNorm Scaling(LNS)、NormFormer、GPAS等新型正则化和激活调整技术以缓解此类隐忧,,。同时,近期部分研究提倡混合或外围归一化策略(如HybridNorm、Peri-LN、ResiDual等),试图兼收Pre-LN与Post-LN的优点,在训练稳定性和模型表达能力之间取得新的平衡,,

文献综述显示,目前主流的超大规模语言模型(如GLM-130B、Llama、Qwen、DeepSeek等)均采用了Pre-LN Transformer,并取得了极具竞争力的训练效率与泛化性能,。这不仅推动了Pre-LN在工业界的普及,也反向促进了针对Pre-LN局限性的理论诊断和新技术的出现。

展望未来,LayerNorm结构的选择将持续影响Transformer及其衍生架构的表达能力、训练稳定性和资源利用效率。随着模型规模的持续提升,新的归一化变体(如Sub-LayerNorm、外围LayerNorm、以及基于任务或结构自适应的LayerNorm策略)有望带来更为彻底的性能突破。与此同时,软件—硬件协同优化、稀疏化方法以及更高效的归一化算子实现,也将在高性能模型推理与部署中扮演重要角色,。Pre-LN的兴起与演化不仅是Transformer领域范式转变的缩影,也为后续相关研究和产业落地指明了方向。

结论

通过系统梳理Transformer架构中LayerNorm位置选择的研究进展,本文确认了Pre-LayerNorm已成为支撑深层及大规模Transformer模型高效训练的主流选择。其核心优势在于显著提升了梯度流动性与训练稳定性,克服了Post-LayerNorm在深层网络下常见的梯度消失和收敛障碍,为超大规模预训练和多任务泛化能力的提升提供了理论保障和工程可行性。此外,本文整合了近年来业界在应对Pre-LayerNorm激活方差指数增长、表达能力受限等挑战方面的创新进展,如LayerNorm Scaling、GPAS、HybridNorm及外围归一化等,展现了归一化机制持续演进的活力和多样性。与此同时,目前的归一化策略仍存在局限:如何在保证训练稳定性的同时最大化模型表达力、如何自适配多样架构与任务需求、以及如何高效协同软硬件资源,都是亟待解决的难题。未来研究应聚焦于归一化机制的理论完善、任务自适应归一化策略的探索、以及与稀疏化、量化等高效计算技术的结合,以推动Transformer及其衍生模型在规模、性能和应用广度上的进一步突破。Pre-LayerNorm及其创新技术的持续演进,有望引领大模型训练理论与工程实践迈向更高效、更稳健和更智能的新时代。

参考文献

[1] Qiang Wang, Bei Li, Tong Xiao, Jingbo Zhu, Changliang Li, Derek F. Wong, Lidia S. Chao.(2019). Learning Deep Transformer Models for Machine Translation.

[2] Aohan Zeng, Xiao Liu, Zhengxiao Du, Zihan Wang, Hanyu Lai, Ming Ding, Zhuoyi Yang, Yifan Xu, Wendi Zheng, Xiao Xia, W. Tam, Zixuan Ma, Yufei Xue, Jidong Zhai, Wenguang Chen, P. Zhang, Yuxiao Dong, Jie Tang.(2022). GLM-130B: An Open Bilingual Pre-trained Model.

[3] Zhijian Zhuo, Yutao Zeng, Ya Wang, Sijun Zhang, Jian Yang, Xiaoqing Li, Xun Zhou, Jinwen Ma.(2025). HybridNorm: Towards Stable and Efficient Transformer Training via Hybrid Normalization.

[4] Shufang Xie, Huishuai Zhang, Junliang Guo, Xu Tan, Jiang Bian, Hany Hassan Awadalla, Arul Menezes, Tao Qin, Rui Yan.(2023). ResiDual: Transformer with Dual Residual Connections.

[5] Sho Takase, Shun Kiyono, Sosuke Kobayashi, Jun Suzuki.(2022). B2T Connection: Serving Stability and Performance in Deep Transformers.

[6] Zixuan Jiang, Jiaqi Gu, Hanqing Zhu, David Z. Pan.(2023). Pre-RMSNorm and Pre-CRMSNorm Transformers: Equivalent and Efficient Pre-LN Transformers.

[7] Kelvin Kan, Xingjian Li, Benjamin J. Zhang, Tuhin Sahai, Stanley Osher, Krishna Kumar, Markos A. Katsoulakis.(2025). Stability of Transformers under Layer Normalization.

[8] Jeonghoon Kim, Byeongchan Lee, Cheonbok Park, Yeontaek Oh, Beomjun Kim, Taehwan Yoo, Seongjin Shin, Dongyoon Han, Jinwoo Shin, Kang Min Yoo.(2025). Peri-LN: Revisiting Normalization Layer in the Transformer Architecture.

[9] Tianlong Chen, Xin Xu, Zijing Liu, Pengxiang Li, Xinyuan Song, Ajay Kumar Jaiswal, Fan Zhang, Jishan Hu, Yang Wang, Hao Chen, Shizhe Diao, Shiwei Liu, Yu Li, Yin Lu, Can Yang.(2025). GPAS: Accelerating Convergence of LLM Pretraining via Gradient-Preserving Activation Scaling.

[10] Jingyu Wang, Lu Zhang, Xueqing Li, Huazhong Yang, Yongpan Liu.(2024). ULSeq-TA: Ultra-Long Sequence Attention Fusion Transformer Accelerator Supporting Grouped Sparse Softmax and Dual-Path Sparse LayerNorm.

[11] Wenfang Sun, Xinyuan Song, Pengxiang Li, Lu Yin, Yefeng Zheng, Shiwei Liu.(2025). The Curse of Depth in Large Language Models.

[12] Hongyu Wang, Shuming Ma, Shaohan Huang, Li Dong, Wenhui Wang, Zhiliang Peng, Yu Wu, Payal Bajaj, Saksham Singhal, Alon Benhaim, Barun Patra, Zhun Liu, Vishrav Chaudhary, Xia Song, Furu Wei.(2022). Foundation Transformers.

[13] Hongfei Xu, Qiuhui Liu, Josef van Genabith, Deyi Xiong, Jingyi Zhang.(2019). Lipschitz Constrained Parameter Initialization for Deep Transformers.

[14] Sam Shleifer, J. Weston, Myle Ott.(2021). NormFormer: Improved Transformer Pretraining with Extra Normalization.