为什么 attention 要除以 √dk

一句话速记

防止 Q·K 点积数值过大导致 softmax 饱和、梯度消失。 dk 是 key 向量的维度。

Attention 公式的核心是 softmax(QK^T / √dk) · V。为什么要除以 √dk，而不是直接 softmax(QK^T) · V？

关键问题在 softmax 的脾气：

而 Q·K 的点积值有多大，取决于 dk：

除以 √dk 做什么：

方差推导：

直观阈值：

Q：为什么是 √dk 不是 dk？ 答：因为我们要归一化的是标准差（缩放应与数值量级同阶），方差是 dk，标准差是 √dk。除以 dk 会把方差压到 1/dk，反而过度平滑，attention 分布接近均匀就没区分度了。
Q：V 为什么不参与这个缩放？ 答：V 只参与加权求和（最后那一步），不进 softmax。softmax 饱和问题和 V 无关。
Q：有没有不除 √dk 的方案？ 答：有。比如在 QK 之前对 Q、K 做 LayerNorm 或 RMSNorm，本质也是控制数值范围。但工程上 √dk 最便宜——一个常数除法，没有额外参数。
Q：多头注意力里这个 dk 是整个模型的维度还是单头的？ 答：单头的。多头会把 d_model 切成 h 份，每头的 dk = d_model / h。所以每个头独立做缩放，用各自的 √(d_model/h)。

复述时这样讲：

“QK 点积的方差正比于 dk → dk 大的话 softmax 直接饱和 → 梯度回传不了 → 除以 √dk 把方差压回 1。”

能加分就补一句：“V 不进 softmax，所以不缩放 V。“