pengtao-tech

README

Thu, 14 May 2026 09:33:38 GMT

pengtao-tech 个人技术知识库，使用 Obsidian 管理。在线阅读：gpengtao.github.io/pengtao-tech/.

Decoder 的 Mask 为什么要下三角

Tue, 12 May 2026 12:11:50 GMT

Decoder 的 Mask 为什么要下三角一句话速记自回归语言模型训练时，位置 t 只能依赖已出现的 token（位置 < t），不能「看见」未来 token；在注意力权重矩阵上对「看未来」的位置加 −∞（实现上常写很大的负数），softmax 后权重为 0，形成（因果）下三角可参与区域。也叫 causal mask、future mask。问题从哪来 Self-Attention 若不做限制：位置 i 的 Q 会与所有位置 j 的 K 算相似度，包括 j > i 的「未来」位置。训练下一词预测（或同一段序列上的条件分布）时，若允许看未来，则 t 时刻的表示会泄露 t...

RNN 是什么

Tue, 12 May 2026 12:11:50 GMT

RNN 是什么全称：Recurrent Neural Network · 循环神经网络核心关键词：Recurrent（循环）—— 同一套参数反复调用处理序列每一步一句话速记 RNN 是一种按顺序处理序列的神经网络，每一步用”当前输入 + 上一步的隐藏状态”算出新的隐藏状态，读完整个序列后最后的隐藏状态代表整体理解。 RNN 是 Transformer 的前任，理解 RNN 的三个致命缺点就理解了 Transformer 为什么存在。通俗解释（5 分钟版）它在解决什么任务对一句话（或任何序列：音频帧、股票价格、一段代码）做理解，输出一个表示。比如：情感分类：读完 “这电影真难看” ...

Self-Attention 与 Cross-Attention 的区别

Tue, 12 May 2026 12:11:50 GMT

Self-Attention 与 Cross-Attention 的区别一句话速记 Self-Attention：Q、K、V 来自同一组 token 表示，建模「同一段里谁看谁」。Cross-Attention：Q 来自一侧**（常见为 Decoder 当前状态），K、V 来自另一侧（常见为 Encoder 输出），建模「查询序列对被读序列的对齐与抽取。」** 张量与语义 Self-Attention 对长度为 n 的序列，设隐藏矩阵为 X ∈ R^{n×d}。经投影得到 Q, K, V（行数均为 n，同一「槽位」一一对应）。第 i 个 query 行与整段的 key 行做匹配，对...

Transformer 为什么比 RNN 快

Tue, 12 May 2026 12:11:50 GMT

Transformer 为什么比 RNN 快一句话速记说「快」时默认指训练与单次前向在 GPU 上更好并行：RNN 在时间维上步与步串行，Transformer 在训练阶段可对全序列各位置用矩阵一次性算自注意力。推理阶段自回归生成本质仍是步进，但单次前向内部仍是高并行。必须先拆「训练 vs 推理」，不拆容易被追问穿。先澄清：「快」指什么阶段RNN / LSTMTransformer谁通常更快、为什么训练（有整句标签，一次前向要算全序列）时间步 t 依赖 t−1 的 h_{t-1}，时间维上串行自注意力在实现上为 Q、K、V 与序列长度 n 的矩阵乘，n 个位置在硬件上可并行训练通常 ...

Transformer 是什么

Tue, 12 May 2026 12:11:50 GMT

Transformer 是什么前置知识：如果你没理解 RNN，先读 RNN 是什么，回来再看这篇会顺很多。Transformer 的所有设计都是为了解决 RNN 的三个缺陷。一句话速记 Transformer 是 2017 年 Google 提出的神经网络架构，用 Self-Attention 替代 RNN 的顺序计算，一句话里所有词并行互看、各自决定关注谁——现在所有 LLM（GPT / Claude / LLaMA / Qwen）都是它的变种。通俗解释（5 分钟版）它解决了什么 2017 年之前处理序列任务（翻译、理解一句话）主流是 RNN / LSTM。RNN 有三个致命伤：慢...

为什么 attention 要除以 √dk

Tue, 12 May 2026 12:11:50 GMT

为什么 attention 要除以 √dk 一句话速记防止 Q·K 点积数值过大导致 softmax 饱和、梯度消失。 dk 是 key 向量的维度。通俗解释（5 分钟版） Attention 公式的核心是 softmax(QK^T / √dk) · V。为什么要除以 √dk，而不是直接 softmax(QK^T) · V？关键问题在 softmax 的脾气：输入值相差越大，softmax 输出越接近 one-hot（最大值那项几乎是 1，其他几乎是 0）一旦接近 one-hot，除了最大那项以外的梯度都接近 0，模型”只学一个位置”，学不到分布这叫 softmax 饱和而 Q·...

多头注意力为什么比单头好

Tue, 12 May 2026 12:11:50 GMT

多头注意力为什么比单头好一句话速记一个头在一组 Q/K/V 子空间里只能学一种关系；多头把 d_model 切成 h 份，让 h 组注意力并行、各学不同子空间里的关系，再拼起来，表达力更强、更稳。每头里仍然要除以各自的 √(d_model/h)。结构（和单头的差别）设隐藏维是 d_model，头数为 h。每个头在维度 d_k = d_v = d_model / h 的子空间里做注意力。对同一层、同一位置，有 h 套独立的 W_Q^i, W_K^i, W_V^i（或等价的投影实现）。单步上：第 i 个头的输出： head_i = Attention(Q^i, K^i, V^i)...

LoRA 和 QLoRA 的区别

Tue, 12 May 2026 12:11:50 GMT

LoRA 和 QLoRA 的区别一句话速记 LoRA = 给原模型每层 attention 加一对低秩矩阵 A/B（A: d×r、B: r×d，r 远小于 d），只训练这俩，原参数冻结——可训参数从全模型的 100% 降到 < 1%；QLoRA = LoRA + 把 base 模型量化到 4-bit + 再加几个工程 trick（NF4、双重量化、paged optimizer）——让单张 24GB 消费级 GPU 能微调 7B 甚至 13B 模型。结论：LoRA 是数学方法，QLoRA 是工程优化方案，生产/学习场景几乎都用 QLoRA。通俗解释（5 分钟版）先看全量微调的痛： ...

SFT-RLHF-DPO 的关系

Tue, 12 May 2026 12:11:50 GMT

SFT-RLHF-DPO 的关系一句话速记 LLM “对齐”三阶段：① SFT（Supervised Fine-Tuning）：用 (instruction, response) 数据教模型”格式 + 知识”——最简单也最常用；② RLHF（PPO）：先训 reward model，再用强化学习把模型行为推向 reward 高的方向，工程复杂、显存爆、调参难；③ DPO（Direct Preference Optimization）：直接用 (chosen, rejected) 偏好对优化，绕过 reward model 和 RL，等价于 RLHF 但工程上简单 10 倍——现在多数偏好学习...