<?xml version="1.0" encoding="UTF-8" ?>
<rss version="2.0">
    <channel>
      <title>pengtao-tech</title>
      <link>https://gpengtao.github.io/pengtao-tech</link>
      <description>最近的10条笔记 on pengtao-tech</description>
      <generator>Quartz -- quartz.jzhao.xyz</generator>
      <item>
    <title>README</title>
    <link>https://gpengtao.github.io/pengtao-tech/README</link>
    <guid>https://gpengtao.github.io/pengtao-tech/README</guid>
    <description><![CDATA[ pengtao-tech 个人技术知识库，使用 Obsidian 管理。 在线阅读：gpengtao.github.io/pengtao-tech/. ]]></description>
    <pubDate>Thu, 14 May 2026 09:33:38 GMT</pubDate>
  </item><item>
    <title>Decoder 的 Mask 为什么要下三角</title>
    <link>https://gpengtao.github.io/pengtao-tech/01-AI%E5%A4%A7%E6%A8%A1%E5%9E%8B/10-Transformer%E4%B8%8E%E6%B3%A8%E6%84%8F%E5%8A%9B/Decoder-%E7%9A%84-Mask-%E4%B8%BA%E4%BB%80%E4%B9%88%E8%A6%81%E4%B8%8B%E4%B8%89%E8%A7%92</link>
    <guid>https://gpengtao.github.io/pengtao-tech/01-AI%E5%A4%A7%E6%A8%A1%E5%9E%8B/10-Transformer%E4%B8%8E%E6%B3%A8%E6%84%8F%E5%8A%9B/Decoder-%E7%9A%84-Mask-%E4%B8%BA%E4%BB%80%E4%B9%88%E8%A6%81%E4%B8%8B%E4%B8%89%E8%A7%92</guid>
    <description><![CDATA[ Decoder 的 Mask 为什么要下三角 一句话速记 自回归语言模型训练时，位置 t 只能依赖已出现的 token（位置 &lt; t），不能「看见」未来 token；在注意力权重矩阵上对「看未来」的位置加 −∞（实现上常写很大的负数），softmax 后权重为 0，形成（因果）下三角可参与区域。 也叫 causal mask、future mask。 问题从哪来 Self-Attention 若不做限制：位置 i 的 Q 会与所有位置 j 的 K 算相似度，包括 j &gt; i 的「未来」位置。 训练 下一词预测（或同一段序列上的条件分布）时，若允许看未来，则 t 时刻的表示会泄露 t... ]]></description>
    <pubDate>Tue, 12 May 2026 12:11:50 GMT</pubDate>
  </item><item>
    <title>RNN 是什么</title>
    <link>https://gpengtao.github.io/pengtao-tech/01-AI%E5%A4%A7%E6%A8%A1%E5%9E%8B/10-Transformer%E4%B8%8E%E6%B3%A8%E6%84%8F%E5%8A%9B/RNN-%E6%98%AF%E4%BB%80%E4%B9%88</link>
    <guid>https://gpengtao.github.io/pengtao-tech/01-AI%E5%A4%A7%E6%A8%A1%E5%9E%8B/10-Transformer%E4%B8%8E%E6%B3%A8%E6%84%8F%E5%8A%9B/RNN-%E6%98%AF%E4%BB%80%E4%B9%88</guid>
    <description><![CDATA[ RNN 是什么 全称：Recurrent Neural Network · 循环神经网络 核心关键词：Recurrent（循环）—— 同一套参数反复调用处理序列每一步 一句话速记 RNN 是一种按顺序处理序列的神经网络，每一步用”当前输入 + 上一步的隐藏状态”算出新的隐藏状态，读完整个序列后最后的隐藏状态代表整体理解。 RNN 是 Transformer 的前任，理解 RNN 的三个致命缺点就理解了 Transformer 为什么存在。 通俗解释（5 分钟版） 它在解决什么任务 对一句话（或任何序列：音频帧、股票价格、一段代码）做理解，输出一个表示。比如： 情感分类：读完 “这电影真难看” ... ]]></description>
    <pubDate>Tue, 12 May 2026 12:11:50 GMT</pubDate>
  </item><item>
    <title>Self-Attention 与 Cross-Attention 的区别</title>
    <link>https://gpengtao.github.io/pengtao-tech/01-AI%E5%A4%A7%E6%A8%A1%E5%9E%8B/10-Transformer%E4%B8%8E%E6%B3%A8%E6%84%8F%E5%8A%9B/Self-Attention-%E4%B8%8E-Cross-Attention-%E7%9A%84%E5%8C%BA%E5%88%AB</link>
    <guid>https://gpengtao.github.io/pengtao-tech/01-AI%E5%A4%A7%E6%A8%A1%E5%9E%8B/10-Transformer%E4%B8%8E%E6%B3%A8%E6%84%8F%E5%8A%9B/Self-Attention-%E4%B8%8E-Cross-Attention-%E7%9A%84%E5%8C%BA%E5%88%AB</guid>
    <description><![CDATA[ Self-Attention 与 Cross-Attention 的区别 一句话速记 Self-Attention：Q、K、V 来自同一组 token 表示，建模「同一段里谁看谁」。Cross-Attention：Q 来自一侧**（常见为 Decoder 当前状态），K、V 来自另一侧（常见为 Encoder 输出），建模「查询序列 对 被读序列 的对齐与抽取。」** 张量与语义 Self-Attention 对长度为 n 的序列，设隐藏矩阵为 X ∈ R^{n×d}。 经投影得到 Q, K, V（行数均为 n，同一「槽位」一一对应）。 第 i 个 query 行与整段的 key 行做匹配，对... ]]></description>
    <pubDate>Tue, 12 May 2026 12:11:50 GMT</pubDate>
  </item><item>
    <title>Transformer 为什么比 RNN 快</title>
    <link>https://gpengtao.github.io/pengtao-tech/01-AI%E5%A4%A7%E6%A8%A1%E5%9E%8B/10-Transformer%E4%B8%8E%E6%B3%A8%E6%84%8F%E5%8A%9B/Transformer-%E4%B8%BA%E4%BB%80%E4%B9%88%E6%AF%94-RNN-%E5%BF%AB</link>
    <guid>https://gpengtao.github.io/pengtao-tech/01-AI%E5%A4%A7%E6%A8%A1%E5%9E%8B/10-Transformer%E4%B8%8E%E6%B3%A8%E6%84%8F%E5%8A%9B/Transformer-%E4%B8%BA%E4%BB%80%E4%B9%88%E6%AF%94-RNN-%E5%BF%AB</guid>
    <description><![CDATA[ Transformer 为什么比 RNN 快 一句话速记 说「快」时默认指训练与单次前向在 GPU 上更好并行：RNN 在时间维上步与步串行，Transformer 在训练阶段可对全序列各位置用矩阵一次性算自注意力。推理阶段自回归生成本质仍是步进，但单次前向内部仍是高并行。 必须先拆「训练 vs 推理」，不拆容易被追问穿。 先澄清：「快」指什么 阶段RNN / LSTMTransformer谁通常更快、为什么训练（有整句标签，一次前向要算全序列）时间步 t 依赖 t−1 的 h_{t-1}，时间维上串行自注意力在实现上为 Q、K、V 与序列长度 n 的矩阵乘，n 个位置在硬件上可并行训练通常 ... ]]></description>
    <pubDate>Tue, 12 May 2026 12:11:50 GMT</pubDate>
  </item><item>
    <title>Transformer 是什么</title>
    <link>https://gpengtao.github.io/pengtao-tech/01-AI%E5%A4%A7%E6%A8%A1%E5%9E%8B/10-Transformer%E4%B8%8E%E6%B3%A8%E6%84%8F%E5%8A%9B/Transformer-%E6%98%AF%E4%BB%80%E4%B9%88</link>
    <guid>https://gpengtao.github.io/pengtao-tech/01-AI%E5%A4%A7%E6%A8%A1%E5%9E%8B/10-Transformer%E4%B8%8E%E6%B3%A8%E6%84%8F%E5%8A%9B/Transformer-%E6%98%AF%E4%BB%80%E4%B9%88</guid>
    <description><![CDATA[ Transformer 是什么 前置知识：如果你没理解 RNN，先读 RNN 是什么，回来再看这篇会顺很多。Transformer 的所有设计都是为了解决 RNN 的三个缺陷。 一句话速记 Transformer 是 2017 年 Google 提出的神经网络架构，用 Self-Attention 替代 RNN 的顺序计算，一句话里所有词并行互看、各自决定关注谁——现在所有 LLM（GPT / Claude / LLaMA / Qwen）都是它的变种。 通俗解释（5 分钟版） 它解决了什么 2017 年之前处理序列任务（翻译、理解一句话）主流是 RNN / LSTM。RNN 有三个致命伤： 慢... ]]></description>
    <pubDate>Tue, 12 May 2026 12:11:50 GMT</pubDate>
  </item><item>
    <title>为什么 attention 要除以 √dk</title>
    <link>https://gpengtao.github.io/pengtao-tech/01-AI%E5%A4%A7%E6%A8%A1%E5%9E%8B/10-Transformer%E4%B8%8E%E6%B3%A8%E6%84%8F%E5%8A%9B/%E4%B8%BA%E4%BB%80%E4%B9%88-attention-%E8%A6%81%E9%99%A4%E4%BB%A5-%E2%88%9Adk</link>
    <guid>https://gpengtao.github.io/pengtao-tech/01-AI%E5%A4%A7%E6%A8%A1%E5%9E%8B/10-Transformer%E4%B8%8E%E6%B3%A8%E6%84%8F%E5%8A%9B/%E4%B8%BA%E4%BB%80%E4%B9%88-attention-%E8%A6%81%E9%99%A4%E4%BB%A5-%E2%88%9Adk</guid>
    <description><![CDATA[ 为什么 attention 要除以 √dk 一句话速记 防止 Q·K 点积数值过大导致 softmax 饱和、梯度消失。 dk 是 key 向量的维度。 通俗解释（5 分钟版） Attention 公式的核心是 softmax(QK^T / √dk) · V。为什么要除以 √dk，而不是直接 softmax(QK^T) · V？ 关键问题在 softmax 的脾气： 输入值相差越大，softmax 输出越接近 one-hot（最大值那项几乎是 1，其他几乎是 0） 一旦接近 one-hot，除了最大那项以外的梯度都接近 0，模型”只学一个位置”，学不到分布 这叫 softmax 饱和 而 Q·... ]]></description>
    <pubDate>Tue, 12 May 2026 12:11:50 GMT</pubDate>
  </item><item>
    <title>多头注意力为什么比单头好</title>
    <link>https://gpengtao.github.io/pengtao-tech/01-AI%E5%A4%A7%E6%A8%A1%E5%9E%8B/10-Transformer%E4%B8%8E%E6%B3%A8%E6%84%8F%E5%8A%9B/%E5%A4%9A%E5%A4%B4%E6%B3%A8%E6%84%8F%E5%8A%9B%E4%B8%BA%E4%BB%80%E4%B9%88%E6%AF%94%E5%8D%95%E5%A4%B4%E5%A5%BD</link>
    <guid>https://gpengtao.github.io/pengtao-tech/01-AI%E5%A4%A7%E6%A8%A1%E5%9E%8B/10-Transformer%E4%B8%8E%E6%B3%A8%E6%84%8F%E5%8A%9B/%E5%A4%9A%E5%A4%B4%E6%B3%A8%E6%84%8F%E5%8A%9B%E4%B8%BA%E4%BB%80%E4%B9%88%E6%AF%94%E5%8D%95%E5%A4%B4%E5%A5%BD</guid>
    <description><![CDATA[ 多头注意力为什么比单头好 一句话速记 一个头在一组 Q/K/V 子空间里只能学一种关系；多头把 d_model 切成 h 份，让 h 组注意力并行、各学不同子空间里的关系，再拼起来，表达力更强、更稳。每头里仍然要除以各自的 √(d_model/h)。 结构（和单头的差别） 设隐藏维是 d_model，头数为 h。 每个头在维度 d_k = d_v = d_model / h 的子空间里做注意力。 对同一层、同一位置，有 h 套 独立的 W_Q^i, W_K^i, W_V^i（或等价的投影实现）。 单步上： 第 i 个头的输出： head_i = Attention(Q^i, K^i, V^i)... ]]></description>
    <pubDate>Tue, 12 May 2026 12:11:50 GMT</pubDate>
  </item><item>
    <title>LoRA 和 QLoRA 的区别</title>
    <link>https://gpengtao.github.io/pengtao-tech/01-AI%E5%A4%A7%E6%A8%A1%E5%9E%8B/20-%E8%AE%AD%E7%BB%83%E4%B8%8E%E5%BE%AE%E8%B0%83/LoRA-%E5%92%8C-QLoRA-%E7%9A%84%E5%8C%BA%E5%88%AB</link>
    <guid>https://gpengtao.github.io/pengtao-tech/01-AI%E5%A4%A7%E6%A8%A1%E5%9E%8B/20-%E8%AE%AD%E7%BB%83%E4%B8%8E%E5%BE%AE%E8%B0%83/LoRA-%E5%92%8C-QLoRA-%E7%9A%84%E5%8C%BA%E5%88%AB</guid>
    <description><![CDATA[ LoRA 和 QLoRA 的区别 一句话速记 LoRA = 给原模型每层 attention 加一对低秩矩阵 A/B（A: d×r、B: r×d，r 远小于 d），只训练这俩，原参数冻结——可训参数从全模型的 100% 降到 &lt; 1%；QLoRA = LoRA + 把 base 模型量化到 4-bit + 再加几个工程 trick（NF4、双重量化、paged optimizer）——让单张 24GB 消费级 GPU 能微调 7B 甚至 13B 模型。结论：LoRA 是数学方法，QLoRA 是工程优化方案，生产/学习场景几乎都用 QLoRA。 通俗解释（5 分钟版） 先看全量微调的痛： ... ]]></description>
    <pubDate>Tue, 12 May 2026 12:11:50 GMT</pubDate>
  </item><item>
    <title>SFT-RLHF-DPO 的关系</title>
    <link>https://gpengtao.github.io/pengtao-tech/01-AI%E5%A4%A7%E6%A8%A1%E5%9E%8B/20-%E8%AE%AD%E7%BB%83%E4%B8%8E%E5%BE%AE%E8%B0%83/SFT-RLHF-DPO-%E7%9A%84%E5%85%B3%E7%B3%BB</link>
    <guid>https://gpengtao.github.io/pengtao-tech/01-AI%E5%A4%A7%E6%A8%A1%E5%9E%8B/20-%E8%AE%AD%E7%BB%83%E4%B8%8E%E5%BE%AE%E8%B0%83/SFT-RLHF-DPO-%E7%9A%84%E5%85%B3%E7%B3%BB</guid>
    <description><![CDATA[ SFT-RLHF-DPO 的关系 一句话速记 LLM “对齐”三阶段：① SFT（Supervised Fine-Tuning）：用 (instruction, response) 数据教模型”格式 + 知识”——最简单也最常用；② RLHF（PPO）：先训 reward model，再用强化学习把模型行为推向 reward 高的方向，工程复杂、显存爆、调参难；③ DPO（Direct Preference Optimization）：直接用 (chosen, rejected) 偏好对优化，绕过 reward model 和 RL，等价于 RLHF 但工程上简单 10 倍——现在多数偏好学习... ]]></description>
    <pubDate>Tue, 12 May 2026 12:11:50 GMT</pubDate>
  </item>
    </channel>
  </rss>