为什么 RAG 还需要 Rerank

一句话速记

双塔检索：query 与 doc 分别编码，再比相似度 —— 快，但不能对 (query, doc) 整对做深交互。
Rerank：用交叉编码器等在小集合 top-k 上再打分，把更相关的排到前面，用多算力换更准的序。

双塔瓶颈（为何还要二排）

Bi-encoder：sim(f(q), g(d))，f、g 各只得固定维向量，无法建模 q 中某 词仅与 d 中某 句的交叉关系（以可接受 计算量为前提）。
实际现象：同义能抓，精确到子句/否定/条件 时，易次优排序。
Reranker（常 cross-encoder）：输入 拼接的 [q;d] 进 Transformer 出相关分数，两两算，准但贵 → 只在 k 个（如 50→重排→10）上跑。

常见 Rerank 形态

类型	说明	成本
交叉编码器	query+doc 同进一网络，分类/回归相关分	高、k 不宜大
轻量模型 / 蒸馏小模型	为时延与成本折中	中
重排序+截断	只对前 50 条重排，再取前 5 进 prompt	工程标配思路

ColBERT 等「后期交互」介于双塔与全交叉之间，不把全文拼进一塔，记有这一族即可。

不用 Rerank 何时可接受

语料小、k 已很小、对顺序不敏感。
强稀疏通道（BM25）已很准的专名场景。
强预算与时延约束，宁调 query 改写/混合检索 也不上二排。

延伸追问

Q：Rerank 和 用** 更大 embedding 换一塔** 区别？**
答：更大单塔仍是双塔近似；非任意可替代成对细交互，是能力谱系不同。
Q：Rerank 能 替代混合检索吗？**
答：不能单点替代；混合解决召回** 广度，Rerank 解决** 序与** 精度。**

我的记法

TODO

状态

已背速记
能讲通俗版
能答追问

参考资料

Dense Passage Retrieval 与后续重排/ColBERT 系论文作脉络即可。