# Scaling Law 完整学习笔记

> **学习日期**：2026-06-27 · **来源**：扣子讲解 + 联网搜索 + 论文
> **关联节点**：知识树 L1 · Prompt Engineering 基础 → Scaling Law 子节点
> **前置知识**：Transformer 架构 / 推理 vs 训练 / Token 概念

---

## 一、什么是 Scaling Law

**一句话**：模型性能（Loss）与模型规模（参数 N）、数据量（D）、算力（C）之间存在的可预测幂律关系。

**核心公式**：

$$L(x) = \left(\frac{x_c}{x}\right)^\alpha + L_\infty$$

| 符号 | 含义 |
|------|------|
| $L(x)$ | 在资源量 $x$ 下的测试 Loss |
| $x$ | 资源量（N=参数量 / D=数据量 / C=算力） |
| $x_c$ | 临界资源量（Loss 开始显著下降的拐点） |
| $\alpha$ | 幂律指数——决定边际收益递减速度 |
| $L_\infty$ | 不可约噪声（Irreducible Loss）——理论上能达到的最低 Loss |

**为什么是"Law"而非"定理"**：Scaling Law 是经验规律（empirical），不是数学推导出来的。它是从多个不同规模模型的训练数据中拟合出来的，存在学术界争议（Kaplan vs Chinchilla），不是物理定律那样精确。

---

## 二、Kaplan vs Chinchilla 之争

这是 Scaling Law 领域最著名的学术分歧，核心争议在 **"给定算力，模型和数据该怎么分配"**。

### 2.1 直接对比

| 维度 | Kaplan (OpenAI, 2020) | Chinchilla (DeepMind, 2022) |
|------|----------------------|---------------------------|
| **论文** | "Scaling Laws for Neural Language Models" | "Training Compute-Optimal Large Language Models" |
| **核心结论** | 模型大小比数据量更重要 | 模型和数据应该等比例增长 |
| **参数幂律 α_N** | ~0.076 | ~0.34 |
| **数据幂律 α_D** | ~0.095 | ~0.28 |
| **最优参数 N_opt** | ∝ C^0.73 | ∝ C^0.50 |
| **数据:参数比 D/N** | ~1.7:1 | ~20:1 |
| **含义** | 给 10× 算力，模型增大 5.4×，数据增 1.9× | 给 10× 算力，模型和数据都增 ~3.2× |

### 2.2 分歧根因

三个关键差异导致结论不同：

1. **参数统计口径**：Kaplan **不含** Embedding 层参数，Chinchilla **含**全部参数。在小模型（<1B）时 Embedding 占比高，口径差异放大。

2. **实验规模上限**：Kaplan 最大实验 ~1B 参数，Chinchilla 做到 ~16B 参数，外推范围不同。

3. **训练充分性**：Kaplan 每个配置只训固定步数，Chinchilla 每个配置都训到收敛。**Kaplan 的大模型"没吃饱"**，所以看起来大模型更划算——实际上只是小模型吃太饱。

### 2.3 实际怎么用

工业界现在**更接近 Chinchilla**：
- DeepSeek-V3：671B 参数 / 14.8T tokens → D/N ≈ 22:1 ✅
- Llama 3 405B：405B 参数 / 15T tokens → D/N ≈ 37:1（甚至超过 Chinchilla）

Kaplan 不是错了，而是它的实验范围太小——你外推到 100B+ 级别时误差会很大。

---

## 三、C ≈ 6ND 推导

**C = 训练总 FLOPs**，这是连接"模型规模"和"算力成本"的桥梁公式。

### 3.1 预备知识：矩阵乘法 FLOPs

两个矩阵相乘 $(m \times n) \times (n \times p)$：
- 结果矩阵有 $m \times p$ 个元素
- 每个元素需要 $n$ 次乘法 + $(n-1)$ 次加法 ≈ $2n$ FLOPs
- 总计：$\approx 2mnp$ FLOPs

### 3.2 前向传播 FLOPs ≈ 2ND

Transformer 每层主要运算：
- **Self-Attention**：$Q = XW_Q$ 等投影 + $QK^T$ + 加权输出投影
- **FFN**：两层全连接，中间维度通常 $4d$

**关键近似**：所有矩阵乘法的 FLOPs 加起来，**前向传播 ≈ 2ND**（N=参数量，D=训练 token 数）。

### 3.3 反向传播 FLOPs ≈ 4ND

反向传播要算两种梯度：

| 步骤 | FLOPs | 原因 |
|------|-------|------|
| **激活梯度**（反传） | ~2ND | 每层激活值的梯度，与前向对称 |
| **参数梯度**（更新） | ~2ND | 每层参数的梯度，与参数量成比例 |
| **合计** | **~4ND** | |

### 3.4 总 FLOPs = 6ND

前向 2ND + 反向 4ND = **6ND**

**验证（GPT-3 175B）**：
- N = 175B, D = 300B tokens
- C ≈ 6 × 175B × 300B = 3.15 × 10^23 FLOPs
- 实际报告 ≈ 3.14 × 10^23 FLOPs ✅ **数量级吻合**

**实用含义**：
- 训练 GPT-3 175B 需要约 3,640 个 A100-GPU-天
- 训练 Llama 3 405B：C ≈ 6 × 405B × 15T ≈ 3.6 × 10^25 FLOPs——比 GPT-3 大 115×

---

## 四、Scaling Law 撞墙了吗？

**没有，但换了接力棒。**

### 三层接力

| 阶段 | 扩什么 | 当前状态 |
|------|--------|---------|
| **预训练 Scaling** | 更多数据 + 更大模型 | 数据墙（互联网文本快用完了） |
| **后训练 Scaling** | RLHF/DPO 微调 | 增长空间大，但非幂律 |
| **推理时 Scaling** | 回答时多"想"几步 | 当前主战场（o1/o3/DeepSeek-R1） |

### 密度法则

**模型能力随时间密度化**：相同能力的模型，每过一段时间所需参数减少。

- GPT-3 175B（2020）≈ GPT-3.5 Turbo ~20B（2023）的核心能力
- Chinchilla 70B 超越 Gopher 280B

这意味着**推理成本指数下降**——Scaling Law 描述训练侧规律，密度法则描述部署侧规律。

---

## 五、推理时 Scaling（Inference-time Scaling）

### 核心思想

**不改模型参数，让模型在回答时花更多算力"多想"**。

### 三大方法

| 类别 | 方法 | 原理 | FLOPs 开销 |
|------|------|------|-----------|
| **顺序** | 长 CoT | 生成更长的推理链 | ~3-10× |
| **顺序** | 自我验证 | 生成→自我检查→修正 | ~2-4× |
| **并行** | 多数投票 (N=40) | 生成 N 条→投票选最多 | ~N× |
| **并行** | Best-of-N + PRM | 生成 N 条→奖励模型选最优 | ~N× |
| **搜索** | ToT / MCTS | 树搜索探索多条推理路径 | ~10-100× |
| **搜索** | PRM 束搜索 | 过程奖励引导剪枝 | ~5-20× |

### 关键发现

- **ARC 挑战**：推理时 Scaling 将准确率从 8% 提升到 95%
- **顺序 vs 并行**：长链推理 ≈ 指数级多条短链（NeurIPS 2025）
- **反直觉**：Best-of-N 中候选池越大，验证器越准——因为验证比生成容易

---

## 六、Token 成本谁承担

| 场景 | 推理中间 token | 谁付费 |
|------|---------------|--------|
| **API 调用**（开发者） | 全部计费 | 开发者/企业 |
| **产品端**（ChatGPT 等） | 不展示、不另收费 | 服务方吃进订阅费 |
| **o1 系列** | 隐藏但计入配额 | 用户（即使用量扣了但看不到） |
| **开源本地部署** | GPU 算力+电费 | 你自己 |

---

## 七、核心洞察

1. **Scaling Law 是经验规律**，不是物理定律——它描述过去，不能精确预测未来
2. **Chinchilla 比 Kaplan 更可靠**：大模型时代训练更充分，数据:参数≈20:1 是更实际的指导
3. **C≈6ND 是连接理论和成本的桥梁**：反向传播是前向传播的 2 倍开销
4. **Scaling 没死，只是换了形式**：预训练→后训练→推理时，三层接力
5. **推理时 Scaling 是当前主战场**：不改模型，多花 token 买质量
6. **推理成本逐年下降**：密度法则使同等能力模型越来越小、越来越便宜

---

## 八、延伸阅读（TODO）

- [ ] Kaplan et al. (2020) "Scaling Laws for Neural Language Models"
- [ ] Hoffmann et al. (2022) "Training Compute-Optimal Large Language Models" (Chinchilla)
- [ ] OpenAI o1 技术报告（推理时 Scaling 工程实现）
- [ ] DeepSeek-R1 论文（RL 驱动的推理时 Scaling）
