# 主流模型速览笔记

> 创建：2026-06-28 · 关联：L1 概念层 · 前置：Transformer / Scaling Law / MoE

---

## 一、海外三巨头

### Anthropic — 「编程领域的瑞士军刀」

| 项目 | 说明 |
|------|------|
| 旗舰 | Claude Fable 5（AA 智能指数 60 分，但已因美国出口管制下线） |
| 主力 | Claude Opus 4.8（56 分）/ Sonnet 4.6（47 分） |
| 核心优势 | 编程断层领先，Agent 长链任务业界标杆 |
| 定价 | Fable 5: $10/$50；Opus 4.8: $5/$25；Sonnet 4.6: $3/$15（百万 token） |
| 生态位 | 面向付费能力最强的专业开发者，不卷价格卷可靠性 |
| 风险 | 编程优势若被追至 5% 以内，高溢价逻辑松动 |

### OpenAI — 「AI 行业的 Android」

| 项目 | 说明 |
|------|------|
| 旗舰 | GPT-5.5（xhigh 55 分），6.27 刚发 GPT-5.6 Sol/Terra/Luna |
| 主力 | GPT-5.5 四个档位（low→xhigh） |
| 核心优势 | 模型线最全，生态最深（ChatGPT + API + 插件 + Agent 协议） |
| 定价 | GPT-5.5: $5/$30；GPT-5.6 Sol: $5/$30（仅美国合作伙伴可用） |
| 生态位 | 通用全能型平台，不是每个单项第一但没明显短板 |
| 风险 | 创新节奏放缓，每个赛道都有更强的对手盯着打 |

### Google DeepMind — 「多模态 + 基础设施的闷声巨头」

| 项目 | 说明 |
|------|------|
| 旗舰 | Gemini 3.1 Pro（46 分）/ Gemini 3.5 Flash（50 分） |
| 核心优势 | 多模态能力业界领先，TPU 自研芯片 + 搜索 + YouTube 数据飞轮 |
| 生态位 | 不靠 API 赚钱，靠 AI 赋能自家全家桶 + TPU 卖企业 |
| 短板 | 纯文本推理和编程不如 Claude/GPT，产品化速度慢 |

---

## 二、国产四强

### DeepSeek — 「开源世界的价格屠夫」

| 项目 | 说明 |
|------|------|
| 旗舰 | V4 Pro（44 分）/ V4 Flash（40 分） |
| 核心技术 | MoE 稀疏混合专家，DSpark 加速框架（速度提升 60-85%，MIT 开源） |
| 定价 | V4 Pro: $0.43/$0.87；V4 Flash: $0.14/$0.28（仅为 Opus 的 1/29~1/89） |
| 生态位 | 让 AI 平民化——独立开发者、中小企业、算力敏感场景 |
| 风险 | 闭源部署难，美国出口管制可能波及，盈利模式不清晰 |

### 豆包/字节 — 「C 端流量怪」

| 项目 | 说明 |
|------|------|
| 旗舰 | Seed 2.1 Pro（Coding 逼近 Opus 4.7），MCP-Atlas 超 GPT-5.5 |
| 核心数据 | 日均 180 万亿 token 真实流量 |
| 定价 | ¥6/¥30（仅为 Claude 的 1/4） |
| 生态位 | 场景驱动的应用层——飞书 AI、豆包 App 数亿用户 |
| 短板 | 模型本身在 AA 指数排名不高，技术品牌弱于 DeepSeek/智谱 |

### 智谱 GLM — 「学术底子最硬的开源闯将」

| 项目 | 说明 |
|------|------|
| 旗舰 | GLM-5.2（51 分，AA 指数第 6，开源第一） |
| 架构 | MoE，总参 744B，激活 ~40B，1M 上下文 |
| 定价 | $0.88/$3.51（约为 Opus 的 1/7） |
| 生态位 | 学术+政企双栖，清华班底，信创场景天然信任优势 |
| 里程碑 | 2026.6 市值一度破万亿港元，国产首次结构性涨价仍增长 400% |
| 短板 | 深度数理推理与 Claude 仍有明显代差 |

### Kimi/Moonshot — 「代码赛道精准切入」

| 项目 | 说明 |
|------|------|
| 旗舰 | K2.7 Code（1T 总参/32B 激活 MoE），强制思考模式 |
| 定价 | K2.6: $0.95/$4.00 |
| 生态位 | 垂直 Code 路线，推理 token 降 30% |
| 风险 | 赛道窄，品牌声量有限 |

---

## 三、定价全景（美元/百万 tokens）

| 模型 | 输入 | 输出 | 相当于 Opus |
|------|------|------|-----------|
| Claude Fable 5 | $10 | $50 | 2× |
| Claude Opus 4.8 | $5 | $25 | 基准 |
| GPT-5.5 xhigh | $5 | $30 | 1.2× |
| Claude Sonnet 4.6 | $3 | $15 | 0.6× |
| GLM-5.2 | $0.88 | $3.51 | **1/7** |
| Kimi K2.6 | $0.95 | $4.00 | 1/6 |
| DeepSeek V4 Pro | $0.43 | $0.87 | **1/29** |
| DeepSeek V4 Flash | $0.14 | $0.28 | **1/89** |

---

## 四、生态位三维地图

### 三条赛道

| 赛道 | 代表 | 核心逻辑 |
|------|------|---------|
| 性能溢价 | Anthropic、OpenAI | 做最好的、卖最贵的，吃高端市场 |
| 性价比破局 | DeepSeek、GLM、Kimi | 性能追到 90%，价格降到 1/5，开源抢生态 |
| 场景落地 | Google、豆包/字节 | 不靠 API 赚钱，靠 AI 赋能已有产品矩阵 |

### 36kr 判断：只有两种模型能活

> 「要么足够出色，要么非常便宜。DeepSeek 是那条生死线。」

比 DeepSeek 贵但没有明显更强的，中间地带越来越难活。

---

## 五、AA 智能指数简介

- **全称**：Artificial Analysis Intelligence Index v4.0
- **机构**：Artificial Analysis，2023 年在美国成立，独立第三方
- **评测维度**：10 项基准（GDPval-AA 智能体任务、Terminal-Bench 编程、GPQA Diamond 科学推理、SciCode、长上下文推理、幻觉检测等）
- **评测方式**：自注册各平台账号，以普通用户身份跑测试，防厂商开小灶
- **当前模型数**：216 个
- **争议**：方法论不稳定（排名剧烈变动）、AA-Omniscience 幻觉率权重争议、已下线模型仍上榜

**对比 LMArena**：LMArena 是用户盲测投票（主观偏好），AA 指数是标准化自动化评测（客观能力）。两者互补。

---

## 六、与已学知识的串联

- **MoE 架构** → DeepSeek V4 / GLM-5.2 / Kimi K2.7 均采用
- **KV Cache** → DSpark 加速框架通过缓存优化实现速度提升 60-85%
- **Scaling Law** → GPT-5.5 按推理深度分级定价（low→xhigh），本质是推理时 Scaling
- **上下文窗口** → GLM-5.2 支持 1M tokens，对长文档 Agent 任务至关重要
- **Agent 设计模式** → Anthropic 的 Orchestrator-Workers 模式在后端广泛使用


---

## 七、编程工具生态（2026.06 社区实测）

> 归档：2026-06-30 · 更新：同日 23:24 · 来源：掘金/V2EX/Reddit/HN/独立评测博客，筛除 CSDN/51CTO/转载

### 四工具定位

| 工具 | 形态 | 底层模型 | 月费（个人） | 一句话 |
|------|------|---------|------------|--------|
| **Cursor** | AI-native IDE（VS Code fork） | 多模型切换（Claude/GPT/Gemini） | $20 Pro | 日常全能，但 Free Plan 限制自定义模型名 |
| **Claude Code** | 终端 CLI Agent | Claude 系列 / 对接 Anthropic 兼容端点 | $20 Pro 起 | 重活最强，DeepSeek 可直连零 bridge |
| **Codex CLI** | 终端 CLI Agent（开源 Apache-2.0） | GPT 系列 / 需 bridge 才能接 DeepSeek | $20 Plus 起 | 终端自动化最强，OS 级沙箱最安全 |
| **GitHub Copilot** | IDE 插件 + 云端 Agent | 多模型（Codex/GPT/Claude/Gemini） | $10 起 | 生态最广，性价比在下降 |

### 四工具深度对比

#### 基准数据（2026.06）

| 基准 | Codex CLI 最高 | Claude Code 最高 |
|------|---------------|----------------|
| SWE-bench Verified | GPT-5.3-Codex ~85% | Opus 4.7 87.6% |
| Terminal-Bench 2.0 | 83.4%（GPT-5.5-Codex） | 65.4% |
| Token 效率（同一任务消耗比） | 1× 基准 | 4× Codex |
| 上下文窗口 | 200-400K（利用率高） | 1M（利用率低） |

#### 上下文工程（CE）策略差异

| | Codex CLI | Claude Code |
|---|---|---|
| 压缩方式 | 两层：Session Memory（免调 LLM）+ 服务端 AES 加密 blob | 单层：调 LLM 生成透明文本摘要 |
| 触发时机 | `(窗口 - 20K) - 13K`，约 167K 触发 | 窗口快满时 |
| 压缩后行为 | 自动重读最近 5 个文件（~50K token） | 注入摘要文本 |
| 额外优化 | 按 Agent 角色分词、共享上下文去重、每次行动前重算片段相关性 | 无 |
| 核心哲学 | **精密管理，垃圾不进门** | **大碗装，靠容量硬扛** |

> 实战数据（重构同一 Python 项目 50 文件）：Codex 640K token、漏 2 文件、0 幻觉；Claude Code 1.2M token、漏 12 文件、8 处幻觉。Codex 小窗口高利用率完胜。

#### 安全模型

| | Codex CLI | Claude Code |
|---|---|---|
| 隔离级别 | OS 内核级（macOS Seatbelt / Linux Landlock） | 无，直接跑在用户终端 |
| 风险 | AI 被限制，想乱来也动不了 | `rm -rf` 无保护，一条命令可炸 |

### 2026.06.30 更新结论

- **Cursor** — Free Plan 对国产模型不友好（Named models unavailable），新版 Agent UI 隐藏了传统 VS Code 扩展入口。如果愿意付费 $20 Pro，仍是日常主力首选。
- **Claude Code** — DeepSeek 官方 Anthropic 端点直连后，限流问题消失（不走 Anthropic 官方）。重活利器 + 便宜后端 = 可当日用主力。
- **Codex CLI** — 终端自动化和安全性断层第一，但接 DeepSeek 需 bridge 协议转换（codex-bridge / CC Switch / Moark），增加维护负担。如果不介意只走 OpenAI 官方模型，是最佳终端 Agent。
- **Copilot** — 1500 万月活、SOC 2 合规、GitHub 原生集成，企业端仍是王者。但六月换 token 计费后个人性价比大幅下降。

### AGENTS.md / CLAUDE.md 标准

- **AGENTS.md**：跨工具项目指令标准（Linux Foundation Agentic AI Foundation 托管），Codex CLI / Cursor / Gemini CLI / Copilot 原生支持。写项目规则（"这个项目用 pnpm、别用 npm"），AI 读。
- **CLAUDE.md**：Claude Code 专属等价物，功能相同。Claude Code 不原生支持 AGENTS.md，变通方案：`ln -s AGENTS.md CLAUDE.md` 或 `@AGENTS.md`。
- 与扣子 Skill 的区别：AGENTS.md 是项目说明书（教 AI 怎么做事），Skill 是能力插件（给 AI 装新本事）。

### 个人最终方案（2026-06-30）

```
WSL2 Ubuntu → Claude Code CLI → DeepSeek V4 Pro（Anthropic 兼容端点直连）
```

放弃 Cursor（Free Plan 限制 + 无中文界面）和 Codex CLI（需 bridge），一个工具到底。