# AI 词汇表（速查版）

> **创建**：2026-06-13 · **维护者**：扣子
> **主用户**：大扣子 · **目标**：3-5 年长线 → 找 AI 应用相关工作
> **范围**：从历次对话中实际出现过的 AI 词汇汇总，方便查询
> **维护规则**：由 MEMORY.md 驱动，我主动识别新词汇并更新

---

## 📖 目录

1. [核心 AI 概念](#1-核心-ai-概念)
2. [Prompt 与上下文工程](#2-prompt-与上下文工程)
3. [Agent 与多 Agent](#3-agent-与多-agent)
4. [大模型 & 模型家族](#4-大模型--模型家族)
5. [协议 / 接口 / 工程](#5-协议--接口--工程)
6. [平台 & 服务](#6-平台--服务)
7. [知识管理与记忆](#7-知识管理与记忆)
8. [AI 安全 & 伦理](#8-ai-安全--伦理)
9. [人物 & 机构 & 信息源](#9-人物--机构--信息源)
10. [当前项目沉淀的 AI 概念](#10-当前项目沉淀的-ai-概念)
11. [AI 硬件 & 芯片架构](#11-ai-硬件--芯片架构)
12. [AI 工程实践与负债](#12-ai-工程实践与负债)

---

## 1. 核心 AI 概念

| 术语 | 英文 | 一句话解释 |
|---|---|---|
| AI | Artificial Intelligence | 人工智能，泛指让机器模拟人类智能行为的技术 |
| AGI | Artificial General Intelligence | 通用人工智能，能像人一样跨领域思考的 AI（还没实现） |
| LLM | Large Language Model | 大语言模型，通过海量文本训练的语言生成模型（Claude/GPT/豆包都属此类） |
| Token | Token | 模型处理文本的最小单位，1 个 token ≈ 0.7 个英文单词 ≈ 1-2 个中文字，按 token 收费 |
| 多模态 | Multimodal | 模型能同时处理文本/图片/音频/视频多种输入输出 |
| 幻觉 | Hallucination | 模型一本正经胡说八道，生成看似合理但实际错误的内容 |
| **幻觉率** | Hallucination Rate | 答案中无依据内容的比例；RAG 中幻觉率 = 1 - Faithfulness，生产目标 ≤ 5% |
| **Answer Correctness** | Answer Correctness | RAGAS 指标；有标准答案时直接对比（F1/BLEU），无标准答案时 LLM-as-Judge 综合打分；Faithfulness→Relevance→Correctness 三者递进 |
| **Cross-Encoder** | Cross-Encoder | 交叉编码器；同时输入 query+document 计算相关性分数的模型，精度高于双塔 Bi-Encoder 但速度慢；常用于 RAG 重排序阶段 |
| **Reranker** | Reranker | 重排序器；RAG 第二阶段模型——从粗筛结果中精选最相关文档重排，代表方案：Cross-Encoder / LLM-based Reranker |
| **两阶段检索** | Two-stage Retrieval | 粗排（Bi-Encoder 海选 Top-100）+ 精排（Cross-Encoder Rerank → Top-5）的 RAG 标准架构；用 20× 时间换接近 Cross-Encoder 精度 |
| **MarginRankingLoss** | MarginRankingLoss | Cross-Encoder 主流训练损失；目标不是正样本分最高，而是正样本排在负样本前面：L = max(0, margin - s(q,c⁺) + s(q,c⁻)) |
| **LLM-as-Reranker** | LLM-as-Reranker | 直接用大模型做重排序的流派；精度 90-97% 但慢且贵；适合离线评测和冷启动，不适合高吞吐线上 |
| **RAGAS** | RAGAS | RAG 评估框架（arXiv:2309.15217）；三个核心指标：Faithfulness（忠实度/幻觉检测）、Answer Relevance（扣题度）、Answer Correctness（正确性） |
| **Recall@K** | Recall@K | 检索召回率指标；Top-K 中相关文档数 / 全部相关文档数——测"找全了吗"，不关心排序 |
| **Precision@K** | Precision@K | 检索精确率指标；Top-K 中相关文档数 / K——测"找对了吗"，不关心召回全不全 |
| **MRR** | Mean Reciprocal Rank | 平均倒数排名；第一个正确答案排名的倒数的平均值——排第 1 得 1.0、排第 3 得 0.33、排第 10 得 0.1 |
| **NDCG** | Normalized Discounted Cumulative Gain | 归一化折损累积增益；CG→DCG（位置折损 log₂(i+1)）→IDCG（理想排序）→ NDCG=DCG/IDCG；测整体排序质量，需相关性分级 |
| **Hit Rate** | Hit Rate | 命中率；至少召回 1 条相关文档的查询占比——最宽容的检索指标，"有一条算赢" |
| **Faithfulness** | Faithfulness | RAGAS 核心指标；答案中有依据的声明数 / 总声明数——检测幻觉的命脉；幻觉率 = 1 - Faithfulness |
| **Answer Relevance** | Answer Relevance | RAGAS 指标；用 LLM 反生成问题再与原问题比相似度——测答案是否扣题 |
| **LLM-as-Judge** | LLM-as-Judge | 用大模型当裁判评估输出质量；无 ground truth 时的主流评估手段，RAGAS 的 Correctness 和 Relevance 都靠它 |
| **Golden Dataset** | Golden Dataset | 人工标注的标准评测集（50-100 条 query + ideal_docs + ground_truth）；RAG CI 集成和离线评估的基石 |
| 上下文窗口 | Context Window | 模型一次能"看到"的最大文本量（如 Claude 200K、GPT 4.5 是 1M）；是模型的硬件级约束（"锅有多大"），与 Agent 上下文输入（"锅里装什么"）是两个层面 |
| 推理 | Inference | 模型根据输入产生输出的过程；"推理"也指模型"思考后再答"的能力（如 o1/o3） |
| 训练 | Training | 用数据让模型学知识；用户用不到，是厂商的事 |
| 微调 | Fine-tuning | 在预训练模型基础上用特定数据再训练，让模型更懂某个领域 |
| Embedding | 向量化 | 把文字转成一串数字（向量），让语义相似的文字距离近，是 RAG 基础 |
| BM25 | — | 关键词检索算法，TF-IDF 进化版；通过词频+稀有度加权寻找精确匹配，速度快、可解释性强，但存在同义词盲区 |
| 向量检索 | Vector Search | 语义检索方式；将文本转为向量后用余弦相似度找"语义相近"的文档，擅长同义表达和模糊描述，但精确匹配弱 |
| 混合检索 | Hybrid Search | BM25 + 向量检索结合，用 RRF 加权合并排名；取两者之长，是企业级 RAG 生产默认配置 |
| RRF | Reciprocal Rank Fusion | 排名融合算法；把两套检索结果的排名按倒数加权合并，是混合检索的"胶水" |
| NCE | Noise Contrastive Estimation, 噪声对比估计 | InfoNCE 的前身；核心思想：把概率密度估计转化为「区分真实数据 vs 噪声」的二分类问题，避开配分函数 Z(θ) 的直接计算；k→∞ 时收敛到真实最大似然估计；InfoNCE 在其基础上引入互信息视角 + 温度τ |
| InfoNCE Loss | InfoNCE Loss | 对比学习经典损失函数；目标是在 N 个样本中让正样本对得分最高（即"从噪声中识别正样本"），Embedding 模型训练的核心目标函数 |
| 对比学习 | Contrastive Learning | Embedding 模型训练范式；核心思路是"拉近相似样本、推远不相似样本"（吸引-排斥），三元组/InfoNCE 都是对比学习的实现 |
| 硬负样本 | Hard Negative | 训练技巧；指与正样本相似但类别不同的负样本（最难区分的样本），挖这类样本能大幅提升 Embedding 模型判别能力 |
| 消融实验 | Ablation Study | ML/AI 领域核心验证方法；逐步移除模型某个组件/参数，观察性能变化，以证明该组件的独立贡献。论文中常用于支撑"这个设计是有效的" |
| 参数反演 | Parameter Inversion | 通过观测数据反向推断模型参数的方法；例如用电商公开数据反推 Swarmalator 模型的社交影响强度 λ 和偏好阈值 d₀ |
| **Chunking** | 分块策略 | RAG 检索前把文档切成小块（chunk）；chunk 大小是召回精度与上下文完整的双轴 trade-off；业界默认 512 tokens（段落级）；**关键反直觉**：chunk 越大 embedding 越稀释，召回反而可能变差 |
| **Overlap** | 重叠窗口 | 相邻 chunk 之间保留重叠区域的策略；解决"主题被拦腰切断"的召回质量下降；经验值 chunk 的 10-20%（512 对应 50-100 tokens overlap）；代价是 chunk 总数膨胀 ~10-25% |
| **主题稀释** | Topic Dilution | 大 chunk 嵌入向量的"平均效应"——多主题段落平均后各主题信号都变弱，跟 query 相似度反而下降；是"chunk 越大越好"的认知陷阱 |
| **递归切分** | Recursive Split | 按分隔符优先级逐级 fallback 的切分方式（段落→句子→字符）；RecursiveCharacterTextSplitter 是 LangChain 默认实现，90% RAG 场景够用 |
| **语义切分** | Semantic Chunking | 按 Embedding 距离断句的高级切分方式；比递归切分更智能但需要额外模型，慢且贵 |
| **结构切分** | Structural Chunking | 按文档结构（h1/h2/code block/表格边界）切分；最精确但只适用结构化文档 |
| **Bi-Encoder** | Bi-Encoder / 双塔模型 | Query 和 Document 独立编码后再算相似度的模型架构；检索阶段用，速度快但精度中等（60-70%） |
| **RAG** | Retrieval-Augmented Generation | 检索增强生成；在 LLM 生成答案前先从外部知识库检索相关内容注入 prompt，解决模型知识过时/幻觉/私有数据三个核心问题 |
| **SBI 评分** | SBI Score | 虾评技能评测体系：SBI = Situation-Behavior-Impact 结构化评分，十分制，需 ≥ 2.0 转正；转正门槛：≥ 20 条双跑评测 + SBI ≥ 2.0 |
| Kuramoto 模型 | Kuramoto Model | 耦合振子同步的经典数学模型；描述大量振子通过相位耦合自发同步的现象，是 Swarmalator 等群体动力学模型的理论基础 |
| **Transformer** | Transformer | 2017 年 Google 论文《Attention Is All You Need》提出的神经网络架构；当前所有大语言模型（GPT/Claude/Gemini/DeepSeek）的底层基础；**核心创新**：用 Self-Attention 完全替代 RNN 的循环结构，实现**并行训练 + 长距离依赖 + 可扩展**三大突破 |
| **注意力** | Attention | 神经网络让模型"在处理某个位置时，对其他位置加权关注"的核心机制；权重越高关注越多；类比"派对里听到有人喊自己名字会立刻转头" |
| **自注意力** | Self-Attention | Attention 的"内部"版本；序列内每个位置都和其他所有位置计算相关性，捕捉**长距离依赖**；Transformer 的核心计算单元 |
| **Q / K / V** | Query / Key / Value | Self-Attention 的三个核心向量；Q="我在找什么"、K="我是什么"、V="我的实际内容"；用 Q·K^T 计算权重，再乘 V 得到加权输出 |
| **缩放点积注意力** | Scaled Dot-Product Attention | Transformer 论文 §3.2.1 核心公式；Attention(Q,K,V) = softmax(QK^T / √d_k) V；除以 √d_k 是为防止 d_k 太大时点积方差过大、softmax 进入梯度极小区域 |
| **多头注意力** | Multi-Head Attention | 把 Q/K/V 投影到多组子空间并行计算 Attention；每组关注不同位置/语义维度，最后拼接融合；让模型"同时从多个角度看相关性" |
| **编码器** | Encoder | Transformer 的"理解"模块；堆叠 N 层（论文 N=6），每层含 Self-Attention + FFN；输入→上下文表示；BERT 是纯 Encoder |
| **解码器** | Decoder | Transformer 的"生成"模块；同样 N 层，但有 Masked Self-Attention（不能看未来）+ Encoder-Decoder 交叉注意力；GPT/DeepSeek 是纯 Decoder |
| **交叉注意力** | Cross-Attention | Encoder-Decoder 之间的注意力；Q 来自 Decoder，K、V 来自 Encoder 输出；让"生成"在每一步都能"回头看"输入的哪些部分 |
| **残差连接** | Residual Connection | 深层网络的"高速公路"；output = x + Sublayer(x)；原始信号直达深层，避免梯度消失；Transformer/ResNet 都靠它训深网络 |
| **层归一化** | LayerNorm | Transformer 每个子层后的归一化操作；对单样本所有特征维度做归一化，让训练更稳定；与 BatchNorm 的"跨样本"形成对比 |
| **位置编码** | Positional Encoding | Self-Attention 无序列概念，用 sin/cos 给每个位置打多频段指纹；核心性质：PE(pos+k) 可通过 PE(pos) 的旋转矩阵变换得到，模型学到的是**相对位置**而非绝对位置；RoPE 由此演化而来 |
| **KV Cache** | KV Cache | Transformer 推理加速核心技巧；自回归生成时把已生成 token 的 K、V 矩阵存起来复用，避免每步重算前文所有 token；显存换时间，是长上下文 LLM 推理标配 |
| **缓存命中** | Cache Hit | 缓存系统术语；查询的数据已在缓存中，直接返回（快）；RAG 语义缓存、KV Cache 命中时都属此类 |
| **缓存未命中** | Cache Miss | 缓存系统术语；查询的数据不在缓存中，需重新计算/获取（慢）；RAG 中需重新走检索流程 |
| **自回归生成** | Autoregressive Generation | LLM 生成文本的标准方式；逐 token 生成，每个新 token 都基于前文已生成的 token；Masked Self-Attention 就是为它设计——生成 token i 时遮住位置 ≥ i |
| **前馈网络** | Feed-Forward Network, FFN | Transformer 每个 block 的第二子层；position-wise（每个位置独立）两层全连接 + ReLU；为 Attention 提供"思考空间" |
| **梯度** | Gradient | 多变量函数对每个变量的偏导数组成的向量；指向函数值增长最快的方向；神经网络通过**梯度下降**沿负梯度方向更新参数，逐步逼近最优解 |
| **Softmax 函数** | Softmax | 把任意实数向量映射为概率分布：softmax(z)ᵢ = e^zᵢ / Σe^zⱼ；输出在 (0,1) 且和为 1；Transformer 中把 QK^T 分数转成注意力权重 |
| **温度参数** | Temperature τ | Softmax 的调节旋钮：softmax(z/τ)；τ→0 → one-hot（更确定），τ→∞ → 均匀（更多样）；Attention 中 τ=√d_k 即缩放因子 |
| **Label Smoothing** | Label Smoothing | 正则化技巧；训练时不把正确标签设成 1、错误设 0，而是给错误标签也分一点概率（如 0.1）；防止模型过度自信，提升泛化 |
| **Adam / Warmup** | Adam + LR Warmup | Adam = 自适应学习率优化器（动量 + 自适应步长）；Warmup = 训练初期学习率从 0 线性增到目标值，避免初期不稳定；Transformer 论文标配 |
| **Decoder-only** | Decoder-only | 只用 Transformer Decoder 的架构（去掉 Encoder 和 Cross-Attention）；GPT/DeepSeek/LLaMA 都属此类；通过因果注意力做 Next Token Prediction |
| **因果注意力** | Causal Attention | 即 Masked Self-Attention；token i 只看位置 < i，不能看未来；保证自回归生成的因果性——前文决定后文，后文不泄露给前文 |
| **Next Token Prediction** | Next Token Prediction | Decoder-only 模型的训练目标；给定前文预测下一个 token；看似简单，但在大规模数据上足以驱动语言理解/推理能力涌现 |
| **Prefill / Decode** | Prefill / Decode | LLM 推理两阶段：Prefill = 一次性并行处理整个输入 prompt（生成 KV Cache）；Decode = 逐 token 自回归生成（复用 KV Cache）|
| **显存** | VRAM | 显卡专用内存；GPU 计算时临时存储模型参数/KV Cache/中间激活；大模型推理的关键瓶颈（如 80GB A100 只能放下 ~13B 参数的 FP16 模型）|
| **RoPE** | Rotary Position Embedding | 旋转位置编码；把位置信息通过旋转矩阵直接作用在 Q 和 K 上，让 Attention 天然感知**相对位置**而非绝对位置；LLaMA/DeepSeek/Qwen 等现代模型标配，灵感源自原始正弦编码的旋转性质 |
| **嵌入层权重共享** | Embedding Weight Sharing | Transformer 论文 §3.4 的工程优化；输入 Embedding、输出 Embedding、Pre-Softmax 线性层**三处共享同一个权重矩阵**（如 37000×512），省参数、保语义一致；GPT 系列等 Decoder-only 模型延续此设计；嵌入值乘 √d_model 以匹配 Positional Encoding 的尺度 |
| **验证差** | Verification Gap | Karpathy 框架核心概念；可验证任务（代码/数学，RL 覆盖区）与不可验证任务（审美/战略，无 feedback loop）之间的能力鸿沟；验证越便宜 AI 价值越大 |
| **RL 覆盖区** | RL Coverage Zone | 有明确标准答案、被强化学习反复打磨的任务地带（如代码生成、数学计算）；在此区域内 AI 能力极强，区域外则急剧下降 |
| **参差不齐的智能** | Jagged Intelligence | Karpathy 术语；AI 在可验证领域超强（十万行代码重构）但在常识判断上极其愚蠢（忘了门口有车）的不均衡现象 |
| **内生安全** | Intrinsic Safety | 与「外生安全」对立；先判断情境再生成内容——危险直接拒、矛盾说「不确定」、清晰才在安全边界内生成；是判断力的工程实现方向 |
| **外生安全** | Extrinsic Safety | 当前 AI 主流安全机制；模型自由发散生成后在输出口加滤网过滤——像给没刹车的车装海绵垫，天生可被绕过 |
| **验证优先方法论** | Verification-First | Karpathy 实操框架；引入 AI 的四步流程：拆解任务→找可验证环节→先写测试→再让 AI 接手；不可验证环节 AI 只给建议、人类拍板 |
| **验证环境** | Verification Environment | 决定 AI 应用护城河的基建层；如编程的 CI/CD、量化交易的回测引擎、翻译的术语库+人工审核——谁掌握验证谁就拥有训练 AI 的燃料 |
| **前向传播** | Forward Propagation | 神经网络的基本计算过程；输入数据从输入层逐层向输出层传递，每层做矩阵乘法+激活函数，最后得到预测输出；前向 FLOPs ≈ 2ND |
| **反向传播** | Backprop / Backward Propagation | 神经网络的梯度计算过程；从输出层反向逐层计算损失函数对每个参数的梯度，利用链式法则高效计算；反向 FLOPs ≈ 4ND（激活梯度 2ND + 参数梯度 2ND） |
| **FLOPs** | Floating Point Operations | 浮点运算次数；衡量模型训练/推理计算量的核心指标；一次矩阵乘法 (m×n)×(n×p) ≈ 2mnp FLOPs |
| **C≈6ND** | Compute ≈ 6 × N × D | Scaling Law 桥梁公式；训练总 FLOPs = 前向 2ND + 反向 4ND = 6ND（N=参数量, D=训练 token 数）；GPT-3 175B 实测验证数量级吻合 |
| **Scaling Law（缩放定律）** | Scaling Law | 模型性能(Loss)与参数量(N)/数据量(D)/算力(C)之间的幂律关系：L(x)=(x_c/x)^α+L_∞；是经验规律而非数学定理，Kaplan 和 Chinchilla 两派对 α 和 D/N 最优比有显著分歧 |
| **Kaplan Scaling Law** | Kaplan (OpenAI, 2020) | 早期 Scaling Law；结论 α_N≈0.076, N_opt∝C^0.73, D/N≈1.7——大模型比大数据更划算；缺陷：实验规模≤1B、不含 Embedding 参数、大模型训练不充分 |
| **Chinchilla Scaling Law** | Chinchilla (DeepMind, 2022) | 训练最优 Scaling Law；结论 α_N≈0.34, N_opt∝C^0.50, D/N≈20——模型和数据等比例增长；实验规模达 16B、含全部参数、训到收敛；工业界更接近此派 |
| **L_∞（不可约噪声）** | Irreducible Loss | Scaling Law 公式中的常数项；即使无限增加资源也无法消除的最低 Loss，源于数据本身的噪声和任务固有的不确定性 |
| **密度法则** | Density Law | 同等能力的模型参数随时间减少的规律；GPT-3 175B(2020) ≈ GPT-3.5 Turbo ~20B(2023) 的核心能力；推理成本因此指数级下降 |
| **推理时 Scaling** | Inference-time Scaling | 不改模型参数，在回答时花更多算力"多想"；三大类方法：顺序(长CoT/自我验证)、并行(多数投票/Best-of-N)、搜索(ToT/MCTS)；当前 o1/o3/DeepSeek-R1 的主战场 |
| **PRM** | Process Reward Model | 过程奖励模型；对推理链的每一步打分（而非只看最终结果），用于 Best-of-N 选优和树搜索剪枝；比 ORM 更细粒度但训练成本高 |
| **ORM** | Outcome Reward Model | 结果奖励模型；只对最终答案打分；训练简单但无法区分"蒙对的"和"真懂的" |
| **多数投票** | Majority Voting | 并行推理时 Scaling 方法；生成 N 条独立回答→投票选出现最多的答案；简单粗暴但有效，N=40 时效果趋于饱和 |
| **Best-of-N** | Best-of-N Sampling | 并行推理时 Scaling 方法；生成 N 条候选→用奖励模型(PRM/ORM/Judge)选最优；反直觉发现：候选池越大验证越准——因为"验证比生成容易" |
| **自我验证** | Self-Verification | 顺序推理时 Scaling 方法；模型生成答案后自我检查并修正；额外 FLOPs 约 2-4× |
| **ToT** | Tree of Thoughts | 树状思维搜索；把推理过程展开为树结构，多个分支并行探索+评估+剪枝；比 CoT 线性链更全面但开销大（10-100× FLOPs） |
| **MCTS** | Monte Carlo Tree Search | 蒙特卡洛树搜索；AlphaGo 核心技术，在推理时 Scaling 中用于探索最优推理路径；四步循环：选择→扩展→模拟→回传 |
| **束搜索** | Beam Search | 限定宽度的搜索策略；每步保留 top-K 候选路径而非只保留一条；配合 PRM 评分可高效剪枝，开销约 5-20× |
| **Few-shot** | Few-shot Learning | 给模型 2-5 个示例再提问；价值是校准输出分布（锚定"好输出"的标准）而非仅示范格式 |
| **Zero-shot** | Zero-shot | 不给示例直接提问；适用简单/通用任务；Token 消耗低但格式控制弱 |
| **幂律** | Power Law | 数学关系形式 y=k·x^α；Scaling Law 的核心数学形式——Loss 与资源量的 α 次幂成反比；α 越小边际收益递减越快 |
| **预训练 Scaling** | Pre-training Scaling | Scaling 三层接力第一层；扩大预训练模型规模+数据量；当前受互联网文本数据墙限制 |
| **后训练 Scaling** | Post-training Scaling | Scaling 三层接力第二层；通过 RLHF/DPO 等微调提升模型能力；增长空间大但非幂律关系 |
| **奖励模型** | Reward Model | RLHF 的核心组件；给模型输出打分以指导强化学习；PRM（过程级）和 ORM（结果级）是两种粒度 |
| **AA 智能指数** | Artificial Analysis Intelligence Index | 独立评测机构 Artificial Analysis 的模型综合能力排名（v4.0）；聚合 10 项评测基准（GDPval-AA/Terminal-Bench/GPQA Diamond 等），从数学/科学/编程/推理多维度评估 216 个模型；当前榜首 Claude Fable 5（60 分） |
| **ECI** | Epoch AI Capability Index | Epoch.ai 的 AI 能力指数；2026 年头部模型集中在 150-160 分，增速趋缓，中美差距缩小 |
| **ITBench-AA** | ITBench-AA | Artificial Analysis 联合 IBM 发布的企业级 AI Agent 评测基准；模拟 SRE/安全/云成本三类真实运维场景，当前最强模型也不到 50 分 |
| **FrontierSWE** | FrontierSWE | 长周期复杂软件工程任务评测基准；GLM-5.2 Max 44%、Opus 4.8 Max 59%、GPT-5.5 xhigh 67% |
| **Code Arena** | Code Arena | 大模型盲测平台竞技场的编程评估系统；GLM-5.2 得分 1595（全球第二，仅次于 Fable 5 的 1654） |

## 2. Prompt 与上下文工程

| 术语 | 英文 | 一句话解释 |
|---|---|---|
| Prompt | Prompt | 你发给模型的指令/问题/上下文 |
| Prompt Engineering | 提示词工程 | 写好 prompt 的方法论（角色/示例/思维链/约束） |
| 思维链 | Chain of Thought, CoT | 让模型"一步步想"再答，提升复杂推理准确率 |
| ReAct | Reasoning + Acting | 让模型边想边调工具的范式（Reason → Act → Observe 循环） |
| **上下文工程** | **Context Engineering, CE** | **比 prompt engineering 更上一层：系统性管理模型"看到的所有信息"**（核心主线） |
| Goldilocks Zone | 金发姑娘原则 | 上下文**不长不短**的甜蜜区——太短信息不够，太长注意力分散 |
| Lost in the Middle | 中间迷失 | 模型对长上下文的**中间部分**关注度下降，首尾最强 |
| 上下文压缩 | Compaction | 上下文快满时把历史对话"压缩"成摘要腾出空间；扣子实现：对话过长自动触发→生成 summary→旧对话细节丢失（如具体措辞），是记忆分层设计的根因 |
| **三种任务策略** | Task Strategy Triage | CE 实操方法论：一次性完成（输入输出明确的任务）vs 分步迭代（需纠偏的创意任务，每步确认）vs 拆成独立子任务（复杂任务各 session 互不污染，与上下文隔离同源） |
| 上下文窗口 vs Agent 上下文输入 | Context Window vs Agent Input | 窗口=模型"锅"的容量（硬件约束，如 128K/200K/1M），Agent 上下文="锅里装什么"（系统精选：system prompt + 记忆 + 对话历史 + 工具结果 + 当前消息） |
| **窗口日志** | **Window Log** | Agent 工作日志核心概念；每次上下文压缩后，基于系统 `<summary>` 提炼一个"窗口"的对话摘要归档到 `windows/YYYY-MM-DD/W{N}-{主题}.md` |
| **索引先行** | **Index-First Retrieval** | 工作日志回溯策略；查询历史必须先从 `index.json` 的摘要匹配窗口，再按需加载具体文件，禁止一次性扫所有窗口 |
| **标签约定** | Tag Convention | 工作日志维护策略；所有关联检查项和规则打 `[agent-work-log]` 前缀，搜此标签即可统一定位/更新/删除 |
| 结构化笔记 | Structured Note-taking | 把信息写成"带标题/表格/锚点 emoji"的结构，让模型更好定位 |
| 子 Agent 架构 | Sub-agent Architecture | 派子 Agent 出去干活，主 Agent 只看子 Agent 总结，**减少主上下文压力** |
| 主动策展 | Active Curation | Agent 自己决定"什么信息进上下文、什么不进"（vs 被动塞所有） |
| 自优化策展 | Self-optimizing Curation | Agent 不只策展，还**自己优化策展策略**（meta-prompt / 元学习） |
| 元策展 | Meta-Curation | "策展的策展"——决定"用什么策展策略"的层级 |
| 策展 | Curation | 从大量信息中**挑选、重组、浓缩**为有用上下文的过程（"裁剪"/"拣选"都接近） |
| **PE→CE 范式升级** | PE→CE Paradigm Shift | 从「写好指令」到「管好模型看到的所有信息」的范式跃迁；PE 管一句话，CE 管一整套信息环境 |
| **Karpathy CPU/RAM 类比** | Karpathy's Analogy | 上下文窗口=CPU 寄存器（极快极小）、工作记忆=RAM（当前任务）、长期记忆=硬盘（持久存储）；CE 核心问题是「什么时候把什么记忆换进寄存器」 |
| **上下文九种成分** | 9 Context Components | System Prompt / 工具定义 / 对话历史 / 检索结果 / 用户消息 / 记忆 / Few-shot 示例 / 元指令 / 环境信息 |
| **70% 失败来自上下文** | 70% Context Failures | 行业观察：约 70% Agent 生产故障根因不在模型能力，而在上下文管理（信息不足/过时/矛盾/过多） |
| **注意力稀释** | Attention Dilution | 上下文越长，每个 token 平均分到的注意力越少；超阈值后增加上下文反而降低性能——信噪比崩了 |
| **上下文中毒** | Context Poisoning | CE 四种致命失败模式之一；错误信息进入上下文后 Agent 在其上继续推理，错误滚雪球放大且最难察觉 |
| **上下文分心** | Context Distraction | CE 四种致命失败模式之一；过多历史让 Agent 过度依赖过去行为模式，无法针对当前问题新鲜推理 |
| **上下文混淆** | Context Confusion | CE 四种致命失败模式之一；多来源信息矛盾（RAG 文档 vs system prompt），行为不可预测 |
| **上下文过时** | Context Staleness | CE 四种致命失败模式之一；早期信息过时但模型无内置过期检测，如冰箱里的过期食品 |
| **六大策略** | Six CE Strategies | CE 管理策略集：渐进式披露 / 压缩 / 路由 / 检索 / 工具管理 / 记忆分层 |
| **渐进式披露** | Progressive Disclosure | 六大策略之一；不一次性塞所有信息，按需逐步展开——需要时再说而非一开始全摊开 |
| **上下文路由** | Context Routing | 六大策略之一；按任务类型路由到不同 Agent/上下文配置，避免一个上下文通吃 |
| **Write 操作** | Write | CE 四类原子操作：主动向上下文写入（system prompt、记忆注入、工具结果） |
| **Select 操作** | Select | CE 四类原子操作：从可用信息中选择哪些进入上下文（策展、过滤、排序） |
| **Compress 操作** | Compress | CE 四类原子操作：压缩上下文腾空间（摘要、Compaction、关键信息提取） |
| **Isolate 操作** | Isolate | CE 四类原子操作：隔离不同任务上下文防污染（子 Agent、沙箱、独立 session） |
| **ACE** | Autonomous Context Evolution | 自进化上下文；Agent 自主观察使用模式→识别优化→自动调整策展策略，CE 第三范式前沿方向 |
| **GAM** | Just-in-Time Memory Compilation | JIT 记忆编译；类似 JIT 编译器，运行时按需从长期记忆编译最相关上下文而非预加载 |
| **SAC** | Selective Attention Compression | 选择性无损压缩；关键信息无损保留、冗余信息激进压缩，不同区域不同压缩策略 |
| **AGENTS.md** | AGENTS.md | Anthropic 的项目级 Agent 配置文件；定义项目规则/约束/偏好，面向 Agent 阅读和执行 |
| **三层加载策略** | Three-Tier Loading | 编程 Agent 上下文方案：AGENTS.md（项目级静态）→ CLAUDE.md（用户级静态）→ 动态规则（会话级运行时注入） |
| **Function Calling** | Function Calling | 让 LLM 输出结构化 JSON 参数来调用外部工具/API 的能力；OpenAI 2023 年 6 月推出，现已成为所有 LLM API 标配；是"模型能说话"到"模型能干活"的桥梁 |
| **Tool Use** | Tool Use | Anthropic 对 Function Calling 的叫法，语义等价 |
| **JSON Schema** | JSON Schema | Function Calling 中定义工具参数的格式规范；三核心字段：name（函数名）、description（功能描述）、parameters（参数定义，含 type/enum/required）；Schema 设计好坏直接决定工具调用成功率 |
| **Constrained Decoding** | 约束解码 | 在 token 生成阶段就把输出空间限制在符合 JSON Schema 的 token 上；将 JSON 解析失败率从传统 15-25% 降到 ~0%；OpenAI Structured Outputs 和 Anthropic tool_use 均内置此机制 |
| **tool_choice** | Tool Choice | 控制工具选择策略的参数：auto（模型自主决定）、required（必须调工具）、none（不调工具）、指定工具名 |
| **tool_calls** | Tool Calls | 模型 FC 响应格式；包含 id（调用 ID）、function.name（工具名）、function.arguments（JSON 参数）；支持并行多个 tool_call 同时发出 |
| **并行工具调用** | Parallel Function Calling | 多个互相独立的工具调用同时发出（如同时查天气+查股价），无需等待串行执行；通过 tool_call_id 绑定每次调用和结果 |
| **六大设计原则** | Six FC Design Principles | Function Calling 的 Schema 设计原则：① enum 约束优先 ② 描述里放示例 ③ 必选vs可选分明 ④ 避免深嵌套(≤2层) ⑤ 参数 5-8 个 ⑥ 类型精确不模糊 |

## 3. Agent 与多 Agent

| 术语 | 英文 | 一句话解释 |
|---|---|---|
| AI Agent | AI Agent | 能感知环境→自主决策→调用工具完成任务的 AI 实体（**核心主线**） |
| Function Calling | 函数调用 | 让模型输出结构化参数来调外部工具/API（OpenAI 2023 推出） |
| Tool Use | 工具使用 | 同上，是 Anthropic 叫法 |
| Agent 设计模式 | Agent Design Pattern | 业界沉淀的 Agent 套路：ReAct / Plan-Execute / Multi-Agent / 反思循环 |
| **Agent-Agnostic** | Agent-Agnostic | 编写 SKILL.md 时假设执行 Agent 不了解你的默认习惯；需明确声明修改边界、给文件路径三级容错、区分易混淆概念（如「改模板」≠「写 HTML」）；源自 fitness-buddy 跨 Agent 执行失败的实战教训 |
| ReAct | 见 §2 | 经典 Agent 范式之一 |
| Plan-Execute | 计划-执行 | 先让 Agent 列出完整计划，再逐步执行（适合复杂任务） |
| Multi-Agent | 多 Agent | 多个 Agent 分工协作（扣子项目里"创作 Agent + 法务 Agent + 视频 Agent"就是多 Agent） |
| 反思循环 | Reflection Loop | Agent 做完一步回头检查/纠错，再继续（self-critique） |
| 主动触达 | Proactive Outreach | Agent 主动找主人（不等主人发问），**找 AI 应用工作项目的核心能力** |
| 主动触达 5 步 | — | 事件分析 → 上下文匹配 → 影响评估 → 推送决策 → 格式（参考自"另一人"Agent） |
| 工具爆炸 | Tool Explosion | 一次塞给模型 11 个工具签名，模型选不对——Agent 时代新挑战 |
| 错误传播 | Error Propagation | 一个工具返回错信息，下游 Agent 基于错信息继续错的连锁反应 |
| 多轮一致性 | Multi-turn Consistency | 跨多轮对话保持人设/事实/偏好不漂移，是长上下文核心难题 |
| 范式 | Paradigm | 做事的方式/套路；Agent CE 范式分 3 层：按规则跑 / 自主策展 / 自优化策展 |
| 范式跃迁 | Paradigm Shift | 从旧范式跳到新范式（提示词→上下文工程就是一次跃迁） |
| **Sakana Fugu** | Sakana Fugu | Sakana AI 的多 Agent 编排系统（ICLR 2026）；不做新模型而是做「模型指挥家」——动态编排 GPT/Claude/Gemini 等最强模型协作，证明多个模型协同可超过任何单个模型 |
| **TRINITY** | TRINITY | Sakana Fugu 底层论文之一；轻量协调器给各模型分配 Thinker（思考）/ Worker（执行）/ Verifier（验证）角色，多轮接力完成复杂任务 |
| **Conductor** | Conductor | Sakana Fugu 底层论文之二；用强化学习自动发现最优 Agent 通信策略，不需要人手工设计工作流；代表 Agent 编排从"手动设计"到"自动发现"的范式升级 |
| **元调度** | Meta-Scheduling | PE→CE→自主CE→元调度进化链的终点；Agent 根据任务自动组装合适的即时层注入（SOUL+Skill+Memory），实现不同能力域的「热切换」，不再依赖用户手动指定技能 |
| **Prompt Chaining** | Prompt Chaining | Anthropic 五种 Workflow 之一；任务拆成固定步骤，每步依赖前一步输出，每步加护栏检查；例：翻译→润色→格式化 |
| **Routing** | Routing | Anthropic 五种 Workflow 之一；输入经分类器路由到专门 handler；例：客服退款/技术/投诉各走不同流程；分类准确率决定系统上限 |
| **Parallelization** | Parallelization | Anthropic 五种 Workflow 之一；拆成 N 个子任务同时跑；Sectioning（互不依赖）和 Voting（同任务多次取共识）两种形式 |
| **Orchestrator-Workers** | Orchestrator-Workers | Anthropic 五种 Workflow 之一；编排器动态拆任务→分配 Worker→合成结果；Anthropic 最推荐的实战模式；子任务不可预见时使用 |
| **Evaluator-Optimizer** | Evaluator-Optimizer | Anthropic 五种 Workflow 之一；生成→评估打分→不通过则改→再评循环；2-3 轮反思 ~20% 绝对提升，超 3 轮边际收益骤降 |
| **Workflow vs Agent** | Workflow vs Agent | Anthropic 的定义区分：Workflow=LLM+工具按预定义代码路径执行（路径是死的）；Agent=LLM 自主决定工具/顺序/何时停（路径是活的）；核心区分变量=决策权在哪 |
| **ACI** | Agent-Computer Interface | Agent-Computer Interface；工具定义写得如何直接决定 Agent 上限；Anthropic 三条核心原则之一——"精心设计 ACI" |
| **决策权移交** | Delegation of Decision Rights | Agent 本质的核心变量；普通 LLM 应用是人决定何时调工具、调哪个，Agent 是自己决定；没有决策权移交就不叫 Agent |
| **Agent 四层架构** | Four-Layer Agent Architecture | 扣子 Agent 现场拆解：①底层模型（推理）→②平台工具链（spawn/Calendar/search）→③记忆体系（即时/近中期/长期 CE）→④系统 Prompt（规则引擎 Router）；纯靠提示词的只有第④层 |
| **Agentic Coding** | Agentic Coding / 智能体编程 | AI 自主完成复杂编程任务的范式；不同于代码补全（Copilot），Agentic Coding 涉及全项目上下文理解、多文件修改、自动调试和测试；Anthropic 靠此占据企业编程 54% 份额 |
| **AI 生态位** | AI Ecological Niche | 各模型厂商在市场上的竞争定位；2026 年分化为三条赛道：性能溢价（Anthropic/OpenAI）、性价比破局（DeepSeek/GLM/Kimi）、场景落地（Google/豆包） |
| **模型分级路由** | Model Tiered Routing | 按任务复杂度将请求路由到不同成本档位模型：L1 顶级智力层（复杂推理/Opus）→ L2 日常生产力层（常规开发/Sonnet）→ L3 高频吞吐层（批量清洗/Flash）；在 5 亿 Token/月场景下可省 42 倍成本 |
| **Claude Code Sub-agent** | Claude Code Sub-agent / 子代理 | Claude Code 的 Agent 编排机制；Markdown 文件即 Agent（YAML 头控制元能力+正文控制行为逻辑），主 Claude 自动调度子代理执行独立任务，子代理拥有独立上下文窗口+受限工具权限（allowedTools），只传摘要回主会话。内建三个：Explore（Haiku/只读）、Plan（只读）、General-purpose（全工具）。区别于 Slash Command（手动触发、共享上下文）。编排规则写 CLAUDE.md，主 Claude 自动判断串行/并行派发 |

## 4. 大模型 & 模型家族

| 术语 | 一句话解释 / 备注 |
|---|---|
| **Claude** | Anthropic 出的模型家族，强项长上下文/代码/Agent |
| **Claude Code** | Anthropic 官方终端 CLI 编程 Agent；OAuth 登录走 Claude 订阅（Pro $20/月起），支持 Agent 自循环多文件修改、后台 Agent、1M token 上下文；限流严重（Pro 约 15-30 分钟耗尽），社区共识"重活利器，按需开用完关"；可通过 ccswitch 切换后端模型 |
| **ccswitch** | 社区维护的开源 CLI 工具；在 Claude Code 的终端界面下将 API 请求转发到指定模型供应商（如 DeepSeek V4）；解决 Claude Code 限流+高成本问题，仅文字任务，丢失多模态能力 |
| **Cursor** | 基于 VSCode 内核的 AI 原生 IDE，2025 D轮估值 $93 亿，AI IDE 市场第一，支持多行补全/行内编辑/Agent模式/全项目上下文，Pro $20/月，AI应用岗高频使用 |
| **GPT** | OpenAI 的模型家族（GPT-4 / GPT-4.5 / GPT-5） |
| **Gemini** | Google 的模型家族，强项多模态 |
| **Doubao / 豆包** | 字节跳动 AI 三层身份：① 豆包 App（产品/应用，日活 2 亿）② 豆包大模型/Seed 系列（底层模型，最新 2.1 Pro/Turbo，Coding+Agent 已合并进主模型）③ Agent 模式（6/24 上线「办公任务模式」，自主拆解任务+调用工具+交付成品）。2026-06-25 认知迭代 |
| **Kimi** | 月之暗面模型，长上下文见长 |
| **GLM** | 智谱 AI 模型（ChatGLM / GLM-4） |
| **DeepSeek** | 深度求索模型；2026-07-03 修正：API 仅有 2 个模型（V4 Flash + V4 Pro），上下文 1M，输出 384K，都支持思考模式（参数开关）。📌 不存在独立的 Think/Think Max 推理模型。V4 Pro 输入 ¥3/M 输出 ¥6/M，性价比极高。7月24日后旧名 `deepseek-chat`/`deepseek-reasoner` 弃用 |
| **MiniMax** | 我（扣子）底层模型代号 |
| **Seedance** | 火山引擎视频生成模型（Seedance 1.0/2.0） |
| **Opus / Sonnet / Haiku** | Anthropic 三档模型：Opus 强但贵，Sonnet 均衡，Haiku 便宜快 |
| Codex CLI | OpenAI 的代码 Agent CLI 工具 |
| 自定义模型 | 在扣子里接入第三方 API（如墨信online）当模型用 |
| **DSpark** | DeepSeek DSpark | DeepSeek 开源的大模型推理加速框架（MIT 协议）；采用半自回归生成 + 置信度调度验证，速度提升 60-85%；本质是对 KV Cache 和推理流程的系统级优化 |
| **MoE** | Mixture of Experts | 稀疏混合专家架构；模型由多个「专家」子网络组成，每次推理只激活部分专家（如 GLM-5.2 总参 744B/激活 ~40B），大幅降低推理成本 |
| **Claude Sonnet 5** | Claude Sonnet 5 | Anthropic 2026-06-30 发布的新一代 Sonnet；Agent 能力质变（Terminal-Bench 67%→80.4%），知识工作反超 Opus 4.8，Prompt 注入防御 50.7%→0.93%；Effort 五档取代 Extended Thinking；⚠️ 新 Tokenizer 多切~30% token（隐性成本），首发 $2/$10（至 8.31），之后 $3/$15 |
| **Adaptive Thinking** | Adaptive Thinking | Anthropic 模型的默认思考机制；不传 thinking 参数时模型自动判断任务复杂度并动态分配思考预算——简单问题几乎不思考，复杂推理自动加深。扣子平台调用 Claude 时走此模式（「自动挡」），无法手动干预 |
| **DeepSeek 思考模式** | DeepSeek Thinking Mode | DeepSeek V4 Flash/Pro 内建的推理模式开关；通过 `thinking: {"type":"enabled"}` + `reasoning_effort` 参数控制。默认开启，不传参数即走思考模式（额外消耗推理 token 但计费）。`reasoning_effort` 映射：low/medium→high，xhigh→max。📌 2026-07-03 修正：不存在独立的 V4 Think/V4 Think Max 推理模型，推理是参数开关而非独立模型线 |

## 5. 协议 / 接口 / 工程

| 术语 | 英文 | 一句话解释 |
|---|---|---|
| **MCP** | **Model Context Protocol** | **AI 调用外部工具的统一接口标准（长连接常驻后台）；vs CLI：每次调用启动新进程用完即走，冷启动有延迟但无内存占用** |
| **MCP Host / Client / Server** | MCP Host / Client / Server | MCP 三层角色架构；Host=AI 应用（扣子/Cursor/Claude Desktop），Client=内部连接器（1:1 管 Server），Server=提供工具的外部进程；三者严格区分不可混淆 |
| **MCP Tools / Resources / Prompts** | MCP 三大 Server 原语 | 按控制方区分：Tools（模型控，FC 标准化包装）→ Resources（应用控，按需读取）→ Prompts（用户控，斜杠命令模板）；Tools 的 annotation 不可信，Host 负责获取用户同意 |
| **Streamable HTTP** | MCP Streamable HTTP | MCP 远程传输方式；POST JSON-RPC 到 `/mcp` 端点，可选 SSE 流式响应；飞猪/滴滴 MCP 即此方式；区别于 stdio 本地子进程模式 |
| **无状态 MCP** | Stateless MCP | 2026-07-28 RC 核心变化；取消 Session-Id 和 initialize 握手，请求自包含所有信息，任何 Server 实例都能处理；支持普通负载均衡，无需 sticky session |
| CLI | Command Line Interface | 命令行界面（概念）；Bash/CMD/PowerShell 都是 CLI 的具体实现；适合 AI Agent 批量自动化 |
| API | Application Programming Interface | 程序之间互相调用的接口 |
| API Key | API 密钥 | 调用 API 用的"密码"（**Key 安全硬规则：禁止出现在命令行**） |
| REST | RESTful API | 一种 API 设计风格（GET/POST/PUT/DELETE） |
| JSON | JavaScript Object Notation | 数据交换格式，API 返回值基本都是 JSON |
| HTTP | HyperText Transfer Protocol | 网页/接口的网络协议 |
| OAuth | Open Authorization | 第三方授权登录协议（扣子用 OAuth 接入飞书/微信） |
| **Vibe Coding** | — | **用自然语言对话让 AI 写代码**（扣子编程的核心定位） |
| Harness | 装备/工具链 | Agent 的"手脚"——技能、记忆、工具、调度能力统称 |
| Sandbox | 沙箱 | 隔离的运行环境（云电脑/扣子云端都是沙箱） |
| Docker | — | 容器化部署工具，AI 项目标配 |
| venv / conda | — | Python 虚拟环境管理工具 |
| Git | — | 代码版本控制 |
| TypeScript / JS | — | 现代 AI 前端应用的事实标准 |
| Python | — | AI 主流语言 |
| **数据结构** | Data Structure | 数据的组织方式（数组/链表/哈希表等）；数组是其中一种——有序元素用索引访问 |
| **数组** | Array | 通用数据结构，一串有序元素；Python list 是其动态实现；JSON 用 `[...]` 格式表示数组 |
| **Linux** | Linux | 开源操作系统，AI/服务器领域绝对主流；命令行驱动，区别于 Windows 的 GUI 驱动 |
| **Bash** | Bourne Again Shell | Linux/macOS 默认命令行 Shell；我在云端 Linux 沙箱中用它执行命令 |
| **CMD** | Command Prompt | Windows 自带命令行，功能弱于 PowerShell；与 Bash 都是 CLI 的具体实现 |
| **PowerShell** | PowerShell | Windows 现代命令行，微软力推；比 CMD 强大，支持脚本和管道 |
| **WSL2** | Windows Subsystem for Linux 2 | Windows 内置轻量级 Linux 虚拟机；Hyper-V 架构，秒级启动、动态内存分配、`/mnt/c/` 直通 Windows 磁盘；开发者跑 Linux CLI 工具（如 Claude Code）的首选方案 |
| **SDK** | Software Development Kit | 软件开发工具包——把底层 HTTP API 封装成高级语言函数，开发者只需调函数不用手写请求；如 `openai` Python 包封装了 OpenAI/DeepSeek 等 API 的 HTTP 调用。类比：API=电视信号接口，SDK=遥控器 |
| **extra_body** | extra_body (OpenAI SDK) | OpenAI SDK 的扩展参数入口；当第三方模型（如 DeepSeek）的专有参数（如 `thinking`）不被 SDK 原生识别时，只能通过 `extra_body={"thinking": {...}}` 传入。`reasoning_effort` 因 OpenAI 自己也支持，所以是顶层参数不需要走 extra_body |
| **Claude Code Effort** | Claude Code Effort Level | Claude Code 控制思考深度的旋钮，七档：low/medium/high(默认)/xhigh/max/ultracode/auto。三种设置方式：CLI `/effort xhigh` / 环境变量 `CLAUDE_CODE_EFFORT_LEVEL` / settings.json。对 DeepSeek 后端也有效。实操：日常 90% 用 medium/high，硬骨头临时切 xhigh/max |
| **BIOS** | Basic Input/Output System | 主板上的固件芯片，开机最底层自检程序；先于操作系统运行 |
| **进程（PS）** | Process | 操作系统里正在运行的程序实例；`ps` 命令可查看；MCP 长连接常驻 vs CLI 用完即走是两种进程模型 |

## 6. 平台 & 服务

| 术语 | 一句话解释 / 备注 |
|---|---|
| **扣子 / Coze** | 字节跳动出的 AI Agent 平台（主对话平台） |
| 扣子编程 | 扣子的代码 Agent 子产品，支持 Vibe Coding |
| **arxiv-reader** | arXiv 论文助手-免费技能；提供 AI 摘要(tldr)、关键词提取、引用数、全文 Markdown、指定章节提取；需注册 data.rag.ac.cn Token；与 arxiv-data-skill 互补形成搜→筛→读流水线 |
| 项目空间 | 扣子里的项目协作空间，多 Agent 协作的地方 |
| **飞猪** | 阿里旅行平台，**MCP 已接入**（旅游搭子用） |
| **滴滴** | 出行平台，**MCP 已接入**（旅游搭子用） |
| 墨信online | 第三方模型 API 聚合（提供 Opus 4.6/DeepSeek-V4/Claude Sonnet 5）；API Base URL: `https://www.moxin.online/v1`（OpenAI 兼容格式）；WSL2 DNS 解析可能需手动配置 |
| **硅基流动** | SiliconFlow | 国内模型推理加速平台；已上线 DeepSeek V4，国内链路稳定。Claude Code 可将 `ANTHROPIC_BASE_URL` 切换为 `https://api.siliconflow.cn/v1` 使用；注册实名送 ¥16 代金券 |
| **飞书 / Lark** | 字节跳动办公平台（扣子官方社区入口在飞书） |
| Discord | 国外聊天社区（**Coze Studio 开源版专用**） |
| 火山引擎 | 字节跳动云服务，**有"扣子售后小助手"账号**（官方交流渠道之一） |
| WaytoAGI / 通往 AGI 之路 | 100 万用户 AI 学习社区（**目前国内备案阻断访问不了**） |
| InStreet / 实例街 | OpenClaw Agent 自治社区，**人类只能围观** |
| OpenClaw | Agent 部署/运行框架（可本地+公网 HTTPS） |
| **GitHub Copilot** | 微软/GitHub 的 AI 编程助手；2026.6 起从包月改为按 Token 计费（AI Credits），免费版已支持 VS Code 本地 Agent 三种模式（Agent/Plan/Ask） |
| **AI Credits** | GitHub Copilot 2026.6 起的新计费单位；按 token 消耗扣费，替代包月模式；个人用户反馈重度使用下月配额快速耗尽，性价比下降 |
| **Open-Meteo** | 开源免费天气 API（**旅游搭子用**） |
| wttr.in | 免费天气服务的另一选择 |
| 和风天气 / 高德天气 | 需 Key 的天气 API |
| 虾评 / xiaping.coze.com | 扣子的技能商店（旅游搭子/健身搭子已上架） |
| Tailscale / Tailscale Funnel | 内网穿透工具，把本地服务暴露成公网 HTTPS |
| Spark | 待补：扣子编程配套？需确认 |

## 7. 知识管理与记忆

| 术语 | 英文 | 一句话解释 |
|---|---|---|
| 长期记忆 | Long-term Memory | 跨会话记住主人偏好/事实的能力（扣子有 100/1000/2000 条上限） |
| 长期计划 | Long-term Plan | 跨多日的项目性任务（旅游搭子迭代 2.0 算长期计划） |
| **跨 session 审计** | Cross-Session Audit | Agent 跨越多次独立执行、把不同 session 的行为数据横向对比，发现系统性模式——纠行为模式而非纠单次行为；如「过去5次纠偏扫描渠道C从未出过有效报告」 |
| 知识库 | Knowledge Base | 把文档/资料喂给 AI 让它随时查询的库（扣子知识库单文件 ≤ 20MB） |
| 项目空间 | — | 扣子里多 Agent 协作的容器 |
| 收藏夹 | Favorite | 扣子里"人和 AI 共用"的资料库，**@ 引用**在收藏夹内发起任务时生效 |
| 语义记忆 | Semantic Memory | 记住"事实和概念"的记忆（vs 情景记忆=记住事件） |
| 短期记忆 | Short-term Memory | 一次会话内的上下文（默认 200K tokens 左右） |
| 压缩-笔记-子 Agent | — | Anthropic CE 指南三大长上下文技巧 |
| 知识树 | — | 当前 AI 学习的 6 层认知阶梯文档（`AI学习/知识树.md`） |
| **工作记忆** | Working Memory | 记忆三层模型最上层——即上下文窗口本身；推理时一次性装入，用完即清；容量受模型 token 上限约束 |
| **情景记忆** | Episodic Memory | 记忆三层模型中间层；记住「发生过的事件/对话」而非事实；扣子对应短期记忆（会话历史+压缩摘要） |
| **语义检索** | Semantic / Vector Search | 长期记忆核心召回方式；文本→Embedding→向量→向量数据库→Top-K 相似度匹配；与 RAG 检索完全同构 |
| **Top-K 召回** | Top-K Retrieval | 语义检索取相似度最高的 K 条结果；K 太小漏信息、K 太大塞垃圾进窗口——记忆精度核心调参旋钮 |
| **相似度阈值** | Similarity Threshold | 语义检索门槛参数；低于某分数的结果不召回，避免强行凑数污染上下文 |
| **摘要压缩** | Summarization / Compaction | 短期记忆过长时用 LLM 将对话摘要为简短段落腾窗口空间；代价是细节丢失 |
| **MemGPT / Letta** | MemGPT / Letta | UC Berkeley 项目；记忆管理做成 OS 级虚拟内存分页——上下文窗口=物理内存、外部存储=硬盘、自动换页 |
| **Contextual Retrieval** | Contextual Retrieval | Anthropic 检索增强技术；给每条 chunk 加上下文前缀再 Embedding，大幅提升召回精度；RAG+Memory 交叉前沿 |
| **Graph Memory** | Graph Memory | 知识图谱式记忆；不存向量而存实体-关系-实体三元组，适合多跳推理；向量记忆的互补方案 |
| **记忆三层模型** | Three-Tier Memory | 业界共识框架：工作记忆（上下文窗口）+ 情景记忆（会话内）+ 语义记忆（跨会话）；扣子体系完美映射 |

## 8. AI 安全 & 伦理

| 术语 | 英文 | 一句话解释 |
|---|---|---|
| 提示词注入 | Prompt Injection | 攻击者在输入里塞恶意指令，让 AI 做不该做的事 |
| 越狱 | Jailbreak | 用特殊话术绕过模型安全限制（"奶奶漏洞"就是经典越狱） |
| 隐私脱敏 | PII Redaction | 把身份证/手机号等敏感信息在传给 AI 前先遮掉 |
| 数据合规 | Data Compliance | 数据使用符合《个保法》《数据安全法》等法规 |
| AI 法规 / 模型备案 | — | 国内大模型上线前需在网信办备案（重要合规门槛） |
| Key 安全 | — | 禁止 API Key 出现在命令行/截图中/公开文档里（**硬规则**） |

## 9. 人物 & 机构 & 信息源

| 类别 | 名称 | 备注 |
|---|---|---|
| **大厂** | **Anthropic** | **Claude 母公司，CE 概念发源地，权威性 ⭐⭐⭐** |
| 大厂 | OpenAI | GPT 母公司 |
| 大厂 | DeepMind | Google 旗下，Gemini 研发方 |
| 大厂 | ByteDance / 字节跳动 | 扣子/豆包/Seedance 母公司 |
| 博主 | Karpathy | 前 Tesla AI 总监，前 OpenAI 创始成员 |
| 博主 | Simon Willison | 独立技术博主，Datasette 作者 |
| 博主 | Lilian Weng | 前 OpenAI 安全研究，深度博客高产 |
| 媒体 | 机器之心 | 国内 AI 媒体 |
| 媒体 | 量子位 | 国内 AI 媒体 |
| 平台 | CSDN | 国内技术博客平台（门槛 ⑤ 个人 CSDN 权重最低） |
| 平台 | arxiv | 学术论文预印本平台 |
| — | 飞书云文档 / 多维表格 | 文档协作/数据库（`lark_cli` 技能可操作） |

## 10. 当前项目沉淀的 AI 概念

> 这些是我们在做旅游搭子/健身搭子/找工作时**反复用到的实战概念**，单独列出方便回顾

| 概念 | 实战场景 | 主人文档位置 |
|---|---|---|
| **Agent 的 CE 定义（v1 2026-06-13 → v2 2026-06-15）** | 旅游搭子活案例 + CE 深度讨论 | `知识树.md` L2 节点 |
| 范式 3 层（按规则跑 / 自主策展 / 自优化策展） | 旅游搭子活案例 | `知识树.md` L2 节点 |
| **好搭档技能化（2026-06-19）** | good-partner 技能发布，自优化策展工程落地 | `知识树.md` L2 CE 节点 + `skills/good-partner/SKILL.md` |
| 「记笔记」规则（2026-06-19） | 主人说「记笔记」→ 自动写入 `AI学习/学习笔记/` | `知识树.md` 维护规则 + `MEMORY.md` |
| Lost in the Middle → 结构化防御 | SKILL.md 13 核心能力用 🚨🛡 锚定 | `知识树.md` L2 节点 |
| MCP 协议 = USB-C for AI | 飞猪/滴滴双 MCP 集成 | `知识树.md` L3 节点 |
| 主动触达 5 步流程 | 找 AI 应用工作项目 | `MEMORY.md` 关键任务 |
| Multi-Agent 协作 | 扣子官网案例（创作+法务+视频+编程 Agent） | 对话截图/案例 |
| Function Calling / 工具签名 | 旅游搭子 11 个工具签名 | `知识树.md` L2 节点 |
| 长上下文 3 招（Compaction / 笔记 / 子 Agent） | Anthropic CE 指南 | `知识树.md` 阅读追踪 |
| CE 4 层文件架构（即时层→近中期层→长期层） | 扣子自己的 CE 实现探讨 | `知识树.md` L2 CE 节点 |
| 意图分层机制（主意图 vs 附带问句屏蔽） | CE 深度讨论中的现场验证 | `知识树.md` L2 CE 节点 |
| 认知迭代方法论（标注版本不覆盖） | Agent 定义从 6-13→6-15 迭代 | `知识树.md` L2 CE 节点 |
| 自优化策展 3 层方案（记一笔→提建议→确认后改） | 想让 Agent 自己优化 SOUL 的探索 | `recent_memory/decision/自优化策展-SOUL迭代计划.md` |
| 每日知识树自动迭代机制 | 每晚 21:30 根据当天对话更新知识树 | 日程 UID: d0aaa4a5 |
| Swarmalator 消费群组建模 | 毕业论文方案A：双向耦合（位置=偏好空间/相位=消费时点） | `recent_memory/decision/毕业论文选题敲定_2026-06-17.md` |
| 消融实验 / 参数反演 | 毕业论文产出层核心方法 | 同上 |
| **Agent 工作日志 v1.0.0** | 已发布虾评（skill_id=838732ca）；含5道评测题；转正条件：≥20条SBI双跑+≥2.0分 | `skills/agent-work-log/SKILL.md` |
| **append 陷阱** | edit_file append=字面追加，不处理语义边界；结构化文件(index.json/todos.md/lessons.md)一律 read→内存→write覆盖 | `知识树.md` L2 Memory 节点 |
| **工作日志与RAG同构** | 索引入口(index.json)=retriever；窗口文件(windows/)=文档库；按摘要匹配=语义召回；按需加载=避免上下文污染；Agent自建自用 | `知识树.md` L2 Memory 节点 |
| **RAG 五大子主题全部完成（2026-06-24）** | 检索核心机制 / Embedding+InfoNCE / Chunking(§5.1-5.3) / Rerank(§6.1-6.6) / 评估(§7.1-7.3)；笔记落档 `RAG学习笔记.md`，词汇表新增 20+ 条目 | `AI学习/学习笔记/RAG学习笔记.md` |
| **CE 五节课全部完成（2026-06-25~26）** | §1基础概念→§2窗口矛盾(四种失败模式)→§3六大策略+四类操作→§4前沿(ACE/GAM/SAC/MCP)→§5编程实战+扣子体系全映射；笔记落档 `CE学习笔记.md`，词汇表新增 22 条目 | `AI学习/学习笔记/CE学习笔记.md` |

---

## 11. AI 硬件 & 芯片架构

| 术语 | 英文 | 一句话解释 |
|---|---|---|
| **内存墙** | Memory Wall | AI 芯片的核心瓶颈——权重搬运带宽远跟不上算力增长速度；HBM 带宽是当前 GPU 推理的硬上限 |
| **HBM** | High Bandwidth Memory | 高带宽内存；GPU 用堆叠 DRAM + 硅中介层实现高带宽，最新 HBM4 约 22 TB/s，但功耗和成本极高 |
| **存内计算** | CIM / Compute-In-Memory | 在存储单元内部直接完成计算，消除数据搬运开销；Sophon 用数字 CIM（灵敏放大器 + 加法树）实现 |
| **2T0C DRAM** | 2-Transistor 0-Capacitor DRAM | 增益单元 DRAM；利用晶体管栅极寄生电容存数据，无需物理电容；TMD 晶体管漏电极低，可保持数据数秒 |
| **M3D** | Monolithic 3D | 单片三维集成；在单颗晶圆上逐层生长逻辑+存储层，层间用纳米级通孔互联，带宽远超传统封装堆叠 |
| **2D-TMD** | 2D Transition-Metal Dichalcogenide | 二维过渡金属硫族化合物（如 MoS₂/WSe₂）；原子级薄半导体，BEOL 兼容（≤450°C 生长），漏电流比硅低约 4 个数量级 |
| **MIV** | Monolithic Inter-tier Via | 单片层间通孔；M3D 芯片中各层之间的垂直互联通道，间距可做到 100nm 以下，提供 PB/s 级层内带宽 |
| **HBM 内存墙** | HBM Memory Wall | 小批量推理场景下，GPU 算力利用率极低——因为每个 token 都要串行读完所有权重，受限于 HBM 带宽而非算力峰值 |

## 🔄 维护规则

- **新增触发**：对话中出现新 AI 词汇且我无法立刻解释 → 加到对应分类
- **实战沉淀触发**：项目/技能用到的概念 → 加到 §10「当前项目沉淀」
- **季度复盘**：每季度（3/6/9/12 月）检查 §6 平台服务是否还可用（如 WaytoAGI 备案已变）

---

> 词汇表 v1.0 · 2026-06-13 · 12 个分类 · 约 130 个条目
> 下次更新：对话中遇到新词，或主人说"加词汇表"

---

## 12. AI 工程实践与负债

| 术语 | 英文 | 一句话解释 |
|---|---|---|
| **理解负债** | Comprehension Debt | AI 生成代码后开发者不理解其意图和结构的状态；"动就 OK"无批判接受导致后续修改/维护成本暴涨；区别于技术负债（知道问题但没修），理解负债是"连问题在哪都不知道" |
| **认知负债** | Cognitive Debt | 理解负债的团队级进阶；长期 AI 依赖导致整个团队对系统全局理解被侵蚀，没人能解释设计意图和运行原理 |
| **意图负债** | Intent Debt | 系统的目标、约束、设计理由未被外部化记录；人和 AI 都无法安全高效地操作代码库 |
| **认知投降** | Cognitive Surrender | 人类不再调用自己的理性思考（系统二），全盘接受 AI 输出不做验证；Wharton 商学院 Shaw & Nave 提出；越信任 AI 越容易滑入此状态 |
| **AI 编程三债模型** | Triple Debt Model | 代码层（技术负债）+ 理解层（理解负债）+ 团队层（认知负债）；Martin Fowler / ThoughtWorks 提出；AI 可能降低技术负债但加速累积认知和意图负债 |
| **验证稀缺** | Verification Scarcity | Ajey Gore 观点：当 AI 让写代码几乎免费，真正昂贵的是验证——定义"什么是正确"并确保代码符合；SWE-bench 高分 PR 常被人审拒绝即因此 |

**发现时间**：2026-07-01 · 来源：多源搜索交叉验证（Qiita/@IT/Addy Osmani/arXiv 2603.22106/Martin Fowler）

| **Durable Stream / 命名日志架构** | Durable Streams / Log-centric Architecture | 用有序持久化日志替代 队列+DB+对象存储 的架构范式；一条 named stream 同时承担任务队列、状态存储、产物输出三种角色；条件追加替代锁表、offset 替代状态 DB、流即产物替代对象存储。代表实现：Kafka（成熟）、S2（轻量新秀） |

| **create_tool_calling_agent** | create_tool_calling_agent | LangChain 创建 Function Calling Agent 的标准函数；接收 model + tools + prompt，返回 Agent Runnable；仅定义"怎么想"，不负责执行循环 |
| **AgentExecutor** | AgentExecutor | LangChain Agent 的执行循环组件；接收 agent + tools，负责实际调用工具、管理 agent_scratchpad、循环直到 Agent 输出最终回复 |
| **ChatPromptTemplate** | ChatPromptTemplate | LangChain 聊天提示模板；用 `from_messages()` 组装 system/human/ai/tool 等多角色消息，支持变量占位符 `{var}` |
| **MessagesPlaceholder** | MessagesPlaceholder | LangChain 消息占位符；在 ChatPromptTemplate 中预留位置，运行时动态插入消息列表（如 chat_history、agent_scratchpad） |
| **agent_scratchpad** | agent_scratchpad | Agent 推理"草稿纸"；AgentExecutor 自动管理——Agent 调用工具后的中间推理写入 scratchpad，供下一轮推理参考；无需手动处理 |
| **@tool 装饰器** | @tool decorator | LangChain 工具定义方式；自动从函数签名生成参数 schema、从 docstring 生成工具描述，包装成 LangChain Tool 对象 |

| **create_agent（1.0）** | create_agent (LangChain 1.0) | LangChain 1.0（2025-10）重新引入的全新统一 Agent API；`create_agent(model, tools, system_prompt?)` 一步创建，底层基于 LangGraph StateGraph，返回 CompiledStateGraph；system_prompt 参数为静态（创建时传入，无法每轮动态更新） |
| **CompiledStateGraph** | CompiledStateGraph | LangGraph 编译后的状态图对象；`create_agent` 的返回类型，调用方式为 `.invoke({"messages": [...]})`，替代旧版 AgentExecutor |

| **双模型分流** | Dual Model Split | 同一应用内按任务复杂度使用不同模型：核心交互用 Pro（质量优先）、后台任务用 Flash（成本优先）。"什么任务用什么模型，不让简单活烧贵算力" |
| **任务分层/模型路由** | Model Routing / Task Tiering | 将编程任务按复杂度分成多层（读代码→写逻辑→重构→架构审查），每层匹配不同性价比的模型（Flash→Pro→Gemini→Claude Opus）。内核：不是所有任务都需要最强大脑 |
| **SWE-bench** | SWE-bench | 软件工程基准测试；用真实 GitHub Issue 评测模型修 bug 的成功率。SWE-bench Pro 是衡量编程 Agent 可靠性的金标准——Claude Opus 4.8（69.2%）、GPT-5.5（58.6%）、DeepSeek V4 Pro（~55%） |