附录 01 术语表与概念速查

本附录用于统一整套指南里的核心术语，帮助你在阅读、做项目、写作品集和准备面试时，快速对齐概念边界。它不追求学术定义最完整，而追求“工程语境下足够准确、足够好用”。

A

Agent

围绕目标执行任务的智能系统，通常不只包含模型回答，还包含上下文组织、工具调用、状态管理、执行闭环与失败恢复。

🖥️ 前端对照：类比 React 的 useEffect + 状态机，即「组件 + 副作用 + 状态管理」的组合体。

Agent UX

专门面向智能体产品的交互设计方法，强调过程可见、状态可控、依据可查看、失败可恢复、人与系统可协作。

🖥️ 前端对照：类比加载态设计（skeleton、progress bar、toast 反馈），强调异步操作的过程透明与错误恢复。

C

Context Engineering

相对 Prompt Engineering 更完整的工程方法，关注系统规则、用户输入、检索证据、工具结果、历史摘要、输出契约等整体输入结构设计。

🖥️ 前端对照：类比组件 props 设计——不只是传一个值，而是系统性地组织 props、context、默认值和校验规则。

Citation

回答中的引用信息，用来说明结论来源于哪份文档、哪段内容或哪次工具执行结果，是企业级系统建立可信度的重要组成部分。

🖥️ 前端对照：类比表格里的「数据来源」列或 tooltip 中的出处链接。

Completion Rate

任务完成率。对于任务型 Agent，通常比单纯的回答正确率更接近业务价值。

🖥️ 前端对照：类比表单提交成功率或多步向导（wizard）的完成漏斗。

E

Eval

对模型、Agent 或工作流系统进行系统化评测的过程。既可以是离线样本评测，也可以是线上行为指标观测。

🖥️ 前端对照：类比 E2E 测试（Cypress / Playwright）+ Lighthouse 性能评分。

Embedding

将文本映射到向量空间的表示方式，常用于相似度检索、语义召回和知识库构建。

🖥️ 前端对照：类比标签系统 + 全文检索的组合，把内容变成可比较的「特征向量」。

F

Fallback

当主路径失败、超时或风险过高时，系统切换到保底路径、降级路径或人工处理路径的机制。

🖥️ 前端对照：类比 ErrorBoundary、图片 onerror 占位图或 CDN 多源回退。

Few-shot

在提示词中提供少量输入输出示例，帮助模型更稳定地理解任务目标和输出格式。

🖥️ 前端对照：类比组件文档中的 usage example 或 Storybook stories，用示例告诉消费者期望的输入输出。

Fine-tuning（微调）

在预训练模型基础上，用少量领域数据继续训练，使模型适应特定任务或风格。

🖥️ 前端对照：类似基于 UI 框架做主题定制——不改源码，只调整参数让它符合你的设计语言。

G

GGUF (GPT-Generated Unified Format)

模型量化存储格式，llama.cpp 生态标准。将大模型压缩为可在消费级硬件运行的文件格式。

🖥️ 前端对照：类似图片的 WebP 格式——更小体积、可接受的质量损失。

Guardrails

对模型或 Agent 行为进行约束和保护的一组规则与机制，可能包括输出校验、敏感词限制、权限边界、拒答策略等。

🖥️ 前端对照：类比表单校验规则（required、maxLength、正则）+ CSP 内容安全策略。

H

Hallucination

模型生成了看似合理但实际上缺乏依据或不正确的内容。在企业场景中，幻觉通常需要通过 RAG、引用、拒答和人工审核来控制。

🖥️ 前端对照：类比渲染了不存在的数据字段导致显示 undefined 或脏数据。

Human-in-the-Loop

在智能系统关键节点保留人工确认、人工审核或人工接管机制的设计思想，常用于高风险、低置信度或强副作用操作。

🖥️ 前端对照：类比表单二次确认弹窗（confirm dialog）、审批流或危险操作的二步验证。

I

Intent Routing

根据用户意图将请求分发到不同模型、工具、工作流节点或处理策略的过程。

🖥️ 前端对照：类比前端路由（React Router / Vue Router），根据 URL 或参数分发到不同页面组件。

J

JSON Schema

一种用于约束结构化输出字段类型、必填项和格式规则的结构定义方式，常用于让模型输出更可解析、可消费。

🖥️ 前端对照：类比 TypeScript 的 interface / type 定义，或 Zod / Yup 等运行时 schema 校验库。

L

Latency

延迟。指从请求发起到用户可见结果之间的时间，可以细分为首字延迟、总完成时间、工具耗时、检索耗时等。

🖥️ 前端对照：类比 TTFB、FCP、LCP 等 Web Vitals 性能指标，关注用户感知的等待时间。

LiteLLM

统一模型代理网关，将 100+ 模型提供商封装为统一的 OpenAI 兼容 API。

🖥️ 前端对照：类似 polyfill.io——一个入口兼容所有后端。

llama.cpp

C++ 编写的 LLM 推理引擎，支持 CPU/GPU 推理，是 GGUF 格式的参考实现。

🖥️ 前端对照：类似 V8 引擎——底层运行时，上层工具基于它构建。

Long-term Memory

长期记忆。指跨会话保留的偏好、背景或结构化状态，但需要清晰的更新、删除和权限策略。

🖥️ 前端对照：类比 localStorage / IndexedDB 持久化存储，跨页面、跨会话保留用户偏好。

LoRA (Low-Rank Adaptation)

低秩自适应微调技术，冻结原始模型参数，只训练少量"补丁参数"。

🖥️ 前端对照：类似 CSS 变量覆盖——不修改组件源码，只注入一组变量就能改变整体风格。

M

MCP

一种面向模型与工具 / 资源生态的标准化接入方式，用于统一暴露工具、资源和相关上下文，提升接入一致性、复用性和治理能力。

🖥️ 前端对照：类比 npm 包生态或插件系统（Webpack plugin、VS Code extension），标准化接口让工具即插即用。

Multi-Agent

多个角色化 Agent 在统一目标下协作完成任务的系统设计方式，通常需要角色边界、上下文共享、协调协议和仲裁机制。

🖥️ 前端对照：类比微前端架构（Module Federation），多个独立应用在统一框架下协作、通信和共享状态。

O

Observability

可观测性。指通过日志、指标、trace、埋点等手段，理解系统当前状态、回放执行过程并快速定位问题的能力。

🖥️ 前端对照：类比 Sentry 错误监控 + Performance API + 自定义埋点体系。

Ollama

本地大模型管理和运行工具，提供一键安装、模型下载、REST API 服务。

🖥️ 前端对照：类似 nvm + npm——安装管理运行时环境 + 拉取包。

Output Contract

输出契约。指对模型返回结构、字段、错误码、缺省行为等进行明确定义，以保证结果可被下游系统稳定消费。

🖥️ 前端对照：类比 BFF 层的 API 响应 schema 或 GraphQL 的强类型返回契约。

P

Prompt Engineering

通过优化提示词内容、顺序、示例和约束来改善模型输出的做法。适合单点优化，但在复杂系统里通常需要和 Context Engineering 配合。

🖥️ 前端对照：类比调 CSS 样式——通过微调输入（选择器、属性值）来优化输出表现。

P95

95 分位耗时指标，用来衡量长尾延迟表现。对于用户体验来说，P95 往往比平均值更重要。

🖥️ 前端对照：类比性能监控中的 P95 FCP / LCP，衡量最慢 5% 用户的真实体验。

Q

QLoRA

LoRA + 4bit 量化的组合，大幅降低微调所需显存，使消费级 GPU 也能微调大模型。

🖥️ 前端对照：类似 tree-shaking + code-splitting——在资源受限环境下用更少资源完成同样的工作。

Quantization（量化）

将模型权重从高精度（FP16/FP32）压缩到低精度（INT8/INT4）以减少显存占用和加速推理。

🖥️ 前端对照：类似响应式图片——根据设备能力加载不同分辨率。

R

RAG

Retrieval-Augmented Generation，检索增强生成。通过在生成前检索外部知识，将相关证据注入上下文，减少幻觉并提升私有知识可用性。

🖥️ 前端对照：类比搜索框 autocomplete + 后端 API 召回——先检索再渲染，而非凭空生成。

Ranking / Reranking

对初始召回结果进行排序或精排的过程，目标是把最相关证据放在更靠前位置，减少无关上下文干扰。

🖥️ 前端对照：类比搜索结果列表的排序逻辑（相关度排序、权重调整），确保最匹配项优先展示。

Retry

对临时失败请求执行再次尝试的机制。重试应该基于错误类型设计，而不是无条件重复调用。

🖥️ 前端对照：类比请求重试机制（axios-retry）、指数退避策略或网络断线重连。

S

Self-hosted（自托管）

在自有服务器或本地设备上部署和运行 AI 模型，不依赖第三方 API 服务。

🖥️ 前端对照：类似自建 GitLab vs 用 GitHub.com——完全控制但需自行运维。

Session

会话。表示一段连续交互的上下文边界，可以按用户、任务、资源对象等不同方式定义。

🖥️ 前端对照：类比 SPA 的 sessionStorage + 服务端 session，定义一段交互的上下文边界。

Structured Output

结构化输出。要求模型按既定字段和类型返回结果，而不是自由文本，便于前端、工作流和下游服务稳定消费。

🖥️ 前端对照：类比 API 返回 JSON 而非 HTML 片段，前端拿到结构化数据后自主渲染。

T

Tool Calling

模型根据任务需要选择并调用外部工具的能力。工程重点不仅是调用成功，还包括工具契约、失败处理、权限控制和日志追踪。

🖥️ 前端对照：类比发起 RPC / REST / GraphQL 调用，关键在于接口契约、错误处理和鉴权。

Trace

一条完整请求在多服务、多步骤执行过程中的链路记录，用于调试、观测和回放。

🖥️ 前端对照：类比浏览器 DevTools 的 Network 瀑布图 + Performance 时间线，串联完整请求链路。

Token Budget

Token 预算。对上下文长度、检索证据、历史摘要、输出限制等进行总量控制的思路，用于平衡成本、延迟与效果。

🖥️ 前端对照：类比 bundle size budget（webpack performance hints），对资源总量设限以平衡体验与成本。

U

Unsloth

开源微调加速框架，支持 2x 训练速度和 60% 显存节省，可一键导出 GGUF 格式。

🖥️ 前端对照：类似 Turbopack / Vite——通过底层优化让同样的任务跑得更快。

V

vLLM

高性能 LLM 推理引擎，使用 PagedAttention 技术优化显存管理，支持高并发场景。

🖥️ 前端对照：类似 Nginx vs Express——专为高性能并发场景优化的服务器。

W

Workflow

由多个节点和明确状态流转组成的任务执行流程，强调编排、控制、恢复和可观测，而不是单点智能回答。

🖥️ 前端对照：类比多步表单向导（stepper）或状态机（XState），强调步骤编排、状态流转与异常恢复。

如何使用这份术语表

建议在以下场景里反复使用：

看章节时，遇到概念混淆就回查。
写作品集或简历时，用统一术语描述能力。
准备面试时，用它来校正自己的表达边界。
和团队沟通时，把“大家以为在说同一个词，其实不是”的问题提前消掉。

面试表达

你可以这样理解这份术语表的价值：

“真正成熟的工程表达，不是会背很多名词，而是知道每个词在系统里指的到底是哪一层能力、解决什么问题、和上下游是什么关系。”

附录 01 术语表与概念速查 ​

A ​

Agent ​

Agent UX ​

C ​

Context Engineering ​

Citation ​

Completion Rate ​

E ​

Eval ​

Embedding ​

F ​

Fallback ​

Few-shot ​

Fine-tuning（微调） ​

G ​

GGUF (GPT-Generated Unified Format) ​

Guardrails ​

H ​

Hallucination ​

Human-in-the-Loop ​

I ​

Intent Routing ​

J ​

JSON Schema ​

L ​

Latency ​

LiteLLM ​

llama.cpp ​

Long-term Memory ​

LoRA (Low-Rank Adaptation) ​

M ​

MCP ​

Multi-Agent ​

O ​

Observability ​

Ollama ​

Output Contract ​

P ​

Prompt Engineering ​

P95 ​

Q ​

QLoRA ​

Quantization（量化） ​

R ​

RAG ​

Ranking / Reranking ​

Retry ​

S ​

Self-hosted（自托管） ​

Session ​

Structured Output ​

T ​

Tool Calling ​

Trace ​

Token Budget ​

U ​

Unsloth ​

V ​

vLLM ​

W ​

Workflow ​

如何使用这份术语表 ​

面试表达 ​