Skip to content

附录 01 术语表与概念速查

本附录用于统一整套指南里的核心术语,帮助你在阅读、做项目、写作品集和准备面试时,快速对齐概念边界。它不追求学术定义最完整,而追求“工程语境下足够准确、足够好用”。

A

Agent

围绕目标执行任务的智能系统,通常不只包含模型回答,还包含上下文组织、工具调用、状态管理、执行闭环与失败恢复。

🖥️ 前端对照:类比 React 的 useEffect + 状态机,即「组件 + 副作用 + 状态管理」的组合体。

Agent UX

专门面向智能体产品的交互设计方法,强调过程可见、状态可控、依据可查看、失败可恢复、人与系统可协作。

🖥️ 前端对照:类比加载态设计(skeleton、progress bar、toast 反馈),强调异步操作的过程透明与错误恢复。

C

Context Engineering

相对 Prompt Engineering 更完整的工程方法,关注系统规则、用户输入、检索证据、工具结果、历史摘要、输出契约等整体输入结构设计。

🖥️ 前端对照:类比组件 props 设计——不只是传一个值,而是系统性地组织 props、context、默认值和校验规则。

Citation

回答中的引用信息,用来说明结论来源于哪份文档、哪段内容或哪次工具执行结果,是企业级系统建立可信度的重要组成部分。

🖥️ 前端对照:类比表格里的「数据来源」列或 tooltip 中的出处链接。

Completion Rate

任务完成率。对于任务型 Agent,通常比单纯的回答正确率更接近业务价值。

🖥️ 前端对照:类比表单提交成功率或多步向导(wizard)的完成漏斗。

E

Eval

对模型、Agent 或工作流系统进行系统化评测的过程。既可以是离线样本评测,也可以是线上行为指标观测。

🖥️ 前端对照:类比 E2E 测试(Cypress / Playwright)+ Lighthouse 性能评分。

Embedding

将文本映射到向量空间的表示方式,常用于相似度检索、语义召回和知识库构建。

🖥️ 前端对照:类比标签系统 + 全文检索的组合,把内容变成可比较的「特征向量」。

F

Fallback

当主路径失败、超时或风险过高时,系统切换到保底路径、降级路径或人工处理路径的机制。

🖥️ 前端对照:类比 ErrorBoundary、图片 onerror 占位图或 CDN 多源回退。

Few-shot

在提示词中提供少量输入输出示例,帮助模型更稳定地理解任务目标和输出格式。

🖥️ 前端对照:类比组件文档中的 usage example 或 Storybook stories,用示例告诉消费者期望的输入输出。

Fine-tuning(微调)

在预训练模型基础上,用少量领域数据继续训练,使模型适应特定任务或风格。

🖥️ 前端对照:类似基于 UI 框架做主题定制——不改源码,只调整参数让它符合你的设计语言。

G

GGUF (GPT-Generated Unified Format)

模型量化存储格式,llama.cpp 生态标准。将大模型压缩为可在消费级硬件运行的文件格式。

🖥️ 前端对照:类似图片的 WebP 格式——更小体积、可接受的质量损失。

Guardrails

对模型或 Agent 行为进行约束和保护的一组规则与机制,可能包括输出校验、敏感词限制、权限边界、拒答策略等。

🖥️ 前端对照:类比表单校验规则(required、maxLength、正则)+ CSP 内容安全策略。

H

Hallucination

模型生成了看似合理但实际上缺乏依据或不正确的内容。在企业场景中,幻觉通常需要通过 RAG、引用、拒答和人工审核来控制。

🖥️ 前端对照:类比渲染了不存在的数据字段导致显示 undefined 或脏数据。

Human-in-the-Loop

在智能系统关键节点保留人工确认、人工审核或人工接管机制的设计思想,常用于高风险、低置信度或强副作用操作。

🖥️ 前端对照:类比表单二次确认弹窗(confirm dialog)、审批流或危险操作的二步验证。

I

Intent Routing

根据用户意图将请求分发到不同模型、工具、工作流节点或处理策略的过程。

🖥️ 前端对照:类比前端路由(React Router / Vue Router),根据 URL 或参数分发到不同页面组件。

J

JSON Schema

一种用于约束结构化输出字段类型、必填项和格式规则的结构定义方式,常用于让模型输出更可解析、可消费。

🖥️ 前端对照:类比 TypeScript 的 interface / type 定义,或 Zod / Yup 等运行时 schema 校验库。

L

Latency

延迟。指从请求发起到用户可见结果之间的时间,可以细分为首字延迟、总完成时间、工具耗时、检索耗时等。

🖥️ 前端对照:类比 TTFB、FCP、LCP 等 Web Vitals 性能指标,关注用户感知的等待时间。

LiteLLM

统一模型代理网关,将 100+ 模型提供商封装为统一的 OpenAI 兼容 API。

🖥️ 前端对照:类似 polyfill.io——一个入口兼容所有后端。

llama.cpp

C++ 编写的 LLM 推理引擎,支持 CPU/GPU 推理,是 GGUF 格式的参考实现。

🖥️ 前端对照:类似 V8 引擎——底层运行时,上层工具基于它构建。

Long-term Memory

长期记忆。指跨会话保留的偏好、背景或结构化状态,但需要清晰的更新、删除和权限策略。

🖥️ 前端对照:类比 localStorage / IndexedDB 持久化存储,跨页面、跨会话保留用户偏好。

LoRA (Low-Rank Adaptation)

低秩自适应微调技术,冻结原始模型参数,只训练少量"补丁参数"。

🖥️ 前端对照:类似 CSS 变量覆盖——不修改组件源码,只注入一组变量就能改变整体风格。

M

MCP

一种面向模型与工具 / 资源生态的标准化接入方式,用于统一暴露工具、资源和相关上下文,提升接入一致性、复用性和治理能力。

🖥️ 前端对照:类比 npm 包生态或插件系统(Webpack plugin、VS Code extension),标准化接口让工具即插即用。

Multi-Agent

多个角色化 Agent 在统一目标下协作完成任务的系统设计方式,通常需要角色边界、上下文共享、协调协议和仲裁机制。

🖥️ 前端对照:类比微前端架构(Module Federation),多个独立应用在统一框架下协作、通信和共享状态。

O

Observability

可观测性。指通过日志、指标、trace、埋点等手段,理解系统当前状态、回放执行过程并快速定位问题的能力。

🖥️ 前端对照:类比 Sentry 错误监控 + Performance API + 自定义埋点体系。

Ollama

本地大模型管理和运行工具,提供一键安装、模型下载、REST API 服务。

🖥️ 前端对照:类似 nvm + npm——安装管理运行时环境 + 拉取包。

Output Contract

输出契约。指对模型返回结构、字段、错误码、缺省行为等进行明确定义,以保证结果可被下游系统稳定消费。

🖥️ 前端对照:类比 BFF 层的 API 响应 schema 或 GraphQL 的强类型返回契约。

P

Prompt Engineering

通过优化提示词内容、顺序、示例和约束来改善模型输出的做法。适合单点优化,但在复杂系统里通常需要和 Context Engineering 配合。

🖥️ 前端对照:类比调 CSS 样式——通过微调输入(选择器、属性值)来优化输出表现。

P95

95 分位耗时指标,用来衡量长尾延迟表现。对于用户体验来说,P95 往往比平均值更重要。

🖥️ 前端对照:类比性能监控中的 P95 FCP / LCP,衡量最慢 5% 用户的真实体验。

Q

QLoRA

LoRA + 4bit 量化的组合,大幅降低微调所需显存,使消费级 GPU 也能微调大模型。

🖥️ 前端对照:类似 tree-shaking + code-splitting——在资源受限环境下用更少资源完成同样的工作。

Quantization(量化)

将模型权重从高精度(FP16/FP32)压缩到低精度(INT8/INT4)以减少显存占用和加速推理。

🖥️ 前端对照:类似响应式图片——根据设备能力加载不同分辨率。

R

RAG

Retrieval-Augmented Generation,检索增强生成。通过在生成前检索外部知识,将相关证据注入上下文,减少幻觉并提升私有知识可用性。

🖥️ 前端对照:类比搜索框 autocomplete + 后端 API 召回——先检索再渲染,而非凭空生成。

Ranking / Reranking

对初始召回结果进行排序或精排的过程,目标是把最相关证据放在更靠前位置,减少无关上下文干扰。

🖥️ 前端对照:类比搜索结果列表的排序逻辑(相关度排序、权重调整),确保最匹配项优先展示。

Retry

对临时失败请求执行再次尝试的机制。重试应该基于错误类型设计,而不是无条件重复调用。

🖥️ 前端对照:类比请求重试机制(axios-retry)、指数退避策略或网络断线重连。

S

Self-hosted(自托管)

在自有服务器或本地设备上部署和运行 AI 模型,不依赖第三方 API 服务。

🖥️ 前端对照:类似自建 GitLab vs 用 GitHub.com——完全控制但需自行运维。

Session

会话。表示一段连续交互的上下文边界,可以按用户、任务、资源对象等不同方式定义。

🖥️ 前端对照:类比 SPA 的 sessionStorage + 服务端 session,定义一段交互的上下文边界。

Structured Output

结构化输出。要求模型按既定字段和类型返回结果,而不是自由文本,便于前端、工作流和下游服务稳定消费。

🖥️ 前端对照:类比 API 返回 JSON 而非 HTML 片段,前端拿到结构化数据后自主渲染。

T

Tool Calling

模型根据任务需要选择并调用外部工具的能力。工程重点不仅是调用成功,还包括工具契约、失败处理、权限控制和日志追踪。

🖥️ 前端对照:类比发起 RPC / REST / GraphQL 调用,关键在于接口契约、错误处理和鉴权。

Trace

一条完整请求在多服务、多步骤执行过程中的链路记录,用于调试、观测和回放。

🖥️ 前端对照:类比浏览器 DevTools 的 Network 瀑布图 + Performance 时间线,串联完整请求链路。

Token Budget

Token 预算。对上下文长度、检索证据、历史摘要、输出限制等进行总量控制的思路,用于平衡成本、延迟与效果。

🖥️ 前端对照:类比 bundle size budget(webpack performance hints),对资源总量设限以平衡体验与成本。

U

Unsloth

开源微调加速框架,支持 2x 训练速度和 60% 显存节省,可一键导出 GGUF 格式。

🖥️ 前端对照:类似 Turbopack / Vite——通过底层优化让同样的任务跑得更快。

V

vLLM

高性能 LLM 推理引擎,使用 PagedAttention 技术优化显存管理,支持高并发场景。

🖥️ 前端对照:类似 Nginx vs Express——专为高性能并发场景优化的服务器。

W

Workflow

由多个节点和明确状态流转组成的任务执行流程,强调编排、控制、恢复和可观测,而不是单点智能回答。

🖥️ 前端对照:类比多步表单向导(stepper)或状态机(XState),强调步骤编排、状态流转与异常恢复。

如何使用这份术语表

建议在以下场景里反复使用:

  • 看章节时,遇到概念混淆就回查。
  • 写作品集或简历时,用统一术语描述能力。
  • 准备面试时,用它来校正自己的表达边界。
  • 和团队沟通时,把“大家以为在说同一个词,其实不是”的问题提前消掉。

面试表达

你可以这样理解这份术语表的价值:

“真正成熟的工程表达,不是会背很多名词,而是知道每个词在系统里指的到底是哪一层能力、解决什么问题、和上下游是什么关系。”