项目线 B 浏览器 / 办公自动化 Agent

这条项目线适合把“工具调用、工作流编排、人工确认、权限控制、Agent UI”串成一个完整案例。相比企业知识库问答 Agent，它更强调“执行动作”而不是“回答问题”，因此非常适合展示你在 Agent 工程里的流程设计和产品交互能力。

1. 项目定位

1.1 项目目标

做一个能帮助用户完成浏览器或办公场景任务的自动化 Agent，例如：

读取网页内容并整理摘要。
按步骤填写表单并生成草稿。
从文档中提取待办并同步到任务系统。
整理会议纪要并生成邮件或周报草稿。

项目目标不是单纯“能自动点按钮”，而是做一个：

有明确执行计划。
关键动作可确认。
执行过程可见。
失败后可恢复。
可用于作品集展示的任务型 Agent。

1.2 为什么它适合前端工程师

前端工程师天然熟悉：

浏览器环境与 DOM。
用户交互与表单流程。
异步状态与任务反馈。
高风险操作的提示与确认。

这些能力非常适合迁移到自动化 Agent 场景里。与纯问答项目相比，这条项目线更能体现你对“系统执行过程”和“人机协作界面”的理解。

2. 推荐场景选择

建议从低风险、可复现的办公场景切入，不要一开始就做强副作用的自动化。比较适合作为第一版的场景有：

从网页抓取活动信息并整理成结构化摘要。
读取会议纪要并生成待办列表。
将用户提供的素材整理成邮件草稿或周报草稿。
协助填写内部低风险表单，但提交前必须人工确认。

不建议第一版就做：

自动付款。
自动删除记录。
自动发送正式通知。
跨多个高权限系统执行不可逆动作。

3. 系统能力地图

这条项目线重点覆盖以下能力：

Tool Calling：让 Agent 能调用浏览器、文档、搜索和表单类工具。
Workflow：把复杂任务拆成明确步骤。
Human-in-the-Loop：让关键节点等待用户确认。
Observability：记录每一步的执行状态和失败原因。
Security：控制权限边界和副作用风险。
UI / UX：把任务过程、执行计划和失败恢复展示给用户。

4. 一套推荐的最小架构

可以按以下层次设计：

前端控制台：输入任务、展示计划、展示步骤、确认关键动作。
Agent 服务层：理解任务、规划步骤、选择工具、汇总结果。
工具层：浏览器工具、文档读取工具、表单工具、任务系统写入工具。
状态层：任务状态、步骤状态、确认状态、失败原因。
日志与观测层：trace、执行轨迹、用户操作记录、失败分类。

可以把主链路理解为：

用户输入任务目标。
Agent 先生成执行计划。
用户确认计划或修改约束。
Agent 分步骤执行工具操作。
前端展示每一步状态。
高风险动作需要用户确认。
最终生成结果、草稿或可执行下一步。

5. 推荐的第一版 MVP

第一版不要追求“全自动”，而要追求“半自动但可信”。建议 MVP 具备以下能力：

用户输入一个明确任务。
Agent 输出步骤计划。
系统执行只读或低风险步骤。
涉及写入或提交时先请求确认。
执行结果以结构化形式展示。
如果失败，能保留进度并提示下一步动作。

一个很合适的 MVP 示例

“读取一份会议纪要文档，抽取决策项和待办项，生成待办清单草稿，并在用户确认后导出为任务列表。”

这个场景同时具备：

文档读取。
信息抽取。
步骤计划。
人工确认。
结构化输出。
UI 展示价值。

6. 实施步骤

第一步：定义任务边界

先写清楚：

自动化目标是什么。
哪些步骤可以自动执行。
哪些步骤必须人工确认。
哪些失败必须立即中止。

这一步很重要，因为自动化 Agent 的最大风险往往是边界不清。

第二步：拆任务为节点

建议把任务拆成 4 到 6 个可观测节点，例如：

读取输入材料。
识别关键内容。
生成执行计划。
生成草稿结果。
等待用户确认。
执行导出或写入动作。

拆得太粗会难调试，拆得太细会增加系统复杂度。

第三步：定义工具契约

每个工具至少写清楚：

作用是什么。
输入参数有哪些。
返回什么结构。
会不会产生副作用。
失败后怎么回退。

例如“导出待办列表”这个工具，至少要说明：

是否真正写入任务系统。
是否支持 dry-run。
失败时是否可重试。

第四步：设计确认机制

浏览器 / 办公自动化场景里，确认机制非常关键。建议至少有以下一种：

执行计划确认。
高风险步骤确认。
最终结果审核后提交。

大多数情况下，第二和第三种需要同时存在。

第五步：设计前端任务面板

不要只做聊天流。建议至少展示：

当前任务。
当前步骤。
已完成步骤。
等待确认项。
失败原因。
可执行操作：继续、取消、重试、转人工。

第六步：加执行日志与 trace

这一类项目出了问题时，用户通常会问：

“你做到哪一步了？”
“刚才到底提交了吗？”
“为什么停在这里？”

没有执行轨迹，体验会非常差。

第七步：逐步扩大自动化范围

第一版确认稳定后，再考虑：

引入更多工具。
支持更复杂的计划。
支持多系统协作。
支持更高阶的任务恢复。

7. 前端最应该做好的 5 件事

7.1 先展示计划，再执行

用户对执行型 Agent 最关心的是“你准备做什么”。计划可见会显著提升信任。

7.2 把步骤状态做清楚

不要只显示“执行中”。至少要区分：

计划生成中。
步骤执行中。
等待确认。
部分成功。
已取消。
执行失败。

7.3 为关键节点提供确认和取消

用户应该始终保有控制权。

7.4 为失败场景提供恢复路径

例如：

只重试失败步骤。
保留已生成草稿。
允许切换为人工处理。

7.5 为结果提供结构化展示

例如：

待办列表。
草稿邮件。
抽取的字段。
计划执行日志。

这会比一段自然语言结果更易校验和复用。

8. 推荐指标

第一版项目可以优先关注：

计划执行成功率。
关键步骤确认率。
可恢复失败比例。
平均完成时长。
用户取消率。
用户主观满意度。

如果场景涉及文档抽取，还可以补：

信息抽取准确率。
结构化结果可用率。

9. 常见坑

9.1 一开始追求全自动

这往往会导致系统风险极高，而且很难建立用户信任。

9.2 没有计划展示

用户不知道系统准备做什么，出现偏差时也无法及时纠正。

9.3 工具失败后从头重来

这样会严重破坏体验。很多场景应该支持部分恢复。

9.4 确认机制过重或过轻

过重会让用户觉得比手工还麻烦；过轻则会放大风险。

9.5 只做技术链路，不做界面反馈

技术上执行成功，不代表产品体验是成功的。

10. 建议的阶段性交付物

阶段 1：任务型 MVP

交付物：

一个任务输入页。
一个步骤计划展示页。
一个低风险自动化 Demo。

阶段 2：可协作版本

交付物：

人工确认节点。
任务面板。
可取消和重试机制。

阶段 3：可观测版本

交付物：

执行轨迹。
失败分类。
关键步骤耗时统计。

阶段 4：可投递版本

交付物：

项目卡片。
交互截图或录屏。
任务链路图。
面试讲述稿。

11. 作品集怎么讲

建议突出以下几个点：

你不是做了一个会聊天的机器人，而是做了一个能执行任务的 Agent。
你如何拆解任务步骤并控制副作用风险。
你如何设计确认机制和失败恢复。
你如何把前端交互和执行轨迹做成可信界面。
你如何处理工具调用、状态同步和用户反馈闭环。

12. 面试表达

你可以这样讲：

“这个项目的重点不是让 Agent 自动点网页，而是让它在执行多步骤任务时保持可见、可控、可恢复。我先让系统生成计划，再通过工具调用执行低风险步骤，对写入或提交类动作增加确认节点，前端则用任务面板展示执行轨迹和失败原因。这样项目既体现了 Tool Calling 和 Workflow 能力，也体现了我作为前端工程师在人机协作界面上的优势。”

13. 自托管部署变体

🏠 零 API 依赖版本

浏览器自动化 Agent 同样可以使用本地模型驱动，适合内网环境和成本敏感场景。

技术栈替换对照

组件	云端版	自托管版
规划模型	GPT-4o	Ollama + Qwen3-8B
执行模型	GPT-4o-mini	Ollama + Qwen3-4B
浏览器控制	Playwright（不变）	Playwright（不变）

自托管改造要点

双模型策略：规划用 8B 模型保证质量，执行用 4B 模型降低延迟
注意事项：浏览器自动化对模型指令遵循能力要求高，推荐 Qwen3 或 Mistral
适用场景：企业内网桌面自动化、CI/CD 集成测试

详细本地模型选型参考专题 11：自托管 AI Agent 全栈指南

项目线 B 浏览器 / 办公自动化 Agent ​

1. 项目定位 ​

1.1 项目目标 ​

1.2 为什么它适合前端工程师 ​

2. 推荐场景选择 ​

3. 系统能力地图 ​

4. 一套推荐的最小架构 ​

5. 推荐的第一版 MVP ​

一个很合适的 MVP 示例 ​

6. 实施步骤 ​

第一步：定义任务边界 ​

第二步：拆任务为节点 ​

第三步：定义工具契约 ​

第四步：设计确认机制 ​

第五步：设计前端任务面板 ​

第六步：加执行日志与 trace ​

第七步：逐步扩大自动化范围 ​

7. 前端最应该做好的 5 件事 ​

7.1 先展示计划，再执行 ​

7.2 把步骤状态做清楚 ​

7.3 为关键节点提供确认和取消 ​

7.4 为失败场景提供恢复路径 ​

7.5 为结果提供结构化展示 ​

8. 推荐指标 ​

9. 常见坑 ​

9.1 一开始追求全自动 ​

9.2 没有计划展示 ​

9.3 工具失败后从头重来 ​

9.4 确认机制过重或过轻 ​

9.5 只做技术链路，不做界面反馈 ​

10. 建议的阶段性交付物 ​

阶段 1：任务型 MVP ​

阶段 2：可协作版本 ​

阶段 3：可观测版本 ​

阶段 4：可投递版本 ​

11. 作品集怎么讲 ​

12. 面试表达 ​

13. 自托管部署变体 ​

技术栈替换对照 ​

自托管改造要点 ​

项目线 B 浏览器 / 办公自动化 Agent

1. 项目定位

1.1 项目目标

1.2 为什么它适合前端工程师

2. 推荐场景选择

3. 系统能力地图

4. 一套推荐的最小架构

5. 推荐的第一版 MVP

一个很合适的 MVP 示例

6. 实施步骤

第一步：定义任务边界

第二步：拆任务为节点

第三步：定义工具契约

第四步：设计确认机制

第五步：设计前端任务面板

第六步：加执行日志与 trace

第七步：逐步扩大自动化范围

7. 前端最应该做好的 5 件事

7.1 先展示计划，再执行

7.2 把步骤状态做清楚

7.3 为关键节点提供确认和取消

7.4 为失败场景提供恢复路径

7.5 为结果提供结构化展示

8. 推荐指标

9. 常见坑

9.1 一开始追求全自动

9.2 没有计划展示

9.3 工具失败后从头重来

9.4 确认机制过重或过轻

9.5 只做技术链路，不做界面反馈

10. 建议的阶段性交付物

阶段 1：任务型 MVP

阶段 2：可协作版本

阶段 3：可观测版本

阶段 4：可投递版本

11. 作品集怎么讲

12. 面试表达

13. 自托管部署变体

技术栈替换对照

自托管改造要点