2026.05 — 2026.12 VOLUME · VI
张桃 · CassandraCat
PART · 00 / OVERTURE

THE MAKING OF AN AI ENGINEER

AI 工程师 养成
8 个月叙事 双轨并行 三个作品 GitHub 见 从前端走到 AI
主线 · MAIN 56 h/月 Java · Spring AI · Browser Agent
副线 · SIDE 20 h/月 Python · Obsidian RAG → AI Code Reader
能力树 · CAPABILITY 8 基础 → 进阶, 12 月底覆盖完
总时数 · TOTAL 1,032 h 8 月 · 三/四线并行
01/Dual Track Timeline

两条轨道, 八个月, 一张地图

上半轨是 Java 主线 — Browser Agent 随月份从「Tool 试水」走到「v2.0 多 Agent · GitHub 开源」。 下半轨是 Python 副线 — Obsidian RAG (8-10 月) 串行做到 AI Code Reader (11-12 月)。 两条轨道独立跑, 在 8 块 AI 能力上汇合。

Track A · Java

AI Browser Agent

Spring AI · Playwright Java · CDP
SPRING AI
第一关跑通
+ 5 扩展点实战
FOUNDATION
Tool calling + RAG
Browser Tool 试水
v0.1
ReAct 循环
简单 web 任务
v0.5
多步骤 + 表单
截图反馈
v1.0 ↑
公司业务流落地
+ LangSmith 评估
v1.5 · VISION
多模态
LLM 看截图
v2.0 · MULTI-AGENT
Planner+Executor
+Verifier 协同
OPEN SOURCE ★
GitHub 开源
Java 阵营首发
05· May
06· Jun
07· Jul
08· Aug
09· Sep
10· Oct
11· Nov
12· Dec
Track B · Python

Obsidian RAG → AI Code Reader

FastAPI · LangChain · Next.js
— 未启动 —
副线 6 月起步
入门
LangChain 基础
+ Next.js 入门
综合练习
全栈 hello world
项目 1 架构设计
RAG 1 · v0.1 ↑
Obsidian RAG 公开
Wiki 个人助手
RAG 1 · v0.2
多 embedding
+ 链接图谱
RAG 1 · v0.5
LangGraph 多 Agent
项目 1 收尾
CODE READER · v0.1
AI Code Reader
repo → 代码地图
v1.0 ★
AI Code Reader
双语 + LangSmith
02/Two Anchor Projects

三个锚项目

项目是岸, 月份是浪。主线一个长跑, 副线两个串行, 8 个月后, 三个 GitHub 仓库摆在那里 = 能力证明。

Track A · 主线 · 长跑

AI Browser Agent

Java 阵营首个完整 Browser Agent 实现 · 开源 + 公司业务自动化

Java 25 Spring Boot 4 Spring AI 2.x Playwright Java Chrome DevTools Redis LangSmith Java

当下 AI 圈最热方向 (Manus / Browser Use / Operator), Java 阵营空白。 Spring AI 控制 Chrome → 自然语言 → 自主完成跨系统业务流。 落地公司自动化 (回归测试 / 数据录入), 同时 GitHub 开源给 Java 社区。 学满 8 块能力: Tool / RAG / Agent / 多 Agent / 多模态 / 评估 / 生产 / 进阶。

月时 56h 2h × 28 工作日
里程碑 7 v0.1 → v2.0 → 开源
最终 OSS 12 月 GitHub 公开
Track B · 副线 · 串行

Obsidian RAG → AI Code Reader

两个 Python 全栈作品串行做 · GitHub 开源

Python 3.12 FastAPI LangChain Next.js 14 React TypeScript ChromaDB tree-sitter

项目 1 (8-10 月) Obsidian RAG · 你 Wiki 现成数据 → AI 知识助手, 1.5 个月出 v0.1。
项目 2 (11-12 月) AI Code Reader · 输入 GitHub repo URL → AI 自动生成代码地图 + 模块依赖 + 流程图。
串行做, 不并行 — 学习专注度优先, 累积两份完整全栈 AI 作品。

月时 20h 5h/周, 11 月起 8h/周
作品数 2 RAG + Code Reader
部署 OSS Vercel + Railway + GitHub
03/Capability Tree

AI 应用工程师 八块能力

不是 ML 算法, 不是模型训练。是把 LLM 接入产品的 8 块工程能力。 每块标注涉及月份, 项目里程碑会用到这些能力。

01 Foundation

基础

LLM 调用 / Prompt 工程 / Token 与成本管理 / 多模型切换

5月6月7月8月 9月10月11月12月
02 Dialogue

对话

SSE 流式输出 / Memory / Context 滑动窗口 / 多轮对话

5月6月7月8月 9月10月11月12月
03 Tools

工具

Function calling / Tool use / Spring AI @Tool / 工具链编排

5月6月7月8月 9月10月11月12月
04 Retrieval

检索

Embedding / Vector DB / RAG 基础到进阶 / 检索质量评估

5月6月7月8月 9月10月11月12月
05 Agent

Agent

单 Agent (Tool 编排) / 多 Agent / LangGraph supervisor / 路由

5月6月7月8月 9月10月11月12月
06 Evaluation

评估

LangSmith / 自定义 evaluator / A/B 测试 / 数据集 trace

5月6月7月8月 9月10月11月12月
07 Production

生产

监控 / 成本控制 / 延迟优化 / 错误处理 / 安全

5月6月7月8月 9月10月11月12月
08 Advanced

进阶

多模态 / RAG 系统优化 / Agent 编排 / 不做 Fine-tune

5月6月7月8月 9月10月11月12月
04/Time Allocation

时间, 是路线图的肌肉

四条线在月份里此消彼长。CG (图形学) 是兴趣, 6 月起降级, 11 月暂停; AI 主副线相对稳定, 副线 11 月冲刺 v1.0; Algo 全程不变。

Java · Spring AI 主线
Python · LangChain 副线
CG · GAMES101
Algo · 左程云
5
56h
56h
28h
140h
6
56h
20h
28h
28h
132h
7
56h
20h
28h
28h
132h
8
56h
20h
28h
28h
132h
9
56h
20h
28h
28h
132h
10
56h
20h
14h
28h
118h
11
56h
32h
28h
116h
12
56h
32h
28h
116h
05/Monthly Breakdown

逐月进度

每月把 4 条线 (Java 主 / Python 副 / CG / Algo) 落到具体任务, 末尾的 milestone 就是月底要交的"东西"。

05·
140 h 5 月 · 起步
Spring AI 第一关 · GAMES101 入门 · 算法奠基
Java · 56h
  • W1 JDK + IntelliJ + Spring Initializr 项目骨架 · 第一个 ChatClient 跑通 /api/chat · ChatClient vs WebClient · System/User/Assistant 三角色 · Token 计费
  • W2 Flux<String> 流式 + 后端 SseEmitter + 前端 EventSource · SSE 三个坑 (超时/重连/[DONE]) · 前端 Vue useStreamChat · 记 TTFT 基线
  • W3 Spring Interceptor JWT 校验 · 对话历史存 Redis (userId:sessionId, TTL=24h) · 滑动窗口 10 轮 · System Prompt 多角色 · Session 隔离
  • W4 Prompt Engineering for Developers (5h) · Zero/Few-shot/CoT/ReAct 4 策略对比 · System Prompt 库 · Browser Agent Prompt 模板 3-5 个
Python · 0h
  • 副线 6 月启动
CG · 56h
  • W1 L1 概览 + L2 线性代数 · 叉积/点积几何意义 · 虎书 Ch.2 · 作业 0 (旋转一个点)
  • W2 L3 2D 变换 · 缩放/旋转/切变 · 齐次坐标 · 变换复合顺序 · 虎书 Ch.6
  • W3 L4 3D 变换 + MVP · 罗德里格斯 · 视图/正交/透视 · 虎书 Ch.7
  • W4 作业 1 实现 get_model/view/projection_matrix · 提高: 任意轴旋转 · L1-L4 cheatsheet
Algo · 28h
  • W1 左程云 001-006 · 导论 + 二进制位运算 + 选/冒/插排序 + 对数器 + 二分搜索
  • W2 007-012 · 时间复杂度 + 数据结构介绍 + 链表入门题
  • W3 013-018 · 栈/队列 + 双端队列 + 二叉树三种遍历
  • W4 019-024 · 笔试输入输出 + master 公式 + 归并 + 随机快排
milestones
Spring AI 完整跑通 (流式 + JWT + Redis + Prompt 库)
GAMES101 L1-L4 视频 + 笔记 + 作业 0/1 完成
左程云 001-024 学完 + LeetCode ≥ 15 题
06·
132 h 6 月 · 双轨启动
Browser Agent 打地基 · Python / Next.js 入门
Java · 56h
  • W1 Spring AI @Tool 注解 / FunctionCallback · Anthropic Cookbook tool_use 实战 2-3 example · LLM 选工具流程: 定义→注册→选择→执行→回传
  • W2 Playwright Java 试水 — 启动 headless Chrome · 封装 Browser Tool 第一组 (navigate / click / type / screenshot / getDom) · ChatClient + Browser Tool 端到端 demo
  • W3 Spring AI RAG · DocumentRetriever + Embedding (text-embedding-3-small / 智谱 / BGE) + Vector Store (Chroma/Redis Stack/pgvector) · QuestionAnswerAdvisor 跑通
  • W4 操作记忆 RAG — 成功流程 + 失败案例库切块入 Chroma · 下次类似任务可检索复用 · 评估复用率/准确率
Python · 20h
  • W1 uv/mise 配 Python 3.12 · LangChain 基础 ChatModel/PromptTemplate/Chain · Spring AI 概念对照 (Advisor≈Runnable) · 第一个 LangChain ChatBot CLI
  • W2 ConversationBufferMemory / SummaryMemory / VectorStoreRetrieverMemory · @tool 装饰器 · ReAct Agent 自主循环
  • W3 ChromaDB 本地向量库 · 完整 RAG 链 Load→Split→Embed→Store→Retrieve→Generate · 跟 Spring AI 实现对比
  • W4 Next.js 14 App Router (路由/SSR/API routes) · shadcn/ui + Tailwind · Hello World 全栈: Next.js → FastAPI → LangChain · 部署 Vercel + Railway
CG · 28h
  • W1 L5 光栅化 · 三角形 → 像素 · 采样
  • W2 L6 反走样 · MSAA / SSAA · 频域分析
  • W3 L7 着色 1 · Blinn-Phong · 光源模型
  • W4 L8 着色 2 · 纹理映射 · 作业 2 Triangle Rasterization
Algo · 28h
  • W1 025-029 哈希表 + 比较器 + 排序总结
  • W2 030-035 异或骚操作 + 二叉树递归套路
  • W3 036-041 二叉树非递归 + 层序
  • W4 042-048 链表 + 链表+哈希混合
milestones
Browser Agent 第一组 Tool 跑通 (LLM → Chrome 自动操作)
Spring AI RAG 调通, 操作记忆 + 失败案例库可检索
Python LangChain 基础 RAG 跑通
Next.js + FastAPI 全栈 hello world 部署 Vercel
07·
132 h 7 月 · v0.1 端到端
Browser Agent v0.1 · Python 全栈练习
Java · 56h
  • W1 Spring AI Advisor 链编排 · 多 Advisor 串联 (Logging + Memory + RAG)
  • W2 ReAct Agent 循环: 观察(getDom/截图) → 思考(LLM) → 行动(Tool) → 反馈, 自主跑多步任务
  • W3 Browser Agent v0.1 端到端: 自然语言 → 自主完成简单 web 任务 (打开网页/搜索/提取信息)
  • W4 录制 Demo Video (3-5 分钟) + 单元测试 + 性能基线 (任务成功率 / 步骤数)
Python · 20h
  • W1 LangChain Memory 进阶 + Chain 编排 (LCEL)
  • W2 Python 全栈 hello world 完整化 (Next.js + FastAPI + LangChain 真实交互)
  • W3 ChromaDB 持久化 + 多 collection 管理
  • W4 副线项目 1 (Obsidian RAG) 架构设计 (8 月动工前预习)
CG · 28h
  • W1-2 L9-L10 几何 1-2 · 隐式/显式表面 · 贝塞尔/B-Spline 曲线
  • W3-4 L11-L12 几何 3-4 · 网格简化 · 细分曲面
Algo · 28h
  • W1 049-054 二叉树深度题
  • W2 055-060 二叉树高频题
  • W3 061-066 二叉树题型套路
  • W4 067-072 链表与二叉树综合
milestones
Browser Agent v0.1 端到端 (LLM 自主完成简单 web 任务) + Demo Video
副线项目 1 (Obsidian RAG) 架构设计完成, 8 月动工
08·
132 h 8 月 · 公开化
Browser Agent v0.5 · Obsidian RAG v0.1 公开
Java · 56h
  • W1 复杂 Tool 集 (waitForSelector / 复杂选择器 / 多页面 tab 管理)
  • W2 表单填写 + 复杂交互 (下拉/弹窗/iframe/认证)
  • W3 截图反馈机制 — 操作后截图 → LLM 看 → 判断成功 or 重试
  • W4 跨页面跳转 + 状态持久化 (Redis) · Browser Agent v0.5 内部 demo
Python · 20h
  • W1 Obsidian Vault 数据加载 (md 解析 + 链接图谱)
  • W2 RAG 全套 (chunk + embed + Chroma) + 简单 chat UI (Next.js + shadcn/ui)
  • W3 Demo Video 录制 + README 中英双语
  • W4 GitHub 公开 + Vercel 部署 + 朋友圈/小红书/V2EX 找第一批用户
CG · 28h
  • W1-2 L13-L14 光线追踪基础 · Whitted-style RT · 加速结构 (BVH/KD-tree)
  • W3-4 L15-L16 辐射度量学 + 渲染方程 · 蒙特卡洛积分
Algo · 28h
  • W1 073-078 链表进阶题
  • W2 079-084 滑动窗口
  • W3 085-090 单调栈
  • W4 091-096 单调栈高频
milestones
Browser Agent v0.5 (多步骤 + 表单 + 截图反馈)
Obsidian RAG v0.1 GitHub 公开, README + Demo 完整
Obsidian RAG 收到第一批用户反馈
09·
132 h 9 月 · v1.0 落地
Browser Agent v1.0 公司业务流落地 · Obsidian RAG v0.2
Java · 56h
  • W1 错误恢复机制 (重试 / 回退 / 降级 / 异常分类)
  • W2 Spring AI 评估接入 LangSmith Java SDK · 任务成功率/步骤数/失败回滚率 metrics
  • W3 Browser Agent 落地一个公司业务自动化场景 (跑回归/数据录入/跨系统操作)
  • W4 Browser Agent v1.0 发布 + 1 篇深度博客「在 Java 阵营做 Browser Agent」
Python · 20h
  • W1 整理 Obsidian RAG 用户反馈 · 列 v0.2 feature 优先级
  • W2 添加 多 embedding 对比 (OpenAI / 智谱 / 本地 BGE)
  • W3 添加 Wiki 链接图谱可视化 + 跨笔记问答
  • W4 Obsidian RAG v0.2 发布 + 1 篇博客 (Obsidian RAG 实战)
CG · 28h
  • W1-2 L17-L18 光追进阶 · 路径追踪 · 重要性采样
  • W3-4 L19-L20 材质 · BRDF · 微表面模型
Algo · 28h
  • W1 097-102 单调队列
  • W2 103-108 单调队列高频
  • W3 109-114 字典树 (Trie)
  • W4 115-120 字典树高频
milestones
Browser Agent v1.0 (错误恢复 + 公司业务流落地 + LangSmith)
Obsidian RAG v0.2 (多 embedding + 链接图谱 + 跨笔记问答)
2 篇深度技术博客 (Java Browser Agent + Obsidian RAG)
10·
118 h 10 月 · 多模态 + 多 Agent
Browser Agent v1.5 多模态 · Obsidian RAG v0.5 收尾
Java · 56h
  • W1 Spring AI 多模态调用 (Vision API: GPT-4o / Claude / 智谱 GLM-4V)
  • W2 Browser Agent 加 视觉理解: 操作后截图 → LLM 看 → 判断状态/找下一步元素
  • W3 复杂页面适配 (动态加载 / 长滚动 / 弹窗) — 多模态 vs DOM 双通道决策
  • W4 Browser Agent v1.5 发布 + 任务成功率优化报告
Python · 20h
  • W1 LangGraph 官方文档 + DeepLearning.AI 课 · 建立直觉
  • W2 LangGraph 实战: supervisor / 路由 / 状态机
  • W3 Obsidian RAG v0.5 加多 Agent (检索 Agent + 总结 Agent + 引用 Agent)
  • W4 Obsidian RAG v0.5 发布 · 项目 1 收尾 (项目 2 AI Code Reader 11 月动工)
CG · 14h
  • W1-4 L21-L22 收尾 · 动画 (Key Frame / Mass-Spring) + 仿真 · 0.5h/天
Algo · 28h
  • W1 121-126 字符串匹配 (KMP/Manacher)
  • W2 127-132 字符串高频题
  • W3 133-138 并查集
  • W4 139-144 并查集高频
milestones
Browser Agent v1.5 (Spring AI 多模态 · 视觉理解页面)
Obsidian RAG v0.5 (LangGraph 多 Agent), 副线项目 1 收尾
GAMES101 主体讲完
11·
116 h 11 月 · 多 Agent 协同
Browser Agent v2.0 多 Agent · AI Code Reader 启动
Java · 56h
  • W1 多 Agent 架构设计 (Planner 拆任务 / Executor 执行 / Verifier 验证)
  • W2 Planner Agent · LLM 把复杂任务拆成子步骤树
  • W3 Executor + Verifier Agent 协同 + 失败重新规划
  • W4 Browser Agent v2.0 内部发布 + 跑复杂业务流 demo
Python · 32h
  • W1 AI Code Reader 架构: GitHub URL → clone → 解析 → AI 生成代码地图
  • W2 代码解析 (AST / tree-sitter) + 模块依赖图
  • W3 LLM 生成代码导览文档 + 关键流程图 (mermaid)
  • W4 Next.js 前端展示 + Vercel 部署 + GitHub 公开 v0.1
CG · 0h
  • 暂停 · 集中精力副线 v1.0
Algo · 28h
  • W1 145-150 DP 入门 (1D)
  • W2 151-156 DP 中等 (2D)
  • W3 157-162 DP 区间
  • W4 163-168 DP 子序列
milestones
Browser Agent v2.0 (Planner + Executor + Verifier 多 Agent)
AI Code Reader v0.1 GitHub 公开
1 篇技术博客 (Browser Agent 多 Agent 架构演进)
12·
116 h 12 月 · 开源 + 收尾
Browser Agent 开源 · AI Code Reader v1.0 · 综合收尾
Java · 56h
  • W1 Browser Agent 完整文档 · 架构 / 接入指南 / 故障排查 / API reference
  • W2 GitHub 开源准备 (README 中英文 / Demo Video / 推广素材)
  • W3 Spring AI 多模型路由 + 成本控制 (Browser Agent 调用次数多, 成本敏感)
  • W4 GitHub 公开 + 1 篇综合博客 + 12 个月学习年度沉淀
Python · 32h
  • W1 LangSmith 接入 (Trace / Eval / Dataset) — 给两个 Python 项目都加
  • W2 AI Code Reader v0.5 — 加流程图生成 + 用户反馈迭代
  • W3 AI Code Reader 中英双语 README + 用户教程 + 部署优化
  • W4 AI Code Reader v1.0 发布 + 推广 + 年度沉淀
CG · 0h
  • 暂停 · 主体已学完
Algo · 28h
  • W1 169-174 DP 进阶 (路径)
  • W2 175-180 DP 高难度
  • W3 181-188 图论 (BFS/DFS/最短路)
  • W4 189-197 图论高频 + 197 集全部学完
milestones
Browser Agent GitHub 开源 (Java 阵营首个完整实现) + 综合博客
AI Code Reader v1.0 完整 (LangSmith 评估 + 双语文档)
三作品 GitHub 完整呈现 · 左程云 197 集学完 · 8 块能力覆盖完