开云(中国)2026世界杯官方app下载 探索智能体工程的 5 个警告


客岁12月,我在玩 Ollama 和 Gemini API,试图创建一个能运行近似 DND(龙与地下城)笔墨冒险游戏的 Agent。我最终破除了,因为状态照顾对 Ollama 来说太难了,致使对 Gemini 2.0-flash 来说也太穷苦。我最终破除了创建一个可用的 DND 模拟器,转而作念了一个肤浅的计数器,附带一个旁白来解释用户的更新操作。
在那次尝试为止时,我得出的论断是:
"让 LLM 更新状态,就好比让詹姆斯·乔伊斯帮你报税通常离谱。"
然而,在那之后的几个月里,我收回了我方说的话。Claude Code、OpenClaw 以及最近几个月自满的一系列 Agentic 程序,集体震荡了通盘这个词科技行业。我第一次使用 Claude Code 是在二月中旬,用来完成 BetaZero UI 的构建。其速率、体量和编码能力远远稀奇了我之前从 Agentic 编码用具中体验到的任何东西。
是以,带着这个布景……
容颜 1:James Joyce,税务助手
https://github.com/EvanMcCormick37/mvp-james-joyce
这是我要谈到的容颜中的第一个。我用了 2 天时辰完成了它,作为丹佛一家公司第三轮口试的作品(我走罢了一齐四轮口试,但缺憾地未能赢得实习契机)。

我花了简略一个小时细则了率先的见识。一个能指引你了解税务情状、帮你列出可能有阅历赢得的扣除项的 Agent,同期还会构建一个活动斟酌,匡助你赢得最大可能的税务扣除。
警告 1:快速迭代,手动测试
当我率先有这个念念法时,职责流看起来与上头的图表十足不同。我率先设念念模子是一个 Agentic Graph-RAG 问答系统,使用基于当年官方 IRS 出书物构建的常识图谱和向量数据库。我念念象用户建议一个问题,模子提供一个班班可考、带来源的谜底,同期附带 1-2 个干系问题,匡助细则用户的扣除阅历。
我辩论了架构,草拟了一份 ARCHITECTURE.md,然后用 Claude Code 在不到一小时的时辰内完成了一次 one-shot 构建。
但当我履行使用这个诳骗时,嗅觉有些不合劲……
问题出在问答职责流上。用户的每条述说和问题齐会收到一大段笔墨复兴,末尾附带一个参谋财务历史中某个就场所面的问题。这既不是优雅的对话,也不是简约时辰的诳骗。事实确认,模范的 RAG 文档问答职责流在这个用例中压根行欠亨。
于是我尝试了别的循序。我径直和 Gemini 聊了聊我可能赢得的扣除项,然后念念象何如校正这个体验。

在原始基础模子上测试职责流。
Gemini 的执意在于其对话性。它廓清地回答了每个问题,给了我探索的标的,况且从不让东谈主认为它在强行倾销某个话题。这便是对话式 Agentic 诳骗的上风所在。
我再行诊治了联想,优化对话进程而非数据组织。我大幅简化了凹凸文工程:我用一个 YAML 文献替代了通盘这个词 Graph-RAG 系统,将 IRS 个东谈主扣除指南诊治后作为系统教唆的凹凸文。模子使用 tool-calling 来更新三个输出文献:user-profile.yaml、deductions-tree.yaml 和 action-plan.yaml。我莫得让模子试图用无穷的援用往复答用户问题,而是告诉它专注于建议正确的问题:我让它把对话作为一场"20个问题"的游戏,尽量用最少的对话轮次细则用户的通盘扣除阅历。
警告 2:能用一个 Agent 处置的,就不要用两个
这少许应该不言自明。在联想诳骗架构时,我率先辩论使用一个 Agent 与用户对话,另一个来更新状态。同期,细则用户的税务扣除阅历要么使用 Agentic Graph-RAG + 推理模子,要么使用一个"税务引擎"(一个 DAG,每个节点包含一个规划或决策。念念念念杂志上那些"你的男性名东谈主偶像是谁?"的性情测试题,只不外问题形成了"你有阅历赢得哪些税务扣除?")。但枢纽在于:多个 Agent 意味着多个"凹凸文"。"状态更新"Agent 需要了解几许对话内容能力正确更新状态?它的凹凸文每次齐通常吗,照旧随每次函数调用而修改?Agent 之间何如"通讯"?它们是开启对话,照旧使用"音问"函数互重复信?
你的程序中运行的 Agent 越多,出现误相通、杂乱乃至失败的空间就越大。道理的是,这亦然联想细则性系统时的一个好准则:一个单体奇迹容器平时比 10 个通过易拉罐和绳索互重复信的微奇迹更优雅、更容易竣事。
警告 3:尊重 KV Cache
在率先构建诳骗时,我一直在纠结何如向模子提供诳骗确刻下状态(总结一下:user-profile.yaml、deductions-tree.yaml、action-plan.yaml)。咱们的税务助手必应知谈诳骗确刻下状态能力建议"最优"问题(即能处置最多未细则扣除项的问题)。但咱们应该何如向它提供这些状态呢?淌若咱们只是在每次用户回答时不停提供新状态,开云体育·(KAIYUN SPORTS)官方网站就会在凹凸文窗口中塞满旧状态的"阴魂"。咱们照实需要一种循序让模子识别诳骗确刻下状态,况且只是是刻下状态。我率先的念念法既肤浅又纯真:把状态径直响应到系统教唆中!
这是一个枢纽诞妄。
LLM 有一个叫作念 KV Cache 的特质。它保存了与之前生成文本关联的已规划推理值。因此,在每个生成体式中,模子只规划最近生成 token 的关联。这意味着:1) 模子的运行老本显赫镌汰,2) 它的扩展是线性的而非二次的(尤其适用于长凹凸文窗口),3) 你弥远不应该修改凹凸文窗口开始的 token。
淌若你照实裁剪了模子凹凸文窗口开始的凹凸文,就会迫使它再行规划你裁剪之后每个 token 的 KV 对。这颠倒奋斗。我第一次运行 James Joyce 的"凹凸文注入"竣事时,一次 20 轮的对话就在 Anthropic API 上花了 1.50 好意思元。
我最终秉承的处置有筹办是将刻下状态作为用户刻下问题的前缀注入,并在每次新的对话体式中,从用户之前的问题中剥离落伍的状态。淌若让我回头校正这个容颜,我会尝试在每个用户查询中保留通盘状态视图。
容颜 2:Scathach Agentic 导师
https://github.com/EvanMcCormick37/scathach-tutor

我在 Scathach 上确刻下"统计"页面
这个容颜与我的个东谈主经历更近一些。畴昔一年我读了许多东西:筹商讲述、寂然著作、筹商论文、博客著作等等。然而,我时时哀悼我方并莫得信得过从所读的内容中学到东西,或者这些常识在几个月莫得深切战争后照旧渐忘了。
大发官方网站手机appLLM 匡助我发展和测试对所读论文的剖析。它们让我能立即与一个了解干系话题的实体进行对话。它们还不错创建测试题,让我能在惊东谈主的深度上测试我方对某个话题的剖析。但我但愿这些对话能在我脑海中留住握久的印象。
为了处置这个问题,我构建了 Scathach。它履行上便是"阅读著作 -> 回答对于该著作的小纯熟"的职责流,封装成了一个 Python 包。除了基本的纯熟功能外,它还将通盘已回答的问题存储在配备了 FSRS 算法的数据库中,这么跟着越来越多的文档被导入系统,用户不错遴荐性地温习他们最不擅长的文档。它现在不错作为 Python 包安设在你的腹地 Python 环境中。
警告 4:警惕范围扩展

在迭代 Scathach 和 James Joyce 时,我率先用 React 前端 + REST API + FastAPI 后端构建了 MVP。为什么不呢?归正编码通盘这个词东西也只花了 15 分钟。
事实确认,即使有 Agentic 编码用具,范围扩展也口角常实在的。重构往往比开动构建更毒手,况且当你 vibe coding——对不起,"Agentic 工程化"——时,你一出手并不会对架构有深切的剖析。
我很快发现我方更心爱在莫得"全栈"架构的情况下建立这两个诳骗。当我出手联想和构建这些诳骗时,我对念念要什么和用例是什么有一个简略的念念法,但对职责流会是什么样式并莫得廓清的愿景。我发现这个肤浅的联想周期在快速迭代和校正居品联想方面颠倒宏大:
联想 -> 竣事 -> 手动测试
一朝我对 Scathach 的职责流感到沉静,我可能会把它构建成可实践文献或云诳骗。不外现在,我夸口于持续用我阿谁小巧的 Python 模块进行迭代。
警告 5:规模常识弥远弥留
是以……我照实尝试过把 Scathach 构建成可实践文献。更准确地说,我让 Claude Code 把 Scathach 构建成可实践文献。我念念把它移植成一种我爸爸(他不太懂工夫)能使用的体式。它构建了完竣的前端和 API,将后端编译成二进制文献,并使用一个 Rust 库将通盘内容打包成一个不错安设到用户电脑上的 .exe 文献。
那么,我对 Rust、Tauri 或者将诳骗编译成二进制 .exe 文献了解几许?一窍欠亨。但 Claude 了解,是以应该没问题。嗯,淌若我有这些方面的经验,可能照实没问题。
履行发生的是,我花了一个小时搞廓清为什么 npm 构建剧本不职责,然后又为 Tauri 二进制文献查找和体式化图标,终末顺利安设了 .exe……着力安设后的程序打不开。
固然,我折服只是犯了某个入门者差错。在 Tauri+Rust 二进制编译方面更有经验的东谈主会坐窝修好它。况且我信托淌若给阿谁东谈主 Claude Code 的使用权,他们会构建一个好 10 倍的诳骗版块,况且会怀恨说"这不是我我方写的"。但从某种真谛真谛上说,他们照实写了。即使在依赖"行家 Agent"的时候……
……东谈主类专科常识仍然很弥留。
这亦然我暂时把这个诳骗保留为 Python 剧本的另一个原因。独一我剖析它,我就能智能地持续更新它。
看到东谈主们为了"Agentic 智能"而破除东谈主类专科常识,这让东谈主感到缺憾。我认为社会正在走向《蠢蛋进化论》和《瓦力》那样的漫画式反乌托邦。但即使在智能 AI 系统的期间,那句老话依然适用:垃圾进,垃圾出(Garbage In, Garbage Out)。
就这些了,列位!淌若你念念试试 Scathach开云(中国)2026世界杯官方app下载,只需按照 README 上的安设确认操作即可。