Table of Contents
當 AI 可以將一件事做到 99% 正確率,但若要執行 20 個步驟的任務時,成功率會降到 82%;當任務需要 50 個步驟時,成功率更降低到 60%。(圖表資料來源:metr.org)

這對我來說意味著:
第一:拿 Agent 來做什麼很重要
過程中能被檢查的工作流,怎麼把一個大目標拆成「可獨立驗證或互動」的「小步驟」,是設計的核心。
越來越覺得這個跟「教育」很像,你能好好教一個人,就可以好好教一個「Agent」
第二:把 Agent 步驟數減少
把 50 步砍成 10 步,整體成功率直接從 60% 跳到 90%。代價只是「多花一點時間在設計流程」。
我在設計複雜任務時,會去考慮有什麼步驟可以合併成一個 tool calls;若找得到的話,就會去用,來大幅增加我的 Agent 成功率。也因此,我最近買了不少軟體來使用,因為現成軟體常常已經把多步驟封裝成一個成熟的 API。
第三:驗證的門檻
當你無法驗證,或驗證起來信心不足,像法律、醫療這種「驗證本身需要 domain expert」的任務,任務對你影響越大,就越不容易被取代,你還是希望有「可以做好驗證的人」可以對你負責任。
第四:長任務就用更強的模型,不要不捨得
當模型的正確率 95% 時,20步驟的任務成功率剩下多少你知道嗎?是「36%」
越長步驟的任務,要用正確率越高的模型(通常也是越貴的模型)。不要不捨得用,模型正確率越高,你的「長任務」成功率越高
第五:跳出「追求正確率」這個框架
發散思考,找出隱藏的思考維度,這種沒有正確性的事情,自然就不會有成功率的議題。
在這類任務上,你要讓 Agent 幫助你窮盡所有的可能性,因為 AI 的速度比你更快。這也是我設計 Product Planning skill 的初衷。