99% 的 50 次方，用 AI Agent 前該懂的事

Table of Contents

當 AI 可以將一件事做到 99% 正確率，但若要執行 20 個步驟的任務時，成功率會降到 82%；當任務需要 50 個步驟時，成功率更降低到 60%。（圖表資料來源：metr.org）

這對我來說意味著：

第一：拿 Agent 來做什麼很重要

過程中能被檢查的工作流，怎麼把一個大目標拆成「可獨立驗證或互動」的「小步驟」，是設計的核心。

越來越覺得這個跟「教育」很像，你能好好教一個人，就可以好好教一個「Agent」

第二：把 Agent 步驟數減少

把 50 步砍成 10 步，整體成功率直接從 60% 跳到 90%。代價只是「多花一點時間在設計流程」。

我在設計複雜任務時，會去考慮有什麼步驟可以合併成一個 tool calls；若找得到的話，就會去用，來大幅增加我的 Agent 成功率。也因此，我最近買了不少軟體來使用，因為現成軟體常常已經把多步驟封裝成一個成熟的 API。

第三：驗證的門檻

當你無法驗證，或驗證起來信心不足，像法律、醫療這種「驗證本身需要 domain expert」的任務，任務對你影響越大，就越不容易被取代，你還是希望有「可以做好驗證的人」可以對你負責任。

第四：長任務就用更強的模型，不要不捨得

當模型的正確率 95% 時，20步驟的任務成功率剩下多少你知道嗎？是「36%」

越長步驟的任務，要用正確率越高的模型（通常也是越貴的模型）。不要不捨得用，模型正確率越高，你的「長任務」成功率越高

第五：跳出「追求正確率」這個框架

發散思考，找出隱藏的思考維度，這種沒有正確性的事情，自然就不會有成功率的議題。

在這類任務上，你要讓 Agent 幫助你窮盡所有的可能性，因為 AI 的速度比你更快。這也是我設計 Product Planning skill 的初衷。

Mr. PM 下午先生

PM可以是產品經理、下午、Pig Man，但絕對不是Poor Man