2026年6月11日 星期四

[AI 工程化] Agent技能評估方法

 [AI 工程化] Agent技能評估方法

摘要 : 用Eval建立Agent技能評估流程,從定義成功到自動檢查,讓每次改進都有依據。

內容:

很多時候我們覺得Agent「好像變好了」,其實只是換了一種失敗方式。要讓技能從「看起來能用」變成「確實能用」,關鍵是建立一套可驗證的Eval流程:給Agent提示詞、記錄行為,再用明確規則評分,不靠感覺,而是檢查它執行了哪些命令、建立了哪些檔案、輸出是否符合規範。

在寫技能前,先定義什麼叫成功,並把檢查拆成四個維度:結果目標(任務是否完成)、過程目標(是否按預期步驟執行)、風格目標(輸出是否符合格式與規範)、效率目標(是否有多餘命令或浪費token)。每個維度都要有清楚的通過標準,才能後續自動化評估。

技能定義本身也很重要。Codex技能通常是一個目錄加上一個skill.md,其中name和description會影響技能何時被觸發。描述若過於模糊,可能導致技能誤觸發,或該觸發時卻沒有觸發。因此在自動化前,應先手動跑幾次,找出隱藏假設,例如誤判環境、漏掉安裝步驟,或在不適合的情境下啟動技能。

測試集不需要很大,10到20個提示詞通常就夠,但要涵蓋三類情境:直接點名技能的顯式呼叫、只描述需求的隱式呼叫,以及驗證不該觸發時真的不會觸發的負面控制。這樣可以同時檢查技能描述是否清楚、觸發條件是否合理,以及邊界案例是否安全。

評分方式可分兩層。第一層是確定性檢查:透過Codex.exec輸出結構化事件流,解析後檢查是否執行npm install、是否建立package.json、命令順序是否正確等。這類檢查完全可重複、容易除錯,也能精準對應失敗步驟。第二層是基於規則的結構化評分,像程式碼風格、配置正確性、元件結構合理性等,用output schema產生可比較的JSON結果。

評估系統建立後,還能持續擴充,例如追蹤命令次數防止無限迴圈、監控token用量避免提示詞膨脹、加入建置檢查與冒煙測試、確認git status乾淨且沒有多餘檔案。重點是:評估不是可選項,而是AI工程化開發的基礎。只要讓真實失敗持續回饋測試集,就能把每次改進量化,也能及早發現回退問題。

沒有留言:

張貼留言