[AI 工程化] Agent技能評估方法

2026年6月11日星期四

[AI 工程化] Agent技能評估方法

摘要 : 用Eval建立Agent技能評估流程，從定義成功到自動檢查，讓每次改進都有依據。

內容:

很多時候我們覺得Agent「好像變好了」，其實只是換了一種失敗方式。要讓技能從「看起來能用」變成「確實能用」，關鍵是建立一套可驗證的Eval流程：給Agent提示詞、記錄行為，再用明確規則評分，不靠感覺，而是檢查它執行了哪些命令、建立了哪些檔案、輸出是否符合規範。

在寫技能前，先定義什麼叫成功，並把檢查拆成四個維度：結果目標（任務是否完成）、過程目標（是否按預期步驟執行）、風格目標（輸出是否符合格式與規範）、效率目標（是否有多餘命令或浪費token）。每個維度都要有清楚的通過標準，才能後續自動化評估。

技能定義本身也很重要。Codex技能通常是一個目錄加上一個skill.md，其中name和description會影響技能何時被觸發。描述若過於模糊，可能導致技能誤觸發，或該觸發時卻沒有觸發。因此在自動化前，應先手動跑幾次，找出隱藏假設，例如誤判環境、漏掉安裝步驟，或在不適合的情境下啟動技能。

測試集不需要很大，10到20個提示詞通常就夠，但要涵蓋三類情境：直接點名技能的顯式呼叫、只描述需求的隱式呼叫，以及驗證不該觸發時真的不會觸發的負面控制。這樣可以同時檢查技能描述是否清楚、觸發條件是否合理，以及邊界案例是否安全。

評分方式可分兩層。第一層是確定性檢查：透過Codex.exec輸出結構化事件流，解析後檢查是否執行npm install、是否建立package.json、命令順序是否正確等。這類檢查完全可重複、容易除錯，也能精準對應失敗步驟。第二層是基於規則的結構化評分，像程式碼風格、配置正確性、元件結構合理性等，用output schema產生可比較的JSON結果。

評估系統建立後，還能持續擴充，例如追蹤命令次數防止無限迴圈、監控token用量避免提示詞膨脹、加入建置檢查與冒煙測試、確認git status乾淨且沒有多餘檔案。重點是：評估不是可選項，而是AI工程化開發的基礎。只要讓真實失敗持續回饋測試集，就能把每次改進量化，也能及早發現回退問題。

C# .NET Blazor MAUI Xamarin Research

2026年6月11日星期四