2026年6月10日 星期三

[AI 分享] Fable5實測觀察

 [AI 分享] Fable5實測觀察

摘要 : Fable5整體更強但更貴,視覺與推理表現亮眼,安全限制也更嚴格,部分任務仍未全面勝過GPT5.5。

內容:

最近 Cloud 釋出了 Fable5,定位大致和 Mythos5 同級,但它更面向一般使用者,且預設帶有更強的安全防護。整體來看,Fable5 的價格非常高,約是 GPT 模型的兩倍;如果把思考強度開高,會變得又慢又貴。不過從實際表現來看,它的品質確實不錯,在多個基準測試上都優於 GPT5.5。

Fable5 這次的一個重點升級是視覺能力更強。它已經可以透過極簡的純視覺工具鏈完成像寶可夢這類任務,不再像以前那樣高度依賴複雜的輔助工具。Curser 方面也認為它是 Curser Bench 上目前最先進的模型,其中 Fable5 MAX 最強,但同時也是最昂貴的;High 與 Medium 則相對更有性價比。而這幾個版本的整體能力,都被認為超過 GPT5.5 Extra High,不過 GPT5.5 在價格上仍便宜非常多。

在專業應用方面,Physics 公司表示,Fable5 是他們在前沿物理研究中測過最強的模型。它花 36 小時,幾乎達到 GPT 用 4 天才能到的位置,顯示出它在高強度研究任務上的潛力。

Curser 工程師也分享了使用經驗。過去團隊主要是在驗證 Curser 是否「把工作做對」,需要人工拆分任務、逐步檢查輸出、捕捉提前停止等問題;但現在他們更多是在驗證 Curser 是否「在做正確的工作」。也就是說,它不再只是被動執行指令的工具,而能成為思考夥伴。實務上,可以在早期就讓它參與思考,只給一個小規格(Spec),再讓 Curser 反過來訪談需求、補齊細節。若再結合 CC 的相關工作流,就能讓 Curser 持續工作,並平行驗證自己的計畫。這也帶來一個很重要的啟發:那些以前覺得大語言模型做不到的任務,現在也值得交給 Fable5 試試看。

目前官網已經能看到 Fable5 的選項,但有使用限制:在 6 月 22 日前,Pro 或 Max 會員可以使用;從 6 月 23 日開始,不論是 Pro 還是 Max,用 Fable5 都必須額外啟用用量額度,並改為按 API 計費。

也有不少外部評測出現。AK 認為 Fable5 的重要性,大致相當於去年 11 月 Curser Opus 4.5 的那種等級。Augmentor 的測試則顯示,Fable5 整體上比 GPT5.5 更聰明,正確率也略高;處理時間差不多,但在相同任務下,Fable5 平均消耗的 token 幾乎是 GPT5.5 的兩倍,費用也幾乎是兩倍。

不過,Fable5 這次的安全防護也強到讓人相當有感。如果模型判定話題涉及它認為不安全的網路問題、生物化學,或蒸餾相關風險,它可能會直接降級,退回到 Opus 4.8。這點非常令人困擾,因為花了更高的價格,結果卻可能被切換到較弱的模型。另外,對話資料目前似乎只保留 30 天。

官方也提供了一些提示詞指南。Ansysopic 建議多數任務預設用 Hi 模式;Fable5 的指令遵循能力更強,通常不需要把每個行為都寫得非常死。若是長時間執行的任務,則要要求模型在回報前,對照工具呼叫結果逐條審計進度說明。由於 Fable5 有時會主動做超出請求的事,因此在提示中應明確規範它的行動邊界。另外有一點非常重要:不要要求 Fable5 重述推理頁,這被認為是官方用來防止模型蒸餾的保護措施之一。

接下來是一些實測結果。我把 Fable5 和 GPT5.5 都開在 Hi 推理模式,拿來比較複雜前端互動任務的表現。從 Curser Bench 的花費來看,Fable5 Hi 單個任務大約要 10 美元,而 GPT5.5 Hi 約為 3.5 美元,成本差距很明顯。

在「彩色玻璃萬花筒」這個任務上,認為 GPT5.5 做得更好。  

但到了「動態字型海報排版機」,Fable5 的表現就非常突出,幾乎是全面壓過 GPT5.5。不論是斜切網路、圓形路徑、巨型字母裁切,還是縱橫混排的密集報紙欄、自由散點構圖,它都做得非常完整,設計感也很強。就我目前測過的多個模型來看,這是海報排版類任務中表現最好的一個。

在「機械腕錶爆炸圖」上,Fable5 生成的結果雖然可以展開並標示零件,但拖曳互動沒有做好;整體視覺上,我反而覺得 GPT5.5 稍微更好一些。

「桌面行星儀」這題則是 Fable5 很亮眼。它對球體材質的處理非常高級,像景泰藍、琉璃等質感表現得很好,而且球體移動時,下方還會有影子跟隨,玻璃反射效果也相當到位。不過它還是有錯,例如齒輪擺放位置不正確。即便如此,整體效果仍明顯優於 GPT5.5;如果用 MAX 模式,理論上應該還會更好。

在「咖啡館排隊曆劇場」這類任務裡,Fable5 雖然比 Opus 4.8 有進步很多,但以我目前的觀察,GPT5 在這題上還是表現更好一些。

至於「迷你印刷機」,Fable5 的整體理解已經很不錯。以前不少模型根本不理解活字排版,字模甚至會做成鏡像;Fable5 至少已經理解概念,也能做出壓印動畫。不過它仍有細節錯誤,例如字應該是凸出的,結果卻做成凹進去。

也在 CC 裡調用 Fable5 X-High 生成「縴夫拉船」場景。這是測過眾多模型中表現最好的一次。水流模擬非常到位,遠山、江面飛鳥等背景細節都有做出來。雖然繩索綁定位置不完全符合現實,但模型有注意到船上應該安排船伕,這點非常關鍵,因為連 GPT5.5 Pro 在內的其他模型都忽略了。更厲害的是,船伕的步態也有動感,整體思考相當完整。

另外,也讓 CC 生成一個展示森林露營房車的體素藝術場景。結果細節非常豐富:房車、展開的棚子、野餐墊、小桌子、花草元素、車頂工具,以及穿過森林縫隙灑落的陽光,都表現得很漂亮,整體是一個非常美的畫面。

最後,讓它嘗試做交通模擬,同樣選擇 X-High 模式。這次就不太理想了,模型思考了 20 多分鐘仍然沒有結果,甚至消耗了額外積分。這個任務至少花了 10 美元都沒解決,最後我只能手動暫停。

總結來說,Fable5 確實是一個更強、更聰明的模型,特別是在視覺理解、設計感、複雜場景細節與部分高階研究任務上,都展現出非常強的能力。但它的缺點也很明顯:價格高、token 消耗大、安全限制嚴格,而且在部分任務上仍不一定全面勝過 GPT5.5。若你追求最前沿能力,Fable5 很值得關注;但若從成本與穩定性來看,是否划算仍要依照實際場景評估。

沒有留言:

張貼留言