2026年6月24日 星期三

[AI 分享] MCP與Skill的區別

 [AI 分享] MCP與Skill的區別

摘要:MCP負責連接工具與外部系統,Skill負責提供知識與方法,兩者搭配可讓AI既能做事也能做好事。




內容:

MCP可以理解為AI連接外部世界的通用介面,相當於幫AI配上手和工具。當AI接上MCP之後,就能夠查詢資料庫、開啟瀏覽器操作按鈕、發送微信,或呼叫各種API。它主要擴充的是AI「能做到什麼」。


Skill則比較像是一份說明書,將一套做法、規範或專業知識整理打包,在需要時自動載入。它相當於給AI一本專業手冊,主要擴充的是AI「能把事情做得多專業」。


兩者的差別可以用一句話概括:MCP提供的是工具與連線,讓AI可以做新的事情;Skill提供的是知識與方法,讓AI可以把事情做得更正確、更完善。


從技術角度來看,MCP通常需要運行一個服務,並與外部系統連接;而Skill通常只是幾個檔案,可以按需載入,成本相對較低。


在選擇上,如果目的是讓AI連接外部資料、執行操作,就適合使用MCP;如果目的是讓AI掌握某套專業做法或工作流程,就適合使用Skill。最理想的方式是兩者結合,讓MCP提供工具,Skill負責教AI如何把工具用好。A

[AI 轉變] 程式設計師與 AI 協作的觀念翻轉

 [AI 轉變] 程式設計師與 AI 協作的觀念翻轉

摘要 : 從一開始不相信 AI 能寫程式,到實際使用後幾乎不再手寫程式碼,展現了開發工作模式的巨大轉變。




內容:


一開始,對於 AI 寫程式這件事,原本抱持非常強烈的懷疑態度。認為複雜的業務邏輯、整套系統架構,以及多年累積下來的實戰經驗,不可能輕易被 AI 取代。甚至覺得,自己十年踩坑換來的能力,不會被一個工具說替代就替代。


當時也曾簡單試用過 Copilot,但初步感受並不深刻,覺得它頂多只能補幾個變數名,像是個小玩具,離真正能參與核心開發工作還差得很遠。因此原本的判斷是,真正複雜且核心的邏輯,最後還是得靠工程師親手完成。


不過,後來實際持續接觸之後,想法開始出現變化。雖然核心邏輯的理解仍然重要,但在實際寫程式的過程中,工作方式已經逐漸轉成以「和 AI 對話,讓 AI 輸出程式碼」為主,而不是自己一行一行手寫。


回過頭來看,曾經還公開放話說完全不相信 AI,如今的態度卻變成:不是不信 AI,而是不信自己竟然還需要親手寫程式碼。這種轉變本身就帶著很強的反差與幽默感。


到了現在,如果問一天手寫多少行程式碼,答案幾乎是零行。日常工作的重心,也不再只是傳統印象中的敲程式,而更像是在工作中分享、討論,甚至到處講述程式設計師與 AI 之間的各種段子與新型態協作方式。


整體來說,這不只是對工具的重新評價,也是一種開發習慣與職能角色的變化:從質疑 AI,到依賴 AI,再到幾乎完全改變寫程式的方式。

2026年6月23日 星期二

[AI 風險提醒] Codex SSD異常寫入問題

 [AI 風險提醒] Codex SSD異常寫入問題

摘要 : Codex本地日誌疑似以Trace級別持續寫入SQLite,可能造成SSD壽命、效能與隱私風險。




內容:

近期有使用者回報,OpenAI Codex CLI 與桌面版可能出現 SSD 寫入放大問題,主因疑似來自本地診斷日誌持續以高頻率寫入 SQLite。若你最近有使用 Codex,建議先檢查本機的日誌檔案是否異常成長,避免 SSD 健康度持續受影響。


自查方式很簡單。Windows 使用者可到使用者個人目錄下的 Codex 資料夾查看 `Logs.r.sqlite`;macOS 與 Linux 使用者則到對應的 Codex 目錄檢查相同檔案。若旁邊同時看到 `WAL` 與 `SHM` 檔案屬正常情況,因為 Codex 採用 SQLite。但若發現 WAL 檔在短時間內快速變大,或只要開啟 Codex 磁碟寫入就長時間偏高,就要特別注意。


根據社群回報,這個問題已被多位使用者重現,有案例指出 21 天內寫入 37TB,也有人在 10 分鐘內寫入 7GB。對一般消費級 SSD 而言,這樣的寫入量相當可觀,可能對壽命造成實質影響。


問題核心不在於「寫日誌」本身,而是預設日誌級別疑似設為 Trace。Trace 屬於非常細緻的開發級日誌,適合除錯與深度排查,但不適合長期預設寫入本地資料庫。更麻煩的是,這部分 SQLite 日誌行為似乎不完全受 Rust Log 設定控制,因此即使用戶已將日誌等級調成 `warn`,本地 SQLite 仍可能持續寫入大量 Trace 級內容。


從已公開的資訊來看,寫入量較大的來源之一是 Responses WebSocket 的原始回應紀錄,另外還包含 OpenTelemetry 相關事件與部分底層依賴日誌。這些內容對一般使用者排查幫助有限,但若全部持久化進 SQLite,就容易形成高頻率、大體積的磁碟寫入。


除了 SSD 壽命外,這件事也牽涉效能、穩定性與隱私。首先,日誌資料庫持續膨脹後,Codex 桌面端可能會越來越慢,特別是在 WSL2 或本身磁碟壓力較高的環境中,可能出現磁碟活躍時間接近 100%。其次,若 `Logs.r.sqlite` 與 WAL 檔過大,可能導致啟動時 SQLite 連線超時,甚至讓 Codex 無法正常開啟。再者,若日誌中保存了 WebSocket 原始內容、對話資訊或任務上下文,也可能帶來本地隱私與資料治理風險。


截至 2026 年 6 月 23 日,GitHub 上已有兩個相關修正 PR 合併進主分支。其一是停止記錄每個成功的 Responses WebSocket 事件;其二是從持久化日誌中過濾高噪音目標,例如部分橋接日誌與 OpenTelemetry 映射事件。這些調整的方向都很明確,就是減少無效日誌寫入本地 SQLite。不過,PR 合併進主分支不代表你目前安裝的版本已經包含修復,因此仍需自行更新並觀察。


如果你是一般使用者,建議先做三件事。第一,立即更新 Codex 到最新版本。第二,完全退出 Codex 後,檢查 Codex 目錄中的 `Logs.r.sqlite`、`Logs.r.sqlite-wal` 與 `Logs.r.sqlite-shm` 是否異常肥大。第三,確認更新後磁碟寫入是否恢復正常。處理時建議只針對日誌檔案,不要直接刪除整個 Codex 目錄,以免誤刪設定或其他重要資料。


如果你是技術人員,或必須暫時使用尚未修復的舊版 Codex,可以考慮一些臨時措施。例如定期執行 SQLite 的 WAL checkpoint,以減少 WAL 檔長期膨脹;但這只能緩解檔案變大,無法真正解決持續寫入問題。更進一步的方式是對 Logs 表建立攔截插入的觸發器,直接阻止日誌寫入,但代價是未來若遇到問題,開發者可用的診斷資訊也會同步減少。另有人會把 Codex 放到 RAM Disk,以避免 SSD 持續被寫入,但這較偏向權宜之計,未必適合所有人。


對團隊與 IT 管理者而言,這次事件也是一個提醒。AI 程式工具不只要評估功能與產出品質,也應納入終端監控範圍,包括磁碟寫入量、日誌目錄大小與程序異常狀態。若工具涉及對話、程式碼片段或業務上下文,更應明確規範儲存位置、保留時間與清理機制,並建立簡單 SOP,讓團隊遇到卡頓或寫入異常時能快速排查與處理。


整體來看,這次 Codex SSD 寫入放大問題,本質上是預設日誌級別與持久化策略設計不當所引發。若你目前仍在使用 Codex,建議立即更新版本、檢查日誌檔案大小,並確認系統磁碟寫入是否存在異常增長。

[AI 分享] 熱門UI落地Skill實測盤點

 [AI 分享] 熱門UI落地Skill實測盤點

摘要 : 實測5款熱門UI設計Skill,涵蓋頁面生成、動效與大廠設計規範,整體表現差異明顯。




內容:

評測了市面上幾款近期很熱門的 UI 落地相關 Skill,主要從生成個人筆記管理頁面的效果、整體設計質感,以及動效與風格還原能力來做比較。


第一款是討論度很高的 Taste Design。作者直接要求它生成個人筆記管理頁面,在沒有提供參考圖的情況下,成品偏簡約清新,但整體缺乏明顯亮點,和預期相比略顯普通,因此評價偏保守,認為大致只有「NPC」水準。


第二款是 Web Design Skill,同樣在無參考圖的前提下生成頁面。它會先讓使用者選擇偏好與風格,而作者認為這類帶預設的 Skill 通常品質都不錯。實際生成結果也非常突出,整體風格高級、完成度高,和前者相比差距明顯,因此給出很高評價。


第三款是來自 X 上開發者製作的動效 Skill,主要用途是替靜態頁面補上微互動。作者先找好設計稿並透過 Figma 連結讓 ClockCode 呼叫此 Skill,生成後可看到兩類效果:首次載入時的入場動畫,以及頁面內元素的互動效果,例如圖表與數字的生長動畫、各元素的 Hover 效果。作者認為這些動效明顯提升了頁面的完整度。


第四款是由中國團隊開發的 Magic Slide。它的互動方式偏向 Keynote 式的轉場,因此整體生成效果很像 PPT。作者認為這類風格不一定最適合一般 UI 頁面,但若拿來做簡報或演示,效果應該會相當不錯,因此仍給予正面評價。


最後一款 Skill 的特色是內建全球 72 家頂級大廠的設計規範,可直接調用特定品牌風格來完成頁面設計。作者先用 Notion 風格生成個人筆記頁面,發現配色與 Emoji 語言都高度貼近原本設計,且細節處理穩定;接著再生成蘋果風格版本,結果同樣很出色,整體辨識度很高。綜合來看,作者認為這款表現最佳,屬於頂級水準,並表示之後會整理這些 Skill 的安裝地址提供給有需要的人。

[AI 分享] Claude Code 前端技能組合

 [AI 分享] Claude Code 前端技能組合

摘要 : 用 Claude Code 做前端時,先補齊設計、系統、元件與檢查五項技能,成品更完整也更不易有 AI 味。




內容:

如果你用 Claude Code 做前端,不要只讓它直接硬寫頁面。先補上幾個關鍵前端 skill,能讓整體成果更成熟、可用,也更有設計感。


第一個是 Frontend Design,主要負責視覺方向。它會先幫你定好版式、字型、配色和動效,讓做出來的頁面不再像制式模板。


第二個是 Design Taste Frontend,重點在提升設計品味。若你要做官網、落地頁或作品集,又不想成品一看就很有 AI 痕跡,這個 skill 能先把整體風格拉開。


第三個是 Tailwind Design System,適合 Tailwind 專案使用。它能把顏色、間距、元件變體與 Dark Mode 整合進同一套設計系統,讓後續開發更一致。


第四個是 ShadGUI,適合 React 加 Tailwind 的後台或 SaaS 工具站。它能讓 Claude 依照 ShadCN 的方式搭建元件,後續維護與調整也更方便。


第五個是 Frontend Design Review,頁面完成後不要急著上線,先用它檢查響應式、可訪問性、設計 Token 與元件一致性。整體順序就是先定設計、再搭系統、再做元件、最後質檢。

[AI 影響] 一人協同18個AI員工的團隊實驗

 [AI 影響] 一人協同18個AI員工的團隊實驗

摘要 : 一名工程師協同18個AI員工,完成模型訓練框架初版,效率被認為可接近傳統30人團隊。




內容:

有團隊分享,現在公司內部已經在實際探索「人類員工+AI員工」的協作模式。其中一位負責基礎設施的人員,背後同時協同18個AI員工,甚至在吃飯時也能透過手機發出文字指令,讓AI持續梳理框架、補強特性與推進任務。


這種以 agent 形式運作的協作方式,被認為效率不是單純的「1加18」,而是遠高於這個數字。公司內部評估後認為,這名員工加上18個AI員工,整體產出能力可能接近過去大廠中約30人團隊的水準。


這組「1加18」的成果,主要是完成了公司第一版的模型訓練框架。18個AI員工並非沒有分工,而是有明確角色配置:其中15個負責實作,3個擔任專案經理。15個實作型AI員工又進一步分成三組:5個做底層框架設計、5個負責模組之間的協同、5個專門撰寫程式碼。3個AI專案經理則各自管理5個AI員工,而這位人類員工主要與這3個專案經理互動,提出需求與調整方向。


在這樣的工作模式下,團隊也形成了新的能力評估標準。分享者認為,如今評估一個人的能力,已不只是看程式寫得多厲害,而是看他每天能否有效提出需求、調動多少API token,以及能否提出多樣化且具體的任務。換句話說,能同時提出框架、coding、特定技術需求的人,反而更有價值。


公司在資源配置上,對API key與code agent的使用給了相當充足的預算,甚至提到相關API成本可能已經遠高於某些單一員工的成本。這也顯示,他們是把AI視為真正的生產力單位,而不只是輔助工具。


在團隊管理上,他們也減少傳統的日會、週會機制,因為認為會議相當耗時。取而代之的是使用AI來整理所有資訊,並透過郵件自動同步每個人正在做的事情,讓團隊成員快速掌握整體進度。


此外,團隊內部還建立了共享 memory 與共享 skill 的機制。每個人每天完成的工作都會進入共享報告,如果同事之間任務重疊,還會有更高層的 agent mentor 主動提醒,指出技術路線的差異、重疊部分,並建議雙方安排會議或私下交流。也就是說,許多原本屬於中台、協調、同步的管理工作,都逐漸交由AI處理。


分享者自己也有5個專屬 agent 協助工作。其中一個用來協助閱讀論文、追蹤新架構與新的訓練方法;另外3個偏向公司技術討論;還有1個財務 agent,協助管理公司預算與財務安排。


整體而言,這段分享想表達的是:即使是學生創業、第一次創業的團隊,在大量引入AI後,也能在某種程度上補足經驗不足的問題。對他們來說,AI不只是工具,更像是一群可以被管理、分工與協同運作的「數位員工」。

[AI 影響] 納德拉重寫程式設計師工作定義

 [AI 影響] 納德拉重寫程式設計師工作定義

摘要 : AI不一定取代工程師,但會重寫其工作內容,重點將轉向管理agent、維持認知覆蓋率與承擔治理型工作。




內容:

最近微軟 CEO 納德拉在《紐約時報》Hard Fork 播客上的一場訪談,提出了幾個非常值得技術工作者重視的觀點。重點不在於他宣布了什麼驚人的新消息,而是他用幾個非常具體的概念,說清楚了許多人隱約感受到、卻一直沒有被講透的變化。


這場訪談裡,有幾句話特別關鍵。像是他提到,未來的軟體開發者可能要管理 100 個、甚至 1000 個 agent;他也提出了「認知覆蓋率」這個概念,用來對照大家熟悉的「測試覆蓋率」;另外,他還說人類在 AI 時代的新價值,是去做「膠水工作」。這些詞單看有點抽象,但串在一起之後,其實指向同一件事:我們過去一直在討論「AI 會不會取代程式設計師」,這個問題本身可能就問偏了。真正正在發生的,不是這個職業消失,而是它的工作內容正在被徹底改寫。


先說訪談背景。這場節目是在 6 月 12 日於舊金山錄製,主持人是《紐約時報》的兩位科技記者 Kevin Roose 和 Casey Newton。納德拉作為微軟 CEO,本來就是全球 AI 產業最核心的人物之一。無論是微軟與 OpenAI 的深度合作、Azure 的雲端算力地位,還是微軟自家剛推出的 MAI 系列模型,都讓微軟在這場 AI 競賽中握有相當厚實的籌碼。


但這場訪談真正有意思的地方,不是他再講一次微軟戰略,而是他回應了很多非常具體、非常落地的問題。其中一個最尖銳的提問是:兩年之後,軟體工程師會變多還是變少?


這個問題之所以敏感,是因為現在外界的爭論非常激烈。一派認為 AI 寫程式越來越強,公司未來不再需要這麼多工程師;另一派則認為 AI 反而會創造更多需求,工程師依然會供不應求。納德拉沒有簡單站隊,而是給出了一個更複雜、也更值得注意的答案:未來軟體開發者需要的技能可能和今天差不多,但工作內容會完全不同。


他用了一個很形象的類比。假如很早以前有人說,未來全世界會有 35 億人變成打字員,你一定會覺得荒謬,因為世界不需要那麼多專職打字員。但今天幾乎每個人都在打字,原因不是打字員變多了,而是打字已經不再是一種職業,而是所有知識工作與資訊工作的基礎能力。納德拉認為,軟體開發也可能走上類似的路。


換句話說,未來的開發者管理的未必是傳統意義上的程式碼庫,而是一整組 agent,可能是 100 個,也可能是 1000 個。這些 agent 可以自己執行任務、自己撰寫程式碼、自己提交修改。而人類開發者的核心工作,將從親手寫出每一行程式碼,轉向理解這些 agent 做了什麼、為什麼這樣做、哪裡可能做錯,以及出問題時誰來負責與收尾。


這個判斷的重要性,在於它不只是回答「工程師會不會失業」,而是在重新定義工程師這個職業的本質。


接下來是整場訪談中最有價值的一個概念,也就是納德拉提出的「認知覆蓋率」。


對軟體開發者來說,「測試覆蓋率」是很熟悉的概念。它代表程式碼中有多少比例被測試案例覆蓋,覆蓋率越高,通常表示關鍵邏輯驗證得越完整,出錯風險相對較低。這是過去幾十年軟體工程中非常基礎的品質指標。


但納德拉認為,當程式碼庫裡越來越多的內容是由 agent 產生時,只有測試覆蓋率已經不夠了,還需要另一個新指標,也就是認知覆蓋率。


所謂認知覆蓋率,看的不是程式碼有沒有被執行過測試,而是人類有沒有真正看懂這次修改。更具體地說,就是 agent 改了哪些地方、為什麼這麼改、這些改動會如何影響整個系統流程、有沒有突破原本的架構約束、整個決策鏈條能不能被解釋。核心問題不是「能不能跑」,而是「人有沒有理解」。


這個概念非常關鍵,因為它點出了 AI 寫程式進入深水區之後最容易被忽略的風險。現在很多團隊使用 AI 輔助開發,關心的通常還是效率提升多少、寫得快不快。但納德拉提醒的是,當 agent 寫的程式碼越來越多,甚至占了大部分時,真正棘手的問題不再只是產出速度,而是可解釋性、可審計性與可控制性。


測試通過,只能說明程式碼在某些案例中可以運作;但認知覆蓋率關心的是,團隊是否理解 agent 的決策邏輯,是否知道它有沒有繞過原本的架構設計,是否能在事故發生時回放、追責、撤銷。這已經不只是技術問題,而是治理問題。而且 AI 越快,這個治理問題只會被放大。


以前一個工程師一週可能寫幾百行程式碼,每一行自己都清楚;現在 agent 一天就可能產出幾千行甚至更多。如果團隊沒有相應的工具與方法去理解這些變更,那麼整個程式碼庫很快就可能變成一個「雖然能跑,但沒人真正懂」的黑箱。


也因此,納德拉提到未來可能出現一種新的開發環境,不再只是 IDE,而是 ADE,也就是 Agent-Driven Development Environment。這種環境的核心功能,不是單純幫你寫程式,而是協助你管理一群 agent、理解他們做了什麼,並維持認知覆蓋率。這是一個很強的訊號,代表微軟內部已經開始認真思考:當 agent 成為主要程式碼生產者之後,開發工具本身應該如何被重新設計。


和認知覆蓋率相對應的,還有另一個很耐人尋味的概念,叫做「膠水工作」。


當主持人追問,如果工作型態變了,人是不是會因此賺得更多時,納德拉沒有直接談薪資,而是說了一段更值得深思的話。他的意思是,過去兩百多年來,很多價值都建立在某種專業知識或深度技能之上。當某些專業能力因技術而變得更容易取得時,人類就會再形成新的專業能力。即使我們擁有越來越多數位系統,人力資本依然重要,而人類仍然會去承擔那些「膠水工作」。而隨著自動化增加,新的膠水工作還會繼續出現。


什麼是膠水工作?可以把它理解成那些把系統、流程、組織和判斷連接起來的工作。AI 可以處理很多標準化的任務,但組織裡真正重要的許多細節,往往沒辦法完整寫進 prompt。


如果放回開發團隊的脈絡,這個概念就很具體了。例如:業務需求怎麼判斷、介面邊界怎麼切、權限怎麼設計、風險如何承擔、跨部門衝突怎麼協調、上線後誰來解釋結果與負責,這些都屬於膠水工作。


你會發現,這些事情有一個共同點:它們不是純技術問題,而是技術與業務、技術與組織、技術與人的交界問題。這些工作很難完全標準化,也很難被單一 agent 直接取代。納德拉的判斷甚至有點反直覺:agent 越多,膠水工作不但不會消失,反而會變得更難、更貴,也更需要人來治理。


很多人覺得 AI 越強,所需的人就會越少;但納德拉的邏輯剛好相反。AI 越強,系統越複雜,越需要有人去「膠水」,因為 agent 處理的是標準化、可定義的任務,但任務與任務之間、系統與系統之間、人與系統之間,反而會出現更多縫隙。而這些縫隙,往往才是最有價值、也最需要綜合判斷的地方。


因此,如果回到最初那個問題:「程式設計師會不會失業?」納德拉的真正答案其實很清楚。這個職業不會因為 agent 的出現而立刻消失,但職業重心一定會被改寫。下一階段最稀缺的開發者,未必是最會手寫程式碼的人,而是最能看懂、管住、排程與治理 agent 的人。


除了工作型態,納德拉在訪談中也談到另一個非常實際的問題,那就是 AI 的成本。他提出了一個詞,叫做「Token Economics」,也就是 Token 經濟學。


這個詞聽起來有點抽象,但本質上很簡單:你花出去的 token,必須換回對應的價值。納德拉的說法很直接,生產力提升的邊際價值,必須配得上 token 的邊際成本,這是一種管理紀律。


他的意思是,不能為了追求所謂的 token maxing,就什麼問題都用最強模型、什麼任務都塞進最大上下文,靠無腦堆砌算力來解決一切。尤其在非核心問題上,更不應持續消耗最昂貴的模型資源。AI 工具確實很容易讓人上癮,他自己也承認會高頻使用,但新鮮感退去之後,真正重要的是回頭問:這些消耗到底有沒有產生足夠價值。


整體來看,納德拉這場訪談最值得記住的,不是哪個產品、哪個模型,而是他對未來軟體開發結構性變化的判斷。他不是在說程式設計師會被簡單取代,而是在說,當 agent 成為主要生產力之後,開發工作的重心將從「寫」轉向「管」,從「產出」轉向「理解」,從「效率」轉向「治理」。


如果這個方向成立,那麼未來真正重要的能力,會變成幾件事:能不能有效管理大量 agent、能不能維持足夠的認知覆蓋率、能不能承擔那些看似瑣碎但其實最關鍵的膠水工作,以及能不能在 AI 成本與產出之間做出有紀律的取捨。


也就是說,AI 時代不是不要工程師了,而是更需要那種能跨技術、跨業務、跨組織理解整體系統的人。這可能才是這場訪談最值得所有技術人認真聽的地方。

2026年6月22日 星期一

[AI 分享] Codex Recall & Replay

 [AI 分享] Codex Recall & Replay

摘要 : Codex 推出 Recall & Replay,可直接錄製並學會使用者操作,將示範轉成可重播的 Skill,大幅降低教 AI 自動化流程的門檻。




內容:

Codex 昨天更新了新功能 Recall & Replay。開啟後,它會錄下你在電腦上的操作,理解每一步的意圖,並自動轉化為可重複呼叫的 Skill。之後遇到相同任務,就不必再手動操作,只要讓 Codex 執行該 Skill 即可。


這是今年最強、甚至可稱為「神級」的更新,原因在於 AI 的學習方式出現了重要變化:從過去依賴人用文字描述流程,進化成直接透過示範讓 AI 學會。這大幅降低了使用門檻,因為多數人其實很難把自己的工作流程清楚語言化、結構化。


這項功能的本質,是把原本難以表達的隱性知識顯性化。使用者不再需要先整理出 SOP 或寫提示詞,只要實際操作一次,AI 就能根據錄影理解流程、判斷邏輯,並封裝成後續可複用的技能。


示範了一個實際場景:經常需要把 Ulysses 裡寫好的文章複製到 Substack,建立新文章、貼上內容、整理標題並加入訂閱按鈕,這是一個高頻且重複的工作。於是他透過 Recall & Replay 錄下整個流程,讓 Codex 自動建立對應 Skill。


第一次測試時,Codex 已能自動找到指定文章、開啟 Substack 後台、建立草稿、貼上正文並整理標題,但漏掉了文末的訂閱按鈕。作者回報後,Codex 回看先前錄影,確認自己的判斷錯誤並補上該步驟;再次執行後,整個流程便完整重現,成果也與作者原本操作一致。


最後指出,Recall & Replay 建立在兩個核心能力上:多模態理解錄影,以及 Computer Use 重現操作。這些能力單獨看並不新,但結合之後,讓 AI 能透過「看你怎麼做」來學會技能,預示未來將有更多人類工作流程被 AI 快速吸收與自動化。

[AI 衝擊] AI暗黑工廠:當軟體工程進入極速開發時代

 [AI 衝擊] AI暗黑工廠:當軟體工程進入極速開發時代

摘要 : AI大量接管寫碼後,工程師角色正從工匠轉向工廠經理,生產力暴增同時也帶來失控、重構與基礎設施新挑戰。




內容:

你印象中的程式設計師,或許還停留在那種安靜敲鍵盤、反覆推敲邏輯、謹慎測試的工匠式畫面。但這份材料描繪的,已經不是人類親手逐行寫程式的世界了。取而代之的,是大量高活躍度的 AI 智慧體同時在程式碼庫中高速產出,讓軟體工程從「手工創作」轉變成「規模化生產」的現場。


OpenCloud 的維護者 Vincent Cox,正是這種新模式的縮影。白天,他在大型企業裡遵循嚴格、結構化、安全優先的工程規範;夜晚,他則投入開源世界,依靠對測試框架的強烈信任,驅動大批 AI 在程式碼庫中高速運轉。這種反差不只是工作風格的切換,更像是兩套完全不同的工程哲學並存於同一個人身上。


最令人震撼的是這種模式所帶來的吞吐量。OpenCloud 的核心維護者其實只有約 10 到 15 人,而且大多數人都有全職工作,但專案高峰期卻能做到單日約 800 次程式碼提交。更誇張的是,Vincent 曾在 3 月 15 日創下個人單日將近 3400 次提交的紀錄。這不是透過作弊腳本灌水,而是真實大量驅動 AI 所產生的結果,甚至因此頻繁觸發 GitHub 的 API 保護機制,被平台按小時熔斷,反而成了他少數被迫停下來休息的時間。


這也揭示出所謂「暗黑工廠」模式的核心:當程式碼的主要生產者不再是人類手指,而是大模型的生成能力時,軟體工程比拚的就不再是個人的手速,而是整體生產體系的調度能力。真正的變化,不是寫得更快,而是整個生產方式被重新定義了。


Vincent 用一段早年體驗 VR 的經歷,來形容開發者面對這種 AI 洪流時的感受。2013 年,他曾無視早期 VR 頭顯「每次使用不要超過五分鐘」的警告,連續玩了三小時遊戲,最後不但劇烈暈眩、抱著馬桶狂吐,連視覺都短暫扭曲。他認為,這種生理上的反胃與失衡,和今天開發者面對幾十個 AI 同時輸出、數萬行程式碼瀑布般湧出的認知衝擊非常相似。不是因為內容不能理解,而是因為量級太大,超出了人腦即時消化的極限。


因此,開發者的角色被迫改變。過去那種逐行雕琢程式碼的浪漫工匠形象,正在被「監控整條流水線的工廠經理」所取代。這種轉變甚至可類比英國工業革命:手工織布時代,最熟練的工匠也受限於雙手速度;而進入集中式工廠後,產能的上限來自系統規模與機械協作。AI 時代的軟體工程,也正在經歷類似的結構性躍遷。


在這套模式裡,系統被拆成多個不同風險等級的「湧道」。其中第三與第四號湧道屬於深水區,負責較複雜的功能開發,例如整合與底層訊息通道機制。這部分人類無法缺席,必須與 AI 持續高頻互動、審查架構、修正偏差。AI 更像是高速起草的工程師,人類則是負責把關安全性與方向的經理。


壓力最大的則是第五號湧道,也就是專門處理 P0、P1 級高危 Bug 的急診區。這裡的 AI 會長時間潛伏在社群平台與討論頻道中,持續監聽全球使用者回報。一旦察覺崩潰徵兆,便立即整理出過去幾小時內的重大錯誤、提煉重點並給出修復建議。從這套體系可以看出,真正稀缺的已經不是 Token 成本,而是算力,以及人類注意力、腦容量與多工處理能力。


這種脆弱性,在一次被稱為「凌晨兩點大重構」的事件中徹底暴露。一位位於地球另一端、毫不知情的開源維護者,只是移動了幾個底層檔案路徑,卻瞬間導致整個通訊架構混亂甚至癱瘓。按照傳統工程思維,這種事故應該先回滾、再補丁修復。但當時疲憊不堪的團隊卻做出極度反直覺的決定:不修了,乾脆趁機把整個程式碼庫徹底重構成外掛化架構。


這個決定背後其實有明確邏輯。在 AI 時代,新增功能的成本大幅下降,真正困難的不是答應需求,而是拒絕需求。如果架構沒有物理層面的解耦,專案很快就會因特性膨脹而變成無法維護的泥潭。於是他們放開限制,讓數十個 AI 全面接手重構工作。最終,短時間內產生了約 2700 次提交,修改近千萬行程式碼,觸及核心程式碼庫約 82% 的區域,幾乎等同於把整棟大樓炸掉後原地重建。


過程中當然一度瀕臨失控。測試系統滿屏飄紅,團隊陷入強烈自我懷疑,甚至懷疑自己是否像伊卡洛斯一樣飛得太高、終將墜落。但戲劇性的轉折是,最後救回整個專案的,竟然是那些平常被資深工程師嫌棄、由 AI 過度擬合產生的糟糕單元測試。


這些測試平常被視為技術債,因為太死板,稍微改動邏輯就會報錯;但在這場毀滅式重構中,它們反而成了最原始、最可靠的生命線。只要這些老派而僵硬的測試重新變綠,就代表最底層的核心邏輯仍然是通的。換句話說,即便新房子蓋得再奇怪,只要地基和主要承重結構還能通過驗證,就還有挽回空間。


然而,真正撐起這種極速並發開發模式的,不只是流程與測試,還有底層基礎設施。Vincent 也坦言自己曾犯下一個代價巨大的判斷錯誤:他原本使用適合傳統開發的工作樹機制來管理多執行緒工作區,因為這樣能共享同一套程式碼庫、節省硬碟空間。但在暗黑工廠模式下,數十個 AI 不斷拉取與提交,導致每天累積 70 到 80 個極度活躍的工作區,最終把高規格機器也拖進記憶體溢位與系統崩潰。


相較之下,他的同事 Peter 採取了極為粗暴但有效的方法:直接把整個龐大程式碼庫完整複製多份,透過物理隔離來徹底避免工作區之間互相爭搶資源。這種看似笨拙的做法,反而更適合高並發 AI 開發的現實需求。


經歷這些慘痛教訓後,Vincent 又進一步打造出一套保命機制:一個常駐守護程序。當系統因為 AI 的瘋狂輸出而卡死、接近崩潰時,他只要按下鍵盤上的 ESC 鍵,守護程序就能立刻介入,強制熔斷失控流程,並指揮 AI 進行環境清理與狀態恢復。這相當於替整座高速運轉的暗黑工廠,加裝最後一道人工緊急煞車。


整體來看,這份內容真正想揭示的,不只是「AI 能把寫程式速度提升多少」,而是軟體工程的本質正在改變。開發者不再只是程式碼作者,而更像是調度者、審查者、熔斷者與系統經理。AI 帶來的不是單純效率提升,而是一種足以讓工程方法論、團隊協作方式、架構設計原則與基礎設施策略全面重寫的衝擊。

[AI 回顧] Token Maxing三月熱潮退場

[AI 回顧] Token Maxing三月熱潮退場

摘要 : Token Maxing從矽谷狂熱蔓延至大廠,卻在三個月內快速降溫,主因是成本失控、ROI不明、能力與組織流程脫節。




內容:

三個月前,矽谷還在流行一場名為「Token Maxing」的熱潮。當時工程師們比拼誰消耗更多 token,彷彿用得越多,就越懂 AI、越代表未來。這股風潮最早出現在 OpenAI、Anthropic 等前沿模型公司內部,後來快速擴散到整個科技圈,甚至連迪士尼、Visa 與國內大廠都加入其中。


所謂 Token Maxing,本意是「最大化使用 token 資源」,但很快被扭曲成一種身份象徵。大家開始把高 token 消耗等同於更高的 AI 掌握度與生產力。當時的氛圍甚至到了「不用 AI 就落後、不多用 AI 就是態度有問題」的程度。


但這場熱潮退得也非常快。到了五月底、六月初,亞馬遜關閉了內部 AI 使用排行榜,因為員工開始為了衝排名而讓 AI 執行沒有價值的任務。Uber 也公開質疑 token 消耗與實際業務成果之間的關聯,微軟則開始削減大量內部 Cloud Code 授權。原本無上限投入的企業,幾乎都陸續踩下煞車。


在這波調整中,各家公司也開始尋找新的衡量標準。百度提出以日活智慧體數(DAA)取代 token;Devin主張用節省的人類工時衡量;Uber希望將 token 與功能交付、ROI 掛鉤;亞馬遜則回到客戶與業務問題解決數量。但問題是,token 消耗與這些最終指標之間並沒有簡單直接的換算關係,試錯成本與效益邊界也難以界定。


微軟 CEO 納德拉後來提出「Token 資本」的概念,認為 token 使用的目的不應只是消耗,而是要沉澱成企業自己的 AI 能力資產,例如工作流、私有評測、組織知識、反饋閉環與可遷移的企業經驗。這個觀點雖然補充了部分方向,但本質上也只是把正在被工具鏈自動化的流程,重新包裝成企業資產來理解。


那麼,Token Maxing 為什麼會這麼快失敗?最直接的原因就是太貴了,企業燒不起。更深層來看,至少有三個原因。


第一,前沿模型公司的成本結構本來就不好看,尤其在 IPO 壓力下,更難維持寬鬆的使用政策。模型本身研發成本極高,商業化後毛利也未必理想,因此企業開始提高價格,或透過調整 tokenizer、計費方式來變相漲價。


第二,訂閱制被重度使用者與 agent 工具打穿了。原本包月訂閱適用於一般聊天式使用,但自動化 agent 能長時間並行工作,token 消耗遠超舊有模型。這讓廠商不得不把高強度推理成本拆出來額外收費,例如 Anthropic 與 Google 都開始調整訂閱方案與計費邏輯。


第三,從技術層面看,agent 的 token 消耗極其驚人,而且效率很低。研究指出,agent 式程式設計任務的 token 消耗大約是普通程式碼問答的 1000 倍,最大開支還不是輸出,而是模型反覆讀取上下文的輸入成本。探索、修正、測試等階段尤其消耗巨大,說明現有工具鏈為了讓模型不跑偏,必須不斷餵入上下文,代價極高。


此外,agent 真正的能力也還遠未成熟。研究顯示,在大量真實專業任務中,即使是最好的系統,最難任務的完整通過率也只有 8.6%,平均甚至只有 2.6%。而且 75% 的失敗並不是執行層面的手腳問題,而是理解與策略問題,也就是說,agent 最大的短板是缺乏真正的行業知識與專業判斷。


這意味著,AI 並不是不能做事,而是越接近真實企業場景,越依賴隱性知識、本地規則、專業流程與可驗證輸出。一個通用 skill 到企業內部往往還要二次開發,法務、財務、研發、銷售各有自己的規範與系統,越貼近業務,越難通用。


組織層面也是一大瓶頸。即使 AI 在某個上游環節真的有效,比如寫程式碼,它也未必能轉化成最終成果。因為程式碼之後還有審查、測試、整合、發布與採用等一連串流程。上游加速了,但下游沒有同步加速,最後就只會堆出更多半成品。


MIT 的研究就指出,AI 工具確實讓程式碼提交大幅增加,但這種增幅傳導到專案數與實際發布版本時,效果會明顯縮水。也就是說,「寫出更多程式碼」和「交付更多產品」完全不是一回事。更麻煩的是,AI 產生的程式碼還可能讓人類後續審查負擔更重,理解難度更高,進一步卡住人的頻寬。


除了這些大問題,還有兩種常被忽略的浪費。第一是簡單任務上的虛耗。研究顯示,像簡單算數、拼寫檢查、同義詞查詢這類小任務,很多人明明自己做更快,卻還是習慣打開 AI。結果反而花更多時間在寫提示詞、等待答案、閱讀與確認上,形成一種「效率幻覺」。


第二是重複造輪子。隨著 agent 生成內容的成本越來越低,開發者與 AI 都更傾向直接重新生成一份,而不是搜尋、理解、複用既有成果。研究發現,大量 skill 高度相似,許多 agent 提交的程式碼修復請求最終未被合併,其中相當一部分原因就是同樣的問題早已被別人解決。這說明在缺乏全局協調時,AI 很容易放大重複建設與資源浪費。


總結來看,Token Maxing 的失敗,不只是一次短期泡沫破裂,更像是 AI 產業從狂熱走向現實的過程。它暴露了兩件事:第一,現階段 agent 的能力還不足以在所有任務上穩定提效;第二,企業也還沒有建立出一套成熟的 AI 使用方法,能真正避免浪費並轉化為業務成果。


更深一層說,這其實是經濟學中「生產率悖論」的再次上演。像電力、電腦、網際網路這些通用技術,在剛出現時都曾經歷過「技術進步很快,但整體產出沒有立刻提升」的階段。因為真正的瓶頸,往往不在單一技術本身,而在與之互補的流程、制度、組織與人類能力。


所以,Token Maxing 的退潮不一定代表 AI 沒有未來。相反地,它可能只是提醒大家:AI 要真正產生價值,不能只看 token 花了多少、程式碼寫了多少,而要看它是否穿透整條價值鏈,最終轉化成可交付、可使用、可驗證的成果。