[AI 分享] Codex桌面Agent入門解析
摘要 : Codex不是桌面版ChatGPT,而是能在授權範圍內直接操作電腦檔案的AI Agent。
內容:
如果你平常有在使用 Claude 或 ChatGPT 這類主流 AI 工具,最近大概很難忽略 Codex 的討論熱度。社群上越來越多人在談它,相較之下,Claude 因為前陣子的降質爭議,聲量似乎稍微退了一些。
當團隊中有位完全不會寫程式的營運夥伴,剛開始接觸 Codex 時,第一個反應是:「這不就是放在桌面上的 ChatGPT 嗎?」,但實際上兩者差異很大。ChatGPT 的運作方式,通常是你先把檔案上傳給它,它修改後再由你下載、整理,真正執行工作的人還是你自己,因為它碰不到你的電腦。
Codex 則屬於另一種類型:住在你電腦裡的 Agent。當你提供一個工作環境並授權後,它就能在範圍內自己讀檔案、改檔案、執行工具、產生成品,不需要你反覆做上傳、下載、複製、貼上的中介流程。簡單說,ChatGPT 比較像線上回答問題的助手,Codex 則更像直接在你電腦裡幫你做事的執行者。
這類「住在電腦裡」的 Agent,還可分成桌面 App 與終端機 CLI 兩種。CLI 版本偏工程師使用,本文聚焦在對非技術使用者更友善的桌面 App。文中也提到,像 CloudCode、CloudCode Work 這類產品,本質上與 Codex 類似,都是 OpenAI 與 Anthropic 這兩大陣營推出的 AI Agent 方案。
如果你已經用過 Claude 那邊的相關產品,想單純試試 Codex,其實很適合入門,因為它有免費版本,只要有 ChatGPT 帳號就能使用。就作者個人體驗來說,Codex 在操作流暢度與使用額度上都比 Claude 的 App 更順手,也更划算。
介面方面,Codex 採用直觀的三欄式設計。左邊是對話、專案與設定區,中間是輸入指令的區域,右邊則是結果與預覽。左欄主要包含歷史對話、任務列表、專案資料夾、外掛與設定。如果只是一般提問,可以直接開新對話;但若是處理某個專案中的任務,就應該從專案資料夾旁開新對話,這樣 Codex 才能讀到正確的資料夾與上下文,例如 Agents Markdown 或事先整理好的專案背景資訊。
中間欄是與 Codex 溝通的主要場所。你可以像用 ChatGPT 一樣打字,也可以直接用語音輸入。作者特別強調語音輸入很好用,因為現代很多工作場景都在與 AI 共同寫作,長時間打字其實很容易疲勞,因此他自己大約有 80% 的時間都使用語音操作。
此外,若輸入「@」可以附加專案中的特定檔案給 Codex;輸入「/」則能檢視狀態或指定要用的 Skill。還有一個很實用的功能叫 Fork,也就是分支。每一則回覆下方都可以複製出一條新的對話分支,適合在已經提供完整背景後,針對不同方案同時展開測試。作者把它比喻成平行宇宙,也像是打電動前先存檔,之後不管哪條路走歪了,都能從原點重新開始。
右側區塊則是結果預覽區,你可以查看檔案、資料夾結構,也能預覽它生成的網頁或 HTML 報表。其中最方便的功能之一,是網頁預覽中的視覺化註解。當 Codex 幫你做出一個網頁時,你可以直接在畫面上點選某個元素,例如標題、圖片或區塊,然後直接告訴它「這個標題放大」、「這張圖換掉」、「這個區塊刪掉」。它會回頭修改底層程式碼,再把更新後的結果顯示出來。這讓不懂程式的人,也能透過所見即所得的方式和 AI 協作。
接著,真正關鍵的不只是會打開 Codex,而是要學會駕馭一個能碰你電腦的 Agent。要駕馭它,核心有四個基本功:專案、許可權、上下文,以及 Agents Markdown。
先談「專案」。Project 的概念很簡單:你在哪個資料夾中啟動 Codex,那個資料夾就會變成它的工作區。它只會在這個範圍內讀檔、改檔、新增或刪除內容。因此,若你要辦一場小型講座,就可以先建立一個「講座籌備」資料夾,把活動說明、報名名單、講者介紹、圖片素材、過去的簡報範本都放進去。這一步看似基本,卻是整件事的核心:你不是把整台電腦交給 AI,而是先劃出一塊明確範圍,讓它只在這裡做事。
當你要 Codex 處理某個檔案時,與其只給它一個關鍵字讓它自己去找,不如直接拖入資料夾、貼上完整路徑,或使用「@」附加檔案。否則它可能會在大量檔案中到處翻找,不只變慢,也會白白消耗許多 Token。讓 Codex 在特定專案資料夾中工作,不僅能讓它聚焦,也能降低誤改無關檔案的風險。
而專案資料夾內的整理,其實就是所謂的 Context Engineering,也就是上下文工程。聽起來很專業,但本質上就是把資料分類清楚、命名明確,讓任何剛加入的人——包含 AI——只看資料夾名稱就能快速找到東西。即使沒有 AI,這本來也是好習慣;到了 Agent 時代,這件事只會變得更重要。
第二個重點是「許可權」。這是新手最應該搞懂的地方,因為它直接決定 Codex 在你電腦上能做到什麼程度。文中把 Codex 的權限大致分成三種模式。
第一種是最保守的「要求核准模式」,也就是預設模式。這種情況下,Codex 可以讀檔案、和你討論,但只要它想真的修改檔案或執行指令,都必須先經過你的同意。
第二種是多數人常用的中間模式。它可以在你指定的工作資料夾中,自行讀檔、改檔、執行指令,不必每次都問你;但如果它想碰資料夾外的內容,或是需要連網,就會停下來向你確認。
第三種則是 Full Access,也就是完整存取權。這種模式下,AI 幾乎可以碰整台電腦與網路,不再逐一詢問。在 CLI 世界裡,這甚至有個別名叫 YOLO 模式,意思是「反正人生只有一次,直接衝」。作者明確提醒,不建議新手一開始就亂開,因為權限越高,雖然越省事,但如果你還不理解它的行為邏輯,風險也會成倍增加。
作者也建議,不必一開始就糾結該選哪一種模式。更聰明的做法,是先從保守模式開始,讓它多問你幾次。當你逐漸理解它會怎麼做、什麼情境下會跳出詢問視窗後,再視情況放寬權限。如果真的被提示視窗問到很煩,也可以在當下直接切換到更高權限,或選擇在這次工作階段中不再詢問。
等你熟悉之後,確實也可以直接開 Full Access 來換取流暢體驗,但前提是要搭配 Agents Markdown 做限制。例如可以明確寫下「不要刪除原始檔」這類規則,讓它即使擁有高權限,也不會隨意執行不可逆操作。
整體來看,這篇內容的重點不只是介紹 Codex 好不好用,而是幫非技術使用者建立一個正確觀念:Codex 不是單純的聊天機器人,而是一個可以直接進入工作環境、代你執行任務的 AI Agent。也因此,真正重要的不是會不會下指令,而是你能不能設好專案邊界、整理好上下文、理解權限風險,並用規則把它駕馭好。

沒有留言:
張貼留言