[AI 分享] Codex桌面Agent入門解析

2026年6月16日星期二

[AI 分享] Codex桌面Agent入門解析

摘要 : Codex不是桌面版ChatGPT，而是能在授權範圍內直接操作電腦檔案的AI Agent。

內容:

如果你平常有在使用 Claude 或 ChatGPT 這類主流 AI 工具，最近大概很難忽略 Codex 的討論熱度。社群上越來越多人在談它，相較之下，Claude 因為前陣子的降質爭議，聲量似乎稍微退了一些。

當團隊中有位完全不會寫程式的營運夥伴，剛開始接觸 Codex 時，第一個反應是：「這不就是放在桌面上的 ChatGPT 嗎？」，但實際上兩者差異很大。ChatGPT 的運作方式，通常是你先把檔案上傳給它，它修改後再由你下載、整理，真正執行工作的人還是你自己，因為它碰不到你的電腦。

Codex 則屬於另一種類型：住在你電腦裡的 Agent。當你提供一個工作環境並授權後，它就能在範圍內自己讀檔案、改檔案、執行工具、產生成品，不需要你反覆做上傳、下載、複製、貼上的中介流程。簡單說，ChatGPT 比較像線上回答問題的助手，Codex 則更像直接在你電腦裡幫你做事的執行者。

這類「住在電腦裡」的 Agent，還可分成桌面 App 與終端機 CLI 兩種。CLI 版本偏工程師使用，本文聚焦在對非技術使用者更友善的桌面 App。文中也提到，像 CloudCode、CloudCode Work 這類產品，本質上與 Codex 類似，都是 OpenAI 與 Anthropic 這兩大陣營推出的 AI Agent 方案。

如果你已經用過 Claude 那邊的相關產品，想單純試試 Codex，其實很適合入門，因為它有免費版本，只要有 ChatGPT 帳號就能使用。就作者個人體驗來說，Codex 在操作流暢度與使用額度上都比 Claude 的 App 更順手，也更划算。

介面方面，Codex 採用直觀的三欄式設計。左邊是對話、專案與設定區，中間是輸入指令的區域，右邊則是結果與預覽。左欄主要包含歷史對話、任務列表、專案資料夾、外掛與設定。如果只是一般提問，可以直接開新對話；但若是處理某個專案中的任務，就應該從專案資料夾旁開新對話，這樣 Codex 才能讀到正確的資料夾與上下文，例如 Agents Markdown 或事先整理好的專案背景資訊。

中間欄是與 Codex 溝通的主要場所。你可以像用 ChatGPT 一樣打字，也可以直接用語音輸入。作者特別強調語音輸入很好用，因為現代很多工作場景都在與 AI 共同寫作，長時間打字其實很容易疲勞，因此他自己大約有 80% 的時間都使用語音操作。

此外，若輸入「@」可以附加專案中的特定檔案給 Codex；輸入「/」則能檢視狀態或指定要用的 Skill。還有一個很實用的功能叫 Fork，也就是分支。每一則回覆下方都可以複製出一條新的對話分支，適合在已經提供完整背景後，針對不同方案同時展開測試。作者把它比喻成平行宇宙，也像是打電動前先存檔，之後不管哪條路走歪了，都能從原點重新開始。

右側區塊則是結果預覽區，你可以查看檔案、資料夾結構，也能預覽它生成的網頁或 HTML 報表。其中最方便的功能之一，是網頁預覽中的視覺化註解。當 Codex 幫你做出一個網頁時，你可以直接在畫面上點選某個元素，例如標題、圖片或區塊，然後直接告訴它「這個標題放大」、「這張圖換掉」、「這個區塊刪掉」。它會回頭修改底層程式碼，再把更新後的結果顯示出來。這讓不懂程式的人，也能透過所見即所得的方式和 AI 協作。

接著，真正關鍵的不只是會打開 Codex，而是要學會駕馭一個能碰你電腦的 Agent。要駕馭它，核心有四個基本功：專案、許可權、上下文，以及 Agents Markdown。

先談「專案」。Project 的概念很簡單：你在哪個資料夾中啟動 Codex，那個資料夾就會變成它的工作區。它只會在這個範圍內讀檔、改檔、新增或刪除內容。因此，若你要辦一場小型講座，就可以先建立一個「講座籌備」資料夾，把活動說明、報名名單、講者介紹、圖片素材、過去的簡報範本都放進去。這一步看似基本，卻是整件事的核心：你不是把整台電腦交給 AI，而是先劃出一塊明確範圍，讓它只在這裡做事。

當你要 Codex 處理某個檔案時，與其只給它一個關鍵字讓它自己去找，不如直接拖入資料夾、貼上完整路徑，或使用「@」附加檔案。否則它可能會在大量檔案中到處翻找，不只變慢，也會白白消耗許多 Token。讓 Codex 在特定專案資料夾中工作，不僅能讓它聚焦，也能降低誤改無關檔案的風險。

而專案資料夾內的整理，其實就是所謂的 Context Engineering，也就是上下文工程。聽起來很專業，但本質上就是把資料分類清楚、命名明確，讓任何剛加入的人——包含 AI——只看資料夾名稱就能快速找到東西。即使沒有 AI，這本來也是好習慣；到了 Agent 時代，這件事只會變得更重要。

第二個重點是「許可權」。這是新手最應該搞懂的地方，因為它直接決定 Codex 在你電腦上能做到什麼程度。文中把 Codex 的權限大致分成三種模式。

第一種是最保守的「要求核准模式」，也就是預設模式。這種情況下，Codex 可以讀檔案、和你討論，但只要它想真的修改檔案或執行指令，都必須先經過你的同意。

第二種是多數人常用的中間模式。它可以在你指定的工作資料夾中，自行讀檔、改檔、執行指令，不必每次都問你；但如果它想碰資料夾外的內容，或是需要連網，就會停下來向你確認。

第三種則是 Full Access，也就是完整存取權。這種模式下，AI 幾乎可以碰整台電腦與網路，不再逐一詢問。在 CLI 世界裡，這甚至有個別名叫 YOLO 模式，意思是「反正人生只有一次，直接衝」。作者明確提醒，不建議新手一開始就亂開，因為權限越高，雖然越省事，但如果你還不理解它的行為邏輯，風險也會成倍增加。

作者也建議，不必一開始就糾結該選哪一種模式。更聰明的做法，是先從保守模式開始，讓它多問你幾次。當你逐漸理解它會怎麼做、什麼情境下會跳出詢問視窗後，再視情況放寬權限。如果真的被提示視窗問到很煩，也可以在當下直接切換到更高權限，或選擇在這次工作階段中不再詢問。

等你熟悉之後，確實也可以直接開 Full Access 來換取流暢體驗，但前提是要搭配 Agents Markdown 做限制。例如可以明確寫下「不要刪除原始檔」這類規則，讓它即使擁有高權限，也不會隨意執行不可逆操作。

整體來看，這篇內容的重點不只是介紹 Codex 好不好用，而是幫非技術使用者建立一個正確觀念：Codex 不是單純的聊天機器人，而是一個可以直接進入工作環境、代你執行任務的 AI Agent。也因此，真正重要的不是會不會下指令，而是你能不能設好專案邊界、整理好上下文、理解權限風險，並用規則把它駕馭好。

沒有留言:

張貼留言

訂閱：張貼留言 (Atom)

2026年6月16日 星期二