2026年6月16日 星期二

[AI 分享] 一次看懂AI十個核心名詞

[AI 分享] 一次看懂AI十個核心名詞


摘要 : 從Transformer到Agent、MCP、多模態與實體AI,快速建立AI技術全貌。




內容:

十個常見的AI名詞,幫大家建立一條清晰的理解路線。看似複雜的英文術語,其實都在說同一件事:AI正從單純的聊天工具,逐步進化成能理解任務、拆解問題、呼叫工具,甚至實際執行工作的系統。


首先,內容從Transformer講起。它的基本概念可以理解為,先把文字轉成電腦能處理的數字,再加入詞語的位置資訊,讓模型知道前後順序。接著透過多重關注機制,讓每個詞去判斷和其他詞之間的關係,層層運算後,最後預測下一個最可能出現的詞。也就是說,大語言模型本質上是一個非常強大的文字預測系統。


雖然模型本身很聰明,但它其實沒有真正的記憶能力。我們平常在聊天軟體中感覺AI記得前面說過的話,是因為每次對話時,系統都會把之前的內容重新讀取一次。因此,像OpenAI ChatGPT、Chat類應用的本質,仍然是在既有上下文中持續做文字生成。


接著,當人們不再滿足於「只會回答問題」的AI,就出現了Agent。Agent可以理解成是在模型外面加上一層客戶端外殼,讓AI不只會說,還能實際去操作工具,例如讀取檔案、寫程式、執行指令、處理表格等。模型負責思考與下達任務,Agent則負責連接電腦環境並完成具體執行。


而AI要能順利呼叫外部工具,就需要一套標準協議,這就是MCP。它像是AI和各種軟體之間的通用接口,規範模型如何發出請求、工具如何回傳結果。可以把它想像成AI世界裡的USB介面,讓不同工具都能被模型穩定調用。


另外,Skill則像是AI的工作說明書。當問題本身可能存在歧義時,若先替AI設定清楚角色、任務範圍與處理方式,就能大幅提升回答品質。從最早的系統提示詞,到後來將大綱、規則、角色設定拆分管理,本質上都是在用Skill讓AI更有方向、更懂你的工作流程。


當MCP與Skill搭配使用時,Agent的能力就會大幅提升。它不只是被動回答,而是能更準確地理解任務、選擇工具、執行步驟。對一般使用者來說,這也是目前最值得優先掌握的兩個AI應用關鍵。


再往上一步,就是Agent Tech。這代表AI不只是完成單一步驟,而是能圍繞目標,自己拆解任務、推進流程、遇到失敗再調整。它讓AI開始像一位初級同事,而不只是單一工具。像建立產品原型、經營帳號、完成一整套流程,背後都需要這種更複雜的執行機制。


如果任務再變得更大,就會延伸到Multi-Agent System,也就是多智能體系統。這個概念是讓多個Agent分工合作,例如有人查資料、有人寫腳本、有人審稿、有人做標題。理想上,這可以讓複雜任務拆解得更有效率。不過實務上,多Agent協作目前仍然容易混亂,距離成熟應用還有不少挑戰。


Reasoning Model,也就是推理模型。這類模型的重點不是回得快,而是想得更清楚。它會先拆解問題、規劃步驟、檢查條件,再輸出答案。像數學、寫程式、合約分析、投資判斷等需要多步驟思考的任務,就特別適合推理模型。這也是為什麼現在許多AI產品都開始強調深度思考能力。


除了推理能力,多模態也是AI的重要方向。真正理解世界不能只靠文字,人類是透過圖像、聲音、語言與環境一起判斷的。多模態AI就是朝這個方向發展,它可以同時處理文字、圖片、音訊、影片,甚至螢幕操作。像分析冰箱食材、整理會議錄音、辨識裝修風格,都屬於多模態能力的應用場景。


再來是context window,也就是上下文視窗。由於模型每次回答都需要重新讀取當前對話內容,當聊天越長、資訊越多時,計算成本會大幅增加,回答品質也可能下降。所以在實際使用上,如果對話太長,適時清理上下文或開新視窗,通常能讓AI表現更穩定。


第九個重點是RAG。當企業想讓AI結合內部知識庫時,不可能每次都把大量文件全部丟給模型處理。更好的方式是先讓AI判斷這次是否需要查資料,再去公司內部資料庫中檢索相關內容後回覆。這樣既能提升回答準確度,也能兼顧資料安全,不必把敏感資訊上傳到雲端。


最後提到的是Physical AI,也就是實體AI。這類AI不再只存在於螢幕中,而是進一步進入真實世界,控制機器人、自動駕駛車、機械臂、無人機等設備。它不只要會回答,還要能感知環境、理解現場狀況,並做出對應行動。這也代表AI的下一步,不只是數位世界中的助手,而可能成為現實世界中的執行者。


#AI


沒有留言:

張貼留言