[AI 分享] 從零打造網頁抓取 Skill

2026年6月10日星期三

[AI 分享] 從零打造網頁抓取 Skill

摘要 : 本文示範用一個 Markdown 檔，從零建立網頁抓取 Skill，讓 AI 能自動訪問網頁、解析資料並輸出結構化結果。

內容:

Skill 是 AI 的外掛能力包，現在進一步進入實作。重點在於：如果 AI 只能對話，實際上仍只是聊天工具；只有加上 Skill，AI 才能像被裝上「手和眼」，具備訪問網頁、讀取資料、調用工具與執行任務的能力，真正成為能做事的數位員工。

文中強調，開發 Skill 的門檻其實很低。最小結構只需要一個資料夾，裡面放一個 `Skill.md` 檔案即可。這個檔案分成兩部分：上方是 YAML 後設資料，包含 `name` 與 `description`；下方則是 Markdown 正文，用自然語言寫清楚執行指令。後設資料像名片，讓 AI 快速判斷用途；正文則像操作手冊，在確定要使用時才細讀。

實作範例是一個 `Web-Scraper` Skill。做法是先建立資料夾與 `Skill.md`，目標是讓 AI 接收網址後，自動抓取網頁內容、解析 HTML，並提取結構化資料。技術上可採用 Python 的 `requests` 發送請求，再以 `Beautiful Soup` 解析頁面，足以應付多數基礎抓取需求。

在撰寫內容時，`description` 特別關鍵，因為 AI 會依靠這段文字判斷何時觸發 Skill，因此必須明確描述功能與使用場景，例如：當使用者要求抓取網站、提取頁面資訊時啟用。正文則可依序定義角色、分析頁面結構、選擇解析策略、編寫抓取腳本、驗證資料完整性，並規範輸出格式如 JSON，同時補上錯誤處理與最佳實踐，例如遵守 Robots.txt、設定合理請求間隔與處理超時。

文章也說明了為何採用這種分層設計：因為 AI 的上下文空間有限，若所有 Skill 內容一開始就全部載入，很容易耗盡 Token。透過後設資料先做快速判斷，只有在需要時才載入正文，附屬檔案也按需引用，便能讓多個 Skill 並存且維持效率。Skill 寫完後還要測試 YAML 語法、檔名與觸發效果，若無法正確啟動，通常是描述不夠精準，應從簡單功能開始逐步調整。

對一人公司或小型團隊而言，這類網頁抓取 Skill 的應用非常廣，像是競品價格監控、產業新聞聚合、客戶資料補全等，都能大幅減少手動工作與 SaaS 成本。不過文中也提醒，實際抓取時必須遵守網站服務條款與資料保護法規，只有合規使用，這類自動化能力才能長期發揮價值。

C# .NET Blazor MAUI Xamarin Research

2026年6月10日星期三