智慧代理人之多場景應用研究 資料庫查詢 / 瀏覽器自動化 / 模型自動化評測
楊O恩、錡O誼、朱O伍
本研究以 AI Agent 為核心,探討智慧代理人在三個不同應用場景下的實作與設計:資料庫查詢與報表生成、瀏覽器自動化,以及模型自動化評測。三個應用皆透過 SKILL.md 定義 Agent 的執行流程、工具調用與輸出格式,讓 Agent 能夠自動串接多個工具,完成端到端的任務處理。
第一個應用是資料庫查詢與報表生成。此系統以 AI Agent 協助使用者透過自然語言與資料庫互動,從需求理解、Schema 解析、SQL 生成與驗證,到資料庫查詢執行與報表格式化,全程自動完成,有效降低 SQL 使用門檻,同時兼顧安全性與易用性。
第二個應用是瀏覽器自動化。此系統設計了一套自動化記憶機制,透過 Wrapper 記錄瀏覽器操作流程、頁面快照與成功失敗結果,任務後濃縮成 Workflow、Element Fingerprint 與 Site Profile,讓 Agent 能夠重用網站操作經驗,提升跨任務的執行穩定性。
第三個應用是模型自動化評測。此系統建立了一套通用的 LLM 評估框架,能夠根據任務情境從維度庫中動態選擇評估指標,支援程式計算與 LLM Judge 雙軌評分機制,並透過非同步並行加速評估流程,最終輸出結構化評估報告並推薦最佳模型。
三個應用展示了 AI Agent 在不同領域的實用潛力,驗證了以 SKILL.md 為基礎的 Agent 框架在多場景任務中的可擴充性與通用性。
