智慧代理人之多場景應用研究資料庫查詢 / 瀏覽器自動化 / 模型自動化評測

楊O恩、錡O誼、朱O伍

本研究以 AI Agent 為核心，探討智慧代理人在三個不同應用場景下的實作與設計：資料庫查詢與報表生成、瀏覽器自動化，以及模型自動化評測。三個應用皆透過 SKILL.md 定義 Agent 的執行流程、工具調用與輸出格式，讓 Agent 能夠自動串接多個工具，完成端到端的任務處理。第一個應用是資料庫查詢與報表生成。此系統以 AI Agent 協助使用者透過自然語言與資料庫互動，從需求理解、Schema 解析、SQL 生成與驗證，到資料庫查詢執行與報表格式化，全程自動完成，有效降低 SQL 使用門檻，同時兼顧安全性與易用性。第二個應用是瀏覽器自動化。此系統設計了一套自動化記憶機制，透過 Wrapper 記錄瀏覽器操作流程、頁面快照與成功失敗結果，任務後濃縮成 Workflow、Element Fingerprint 與 Site Profile，讓 Agent 能夠重用網站操作經驗，提升跨任務的執行穩定性。第三個應用是模型自動化評測。此系統建立了一套通用的 LLM 評估框架，能夠根據任務情境從維度庫中動態選擇評估指標，支援程式計算與 LLM Judge 雙軌評分機制，並透過非同步並行加速評估流程，最終輸出結構化評估報告並推薦最佳模型。三個應用展示了 AI Agent 在不同領域的實用潛力，驗證了以 SKILL.md 為基礎的 Agent 框架在多場景任務中的可擴充性與通用性。

數位聯展

智慧代理人之多場景應用研究 資料庫查詢 / 瀏覽器自動化 / 模型自動化評測

楊O恩、錡O誼、朱O伍

智慧代理人之多場景應用研究資料庫查詢 / 瀏覽器自動化 / 模型自動化評測