數位聯展

Improving Retrieval-Augmented Generation via Topic Partitioning

闕O宣、徐O凱、沙O武、杜O嘉

本研究探討如何透過主題分區(Topic Partitioning)提升檢索增強生成(Retrieval-Augmented Generation, RAG)系統的資訊檢索效能與回答品質。傳統的 Naive RAG 將文件切分後直接建立向量資料庫進行檢索,但在面對多主題資料時,容易因語意混雜而降低檢索精準度。因此,本研究導入 BERTopic 主題建模技術,先對文件進行主題分析與分群,再依據主題建立獨立的知識分區,使檢索過程能更聚焦於相關內容。研究以 MultiHop-RAG 新聞資料集作為實驗基礎,比較傳統 Naive RAG 與加入主題分區機制後的效能差異,驗證主題感知檢索對提升 RAG 系統準確性與降低知識偏移的潛力。此外,本研究亦規劃將此方法延伸至 Self-RAG 與 CRAG 等進階架構,以進一步評估主題分區在更複雜 RAG 系統中的應用價值。