基於多模態深度學習模型的歷史文件知識抽取技術 —— 以國民黨省黨部資料為研究案例
江O然
本研究以政治大學託管之國民黨台灣省黨部檔案為資料來源,探討人工智慧技術在歷史文件數位化與分析上的應用可能。該批檔案年代跨度長,雖具有重要史料價值,但目前仍以影像形式保存,且傳統檔案研究過程耗費時間成本甚鉅,因此省黨部相關史料研究較少。
為解決此問題,本計畫將聚焦於歷史文件的文字辨識。由於此類檔案版面複雜,對模型干擾較多,辨識難度高於一般現代文件,因此本計畫將比較多個可自架模型的辨識表現,分析其優勢、限制與適用情境,以利後續研究者參考。
完成文字辨識後,本研究將進一步結合命名實體識別技術進行關鍵資訊抽取。預計使用中研院開發之語言處理工具,擷取文本中的時間、地點、人物與組織等重點資訊,並嘗試加以整理與標註,作為後續分析與視覺化的基礎。
在成果呈現方面,本研究希望將命名實體資訊應用於地圖標註、表格整理與資產流向統計等任務,以較直觀的形式呈現歷史資料內容。相較於過往常見的文字雲與詞頻統計,期望探索更多樣化的展示方法,擴展研究成果的應用性。
整體而言,本研究希望建立一套較適合複雜歷史文件的數位化與分析流程於封閉系統,以處理高機敏性或具版權資料的前提下,兼顧資料安全、成本與可操作性。期望本計畫能作為人工智慧技術結合歷史研究與數位人文的實例,降低史料使用門檻,並促進相關研究的延伸與歷史知識的普及。
