學術成果

讓AI更懂中文 結合AI打造自動糾錯工具

【人工智慧跨域研究中心訊】

隨著科技變遷,AI自動辨識的應用五花八門,本校數位內容碩士班的黃經緯同學以「讓AI更懂中文,幫助視障者輕鬆打字」為題,獲本校 AI中心113年AI跨域研究構想補助 跨域研究獎學金,展現出卓越的科技辨識應用潛力。

談及開發過程,黃經緯表示研究以 Soft-Masked Bert 技術實現同音字糾錯,採用 SIGHAN Bake 2005 釋出的語料檔,涵蓋兩岸三地不同年代共計 17 萬個中文句子,然後透過生成各種同音字的錯誤語句來建立訓練資料:例如將「逝世」替換為「試試」、「事事」、「視事」、「世事」等,並在錯誤字詞的起始與結束位置進行標記,如此生成 72 萬個句子的訓練資料。

而談及困境,黃經緯認為模型訓練是最大的挑戰,他使用 Google Colab 平台訓練 AI模型,並且使用 A100 高階 GPU 來加速訓練,然而資料量龐大,一旦訓練過程有誤就得重來,使得整個期程相當耗時耗力,在此很感謝在研究過程中各方先進的指點。

黃經緯指出,本研究構想計畫很難實現百分之百的「絕對糾錯」,因為語言是不斷演化而與時俱進的,每年都有許多新用語誕生,舉例來說,現代人常講的「笑死」、「呵呵」、「山道猴子」在2005年並沒有這種用法,因此用那時的語料訓練出來的模型無法糾錯這些詞彙。針對此一限制,他認為較好的解法是將每日的媒體新聞、Dcard或者Ptt論壇的內容納入語料,並且定期訓練新版模型,方能獲得最佳的糾錯效果。

除了上述問題之外,黃經緯表示本計畫的下一個挑戰是對「近似音字」糾錯,例如「風中殘燭」與「風中蟾蜍」,相比同音字糾錯在技術層面將會是更加複雜。相較於傳統古典 AI 複雜的糾錯方法,Transformer/Bert 這種深度學習演算法透過大量語料來訓練出優秀的文字糾錯能力,簡單又暴力的特性使其未來更具潛力,有望解決更多複雜的語言問題。

展望未來,黃經緯表示,本計畫最初是為了協助視障者實現無障礙打字,但實際上與輸入法技術整合的難度頗高,目前完成的是概念驗證(Proof-Of-Concept)階段,不過,在研究過程中還發掘出更多應用潛力,例如可為重視時效的新聞業實現快速校稿,以提升新聞品質,另外亦可應用在協助外國人學習中文(透過語音與文字互轉),或者用於輔助老師批改學生作文等等,他期望能將此次研究成果應用擴及到更多受眾和應用場景,讓更多使用者受益。

〈讓AI更懂中文,幫助視障者輕鬆打字研究〉成果網址:https://blkb.cc


黃經緯表示,面對龐大資訊,資料訓練過程是最為困難的環節。(圖片來源:AI中心)

#113年AI跨域研究構想補助 

#AI跨域 

採訪編輯:蕭爵非、李晏妮