AI也能打辯論?以戰爭研究探討人機思維的辯證對決
【人工智慧跨域研究中心訊】
隨著生成式人工智慧(Generative AI)蓬勃發展,AI的倫理問題也成為各方需謹慎以待的課題。本校外交系學士班一年級的羅澤同學以「智慧對決:文獻與大型語言模型在戰爭理論中的互動與辯證」為題,獲本校AI中心113年AI跨域研究構想補助跨域研究獎學金,並提出豐碩的研究成果。羅澤透過串接大語言模型與真實人類相互辯證的方式,試圖解答人機在辯論上的思維差異性,以及AI在決策分析與論證能力的特性與侷限。
提及本次研究方法的執行,羅澤侃侃而談,他以《戰爭的理性主義解釋》的戰爭理論為主體,結合思想連鎖(Chain of Thought)、思想交換(Exchange of Thought)、思想樹(Tree of Thought)等多個理論框架,將四個大語言模型(ChatGPT、Google Gemini Advanced、Claude 3.5 Sonnet以及Llama 3)串聯在一起,讓它們以人類的觀點去對話,檢驗它們辯論出來的立場是否與人類學說發展出的思維相似。為此,羅澤更特別邀請三位人類專家學者,以大語言模型所作成的四份回應論文為主、測試成果為輔進行評議。
談到研究成果亮點,羅澤表示「其實人類並非不信任大語言模型的能力,而是人類與大語言模型的評分標準並不一致。」他以五項特性(獨特性、整合性、清晰性、關聯性、原創性)探討人機辯論思維所重視向度的差異,對比大語言模型評審所重視之向度順序:獨特性、整合性、清晰性,人類專家則更重視整合性、關聯性、獨特性,可見人機思維以及大語言模型判准與自述標準之差異。
另外,羅澤亦在準備過程中發現新的研究前提:由於靜態論證中AI無法評出具體數字,只能以1或0(勝、負)的二元方式進行評估,而近期的研究表明AI具備一定的自我認知能力,且精準度可達60%。若日後AI能夠生成有意義的評分,不必再倚靠人類判斷分數,而能像一般辯論賽一樣與人類學者進行相互辯證,動態辯證研究才能有繼續推動的可行性。
研究進程並非一帆風順,羅澤也面臨許多沒試想過的阻礙。他坦言,語言模型的串接過程其實需要自寫程式,藉由AI中心所提供的跨域研究獎學金,直接購買市面現成的API,減少製作成本。此外,因受限於研究限制,羅澤大多只能採用靜態論證,但其實能追問AI模型的動態辯論才比較符合理想:「靜態只能看那些AI產出的紙本摘要,教授就無法再進行追問,只能靠自己詮釋。但動態就可進行二次、三次追問,直到釐清所有爭點。」
羅澤強調,辯論之所以和論證不同,就在於前者可以突襲對方還沒想好的論點,沒有模糊地帶,立場能更加真實。不過他也解釋,人機動態辯證在執行上的變因太多,例如學者本身的專業程度、學術立場間的嫌隙,以及其在辯論當下的個人狀態都會影響結果。「學者願不願意丟臉也很重要:像我就會猶豫,萬一辯輸AI怎麼辦?」動態辯論的實現難度高,尤其是如何公平評論人類與模型之間的資訊量,仍是很大的挑戰。
除執行層面的遺憾,時間的管控也是一大難題。羅澤坦言,身為大一新生,對於研究計畫、申請流程都還不甚熟稔:「我覺得我時間分配不太好,如何解決……就是熬夜吧!」他期望,若是AI中心未來可以扮演更強的媒合角色,協助研究者找到合適的跨領域指導老師給予協助建議,或是在申請季前後辦理更多方法論相關的講座,將會大幅提升學生撰寫計畫的量能。此外,由於計畫牽扯到的研究方法繁雜,他也特別感謝本校外交學系陳秉逵教授提供有關戰爭研究的專業建議、蘇卓馨教授指導研究構想方向,以及AI中心吳致勳教授給予論文修訂和架構上的提點。
在這次AI研究構想補助計畫過程中,羅澤也獲得了不少啟發。他特別推薦AI讀書會的環節,也期望AI中心未來可以增加更多學生成果的曝光度,或常設像讀書會這樣跨學科的交流場域:「如果能提供一個定期的實體交流空間,再以懸賞制鼓勵學生解決問題,學生參與的效果應該會更好。」談到未來的研究構想,羅澤的研究成果不僅止於補助計畫內的執行,更將研究成果投稿第15屆數位典藏與數位人文國際學術研討會並獲接受於會上公開發表,展現令人驚豔的研究和學術潛力。未來他將持續研究如何克服動態辯論的困境,達到實證上人與人之間辯論的真實狀態,補足目前人機靜態論證不足的問題。
面對訪談,羅澤闡述他如何讓語言模型與真實人類學者相互辯證,以及遇到的困難。(圖片來源:AI中心)
受限於研究限制,羅澤解釋大多採用靜態論證,而能追問AI模型的動態辯論才比較符合理想。(圖片來源:AI中心)
#113年AI跨域研究構想補助
#AI跨域
採訪編輯:蕭爵非