視界導航:AI 與 AR 結合的視障導航創意方案
金○尹
本研究旨在探索與探討人與 AI 進行自然對話的可能性,何謂人性化(Humanized) 的 AI,以及如何應用至純語音的人機介面,並以開發一 AI 語音對話系統結合 AR 導航的應用為例。主要研究問題包括:AI 克隆真人聲音並模仿其語氣、情緒和個 性對觀眾擬人化感知的影響;觀眾在對話中從「真人感」逐漸轉變為「機器人感」的感受變化;以及如何提升觀眾對 AI 語音對話系統與 AR 導航應用的互動流暢性和使用體驗。
技術實現方面,研究探討了如何開發一個能夠實現互動流暢性,且具備擬人化特徵的 AI 語音對話系統,並將其整合進視障者的 AR 混合實境導航應用中,以提升導航體驗和互動性。研究採用的技術包括 Unity 系統整合平台、OpenAI Whisper API 語音轉文字、OpenAI ChatGPT API 聊天 AI、GPT-SoVITS 語音模型、即時流式(stream)推理人聲、音量檢測演算法、AI 驅動降噪,以及基於地理位置的空間音效引導。相關文獻包括 ChatGPT 語音模式、GPT-SoVITS、GPT-4 的相關技術 文件和 Microsoft Seeing AI 等,這些文獻提供了技術參考和發展背景。 研究過程中,提升了人聲自動喚醒的準確性和識別敏感度,撰寫了動態調整因環 境噪音變化的人聲檢測閾值的演算法,並使用 AI 降噪技術分析音頻資料。在智 慧 AI 聊天功能方面,ChatGPT API 提供即時聊天回應,並針對討論主題設計客 製化指令,模仿真人說話語氣、語助詞和情緒,使回應更人性化。系統設計可手 動或自動更換人格,使用者可與不同的 AI 人格對話,包括人聲。混合實境導航 方面,使用 GPS 和 AR Foundation 外掛實現直觀的路線導航,並透過 3D 音效提 供額外的方向引導。該 AR 應用已部署至 iPhone 11 Pro 進行測試。
本研究在多次展覽中進行了系統測試和展示,獲得了豐富的使用者回饋。未來發展方向包括將 AI 語音對話系統部署至行動裝置、開發即時路線規劃搜尋功能, 以及結合 AR 和 AI 技術開發語音助理的主動提醒功能。
本研究對提升人與人性化 AI 之間的對話互動體驗具有發展潛能,並為人性化 AI 的未來應用提供了實踐經驗。
