Events

【企業分享回顧|聽說 AI:基於 AI 的口語溝通輔助科技】

企業分享回顧
中央研究院
語音增強
深度學習

中央研究院 AI 創新中心執行長曹昱博士分享基於深度學習的語音增強技術研究。探討語音理解度優化、多模態學習,以及 AI 在聽覺輔助領域的創新應用。

中央研究院 AI 創新中心執行長曹昱博士在 NTUAI 進行語音增強技術分享的現場照片

本次社課中,很榮幸邀請到現任中央研究院 AI 創新中心(AIIC)執行長 曹昱 博士,與 NTUAI 分享深度學習應用在語音增強的最新研究內容。

曹昱博士專注於基於深度類神經網路(DNN)的語音訊號處理,目標是讓失真語音經過神經網路增強後得到接近乾淨的語音,但曹昱研究團隊發現,對於口語溝通輔助系統來說,「聽得懂」比單純「聽得清楚」更重要,傳統單純降噪優化「聲音品質」的做法,無法有效提升語音理解度(Intelligibility)。因此,他們設計了以語音理解度為導向的目標函數,結合短時客觀語音可懂度指標(STOI)+ 均方誤差(MSE),作為 DNN 的訓練目標。實驗結果顯示,相比單純以 MSE 訓練,(STOI + MSE)導向的模型能在主觀聽測中明顯提升理解度表現。這項成果獲得了2021 IEEE Signal Processing Society (SPS) Young Author Best Paper Award,並且技術已實際應用於日本新幹線廣播系統中,大幅改善嘈雜環境下的乘客理解度。

為了進一步提升語音增強效果,曹昱團隊採用多模態深度學習方法,引入唇形影像作為輔助輸入,開發出 AVDCNN 模型。藉由同步處理聲音與視覺訊息,即使在高噪音環境下,系統也能更準確判斷說話內容。特別的是,即使唇形影像解析度不高,也能有效提升語音理解度,這正如人類在吵雜場合中「讀唇」輔助聽覺的自然行為。 曹昱研究團隊將這些技術廣泛應用於聽覺輔助與說話輔助領域,包括:

・耳內麥克風中耳積水診斷:透過骨傳導與耳咽管傳導特性,使用 AI 判別中耳積水(OME),提供低成本、自動化且準確率超越一般專科醫師的方法。

・病理性語音偵測與增強:針對口腔癌術後患者、腦性麻痺構音障礙者、以及使用人工電子喉嚨者,透過深度學習語音增強技術改善語音理解度,並結合語音轉換技術,讓語音更自然、更貼近個人聲音。

・語音銀行(Voice Bank):開創「個人聲音預錄」概念,預存健康時的聲音數據,未來即便因病失聲,也能藉 AI 恢復個人化語音,保留「聲音的記憶」。

曹昱博士在最後也分享了三大成功 AI 的關鍵:

① 大量數據:There is no data like more data. 在深度學習時代,數據量越大,系統表現越好。

② 有效評估:設計符合任務目標的評估機制(如基於理解度而非聲音品質)至關重要。

③ 類人學習:從 Alan Turing 的「圖靈測試」到 ChatGPT 的「基於人類回饋強化學習(RLHF)」,模仿人類認知行為是成功 AI 的核心策略。

曹昱博士強調:「科技的發展,應該是為了幫助人類,而不是拿來欺騙。」

NTUAI 也將持續探索 AI 技術的正向應用,讓科技帶來實際且有意義的改變!

活動照片

活動照片1 活動照片2 活動照片3 活動照片4

文|驊宸