撰稿人:賴穎暉 (陽明大學醫工所聽語工程實驗室/博士研究生)
審稿人:蔡昆憲 (陽明大學醫工所聽語工程實驗室/博士候選人)
文章原始出處:
篇名:Speech signal modification to increase intelligibility in noisy environments
作者:Sungyub D. Yoo, J. Robert Boston, Amro El-Jaroudi, Ching-Chung Li, John D. Durrant, Kristie Kovacyk, and Susan Shaiman
出處: J. Acoust. Soc. Am., 122(2), pp: 1138-1149.
出版年份: 2007
研究動機:
此篇文章的研究動機主要想找出一個新的演算法,來提高語音於噪音環境下之語音理解度,並將此演算法實際運用於聲音處理裝置,讓使用者能於噪音環境中有更佳的語音溝通效果。
研究方法:
對於一段語音來說,可以將其分解成兩個成份,其分別為:穩定成份 (quasi–steady-state, QSS)及轉變成份 (transition component),作者基於此理論,將語音利用圖1.1之訊號處理方法分解出穩定成份與轉變成份。
(圖1.1) 轉變成份=語音訊息-穩定成份
接著把分解出之”轉變成份”乘上放大係數K值產生修改語音,其修正後之語音為:
S修正語音(t) = m*(S原始語音(t)+K*S轉變成份(t))
再利用Mackersie於1999年提出之單字監聽測驗進行實驗,每次使用六個不同的短音節字透過此演算法處理後配合TDH-39耳機於六個不同的SNRs (-25,-20,-15,-10,-5,0)噪音環境下進行播音測驗,藉此觀察出修正後之語音的效果。
研究結果與討論:
經過此演算法處理後,將分解出之穩定成份及轉變成份各別進行語音理解度實驗,發現到穩定成份雖然為一段語音下主要的能量,卻為一個低語音理解成份;然而轉變成份雖只有較少的能量,但卻是一個高語音理解成份。經過字詞測驗證明,轉變成份對於一段語音辨識上來說是非常重要的。圖1.2為此實驗結果,可以看見轉變成份之語音理解度只有輕微的低於原始語音,而穩定成份之語音理解度卻遠低於原始語音。
(圖1.2)實驗結果
(圖1.3)實線-原始語音,虛線-修正後語音
作者再將修改語音置於不同的SNR環境中做字詞測驗,發現在較低SNR (-25,-20,-15)之語音環境下,透過此演算法的修改,可以增加語音理解度,改善語音於噪音環境下的語音理解度,其實驗結果如圖1.3,橫軸表示SNR的改變、縱軸表示語音辨識正確率。因此作者認為,在較低SNRs環境中,對轉變成份做適當放大,有助於提高語音理解度,得到更佳的語音溝通效果。
個人心得:
此篇文獻主要想找出一個新的演算法,能使語音於較低的SNR環境中,也能有較佳的語音辨識度。經過實驗後,發現對於語音辨識來說,轉變成份是一個非常重要的因素,對此成份做合適的放大,會讓語音於噪音環境中的辨識度增加;基於此結果,讓我覺得或許能將此運用於許多的語音播放裝置中(如:手機、助聽器等),使其聲音接收者能於噪音環境中,有較高的語音理解度,使溝通更有效率。