2008年10月3日 星期五

[專欄]語音聽辨測驗設計的新思維

(由於筆者最近去加拿大出差,所以網站的更新比較慢,今天先以之前筆者發表在台灣聽語學會第二十二期電子學報的專欄文章分享給大家,之後再恢復正常的更新。)

編輯的話

王南梅(聽語電子學報主編)

語音辨識能力反應聽損者在聽覺現實環境中所面臨的問題,如何設計適當的評估工具以反應對話中許多語音特質,而能正確測量出來流暢對話聲學特質確實是一項挑戰!聽損者語音辨識測驗發展需從語音結構、單詞、雙詞、多詞、甚至語句,成人或兒童語料庫、依據何種語料庫、語音錄製程序、施測方式與測驗環境等等均會影響測驗信度與校度。近年來我們樂見這樣的測驗發展已見曙光,雖然未來更需要整合聽力學、語音聲學、語言學、工程學、測驗學等跨領域學門繼續發展;而近年來陽明醫工所發展出的實驗室與研究環境確實讓人羨慕,更高興看到他們近年來與聽語人員合作的研究成果,本期主題文章由陽明醫工所蔡昆憲博士候選人發表他們的研究成果「語音聽辨測驗設計的新思維」,希望能帶給聽語人員更多臨床運用的省思。


語音聽辨測驗設計的新思維

蔡昆憲 楊順聰
國立陽明大學醫學工程研究所聽語工程實驗室

過去語音聽辨測驗的設計規範與問題

語音聽辨測驗是臨床上普遍使用的一種聽力測驗,常用以評估聽者在日常生活中聽辨語言的能力、分類聽損的程度與類型、評估聽損者在治療(藥物、手術、配戴聽覺輔具)前後的表現、並提供資訊於聽能復健計畫的擬定與管理等。為確保施測的信度與效度,過去語音聽辨測驗常遵守三個主要的設計規範:(1)施測語料應具有常用度,以確保受測者對於測試語料皆能熟悉,而不會受教育程度不同所影響;(2)測試詞表應為語音均衡(phonetic balance),亦即各表中的音素分佈應近似日常會話出現的比例。然而,Lehiste & Peterson (1959)認為單音節字要達到真正語音均衡相當困難,日常生活的語音更會因為協同構音而影響聲學特性,因此提出音素平衡的概念,要求各詞表中的音素分佈比率應與其在常用字彙中的音素分佈比率相同,藉以評估受測者在日常生活中的溝通能力;(3)測試詞表應具有同質性(homogeneity),亦即測試詞表間的聽取效能應具有一致性。

過去語音聽辨測驗材料(Egan, 1948; Hirsh et al., 1952; Tillman & Carhart, 1966; 王老得 & 蘇富美, 1979)在設計時,首先會挑出一群常用且有意義的單音節字(monosyllabic words),從中盡可能組出符合音素平衡的詞表,最後再透過一群正常聽力的聽者來評估詞表是否具備同質性。此外,聽力師也常將每張含50個字的全表,拆解成每張含25個字的半表供臨床使用,藉以縮短施測時間並減少受測者的疲憊效應。然而,過去的語音聽辨測驗材料實際應用於臨床時,卻面臨信效度不佳的問題。

我們認為這可能是由於下列幾個原因所造成:(1)人工挑詞很難組出多張完全符合音素平衡的詞表。人工挑詞耗時費力,因此符合音素平衡的詞表數量有限,例如國外常用的CID W-22與NU-6均只有四張全表,而國內常用的中國語音均衡字彙表(王老得 & 蘇富美, 1979)則只有兩張全表。對某些需要多次利用語音聽辨測驗以進行聽能復健評估與規畫的個案,如助聽器或人工電子耳的使用者,詞表的數量不足可能會造成受測者的學習效應,進而使詞表的信度與鑑別度不足。此外,中國語音均衡字彙表在編制時,並未考量到華語四個聲調的出現比率,因此未充分符合語音均衡或音素平衡的原則。(2)過去半表常由全表任意拆解而成,然而每個單音節字的誤聽率並不相同,半表間的聽辨難易度可能因此而不同,且無法符合音素平衡。國外研究亦顯示半表間複本信度以及全表與半表間折半信度尤其不佳。(3)國內並未有標準化錄音的測試材料供臨床使用。由於語音的聲學特徵會隨不同人發音而有所差異,甚至相同語者於不同時間發同一個音都有可能不同,未使用標準化錄音的語料施測,可能會影響語音聽辨得分的信度。

新的詞表設計方法

為了克服先前語音聽辨測驗設計上的缺失,我們實驗室一直致力於改良詞表設計的研究。李沛群、蔣燿宇、蔡昆憲、楊順聰(2005) 首先將基因演算法(genetic algorithm)應用於音素平衡詞表的設計上。利用基因演算法,我們可以任意指定詞表內各個音素與聲調的出現次數,藉以自動且快速的產生多張完全滿足音素平衡的全表或半表。以單音節字來看,我們平均僅需不到10秒的時間便可以產生一張符合音素平衡的全表。先前很難組出多張完全符合音素平衡詞表的問題便不再困難。

另一方面,為克服半表間複本信度以及全表與半表間折半信度不佳的問題,我們提出了一個新的詞表設計方法。我們認為詞表在設計時,不單詞表間應具有同質性,更應設法降低測試項目間的聽取效能變異度(interitem variability),亦即測試項目亦需具有良好的同質性。搭配基因演算法,我們便可從一群常用度高且具高度同質性的字詞中產生多張符合音素平衡的全表與半表。為此,我們與台北護理學院聽語所的曾麗惠、吳政融設計了一套華語單音節字音語音聽辨測驗(Mandarin monosyllable recognition test),簡稱MMRT詞表,並提供男性錄音的標準化錄音語料,希望藉以取代中國語音均衡字彙表,供華語使用者在臨床與研究上使用。

在MMRT詞表的設計上,我們從具五百多萬條詞目的中研院漢語平衡語料庫3.1版中,將所有字詞拆解成共4,733個單音節字,並將同音異字合併計算並剔除輕聲字音後得到1,125個單音節字音。為考量常用度,我們選取最常出現的700個單音節字音(累進百分比為98.38%)做為初始語料。接著,為確保測試項目的同質性,我們透過20位正常聽力的成人,量測這700個單音節字音的心理量化函數(psychometric function),藉此選定出348個具高度同質性的單音節字音。接著,依中研院漢語平衡語料庫中聲母、韻母與聲調的出現率,計算出聲母、韻母與聲調在50個單音節字音全表中的出現次數,以確定詞表符合音素平衡。此外,MMRT詞表編制除符合音素平衡,更希望能滿足臨床上使用全表與半表的需求,因此將聲母、韻母與聲調在50個單音節字音全表中的出現次數平均分配給兩組半表,稱為A組半表與B組半表。因此,每張半表含有25個單音節字音,其表內聲母、韻母與聲調的出現機率與全表非常相似,故華語單音節字音語音聽辨測驗的全表與半表均可視為音素平衡。依據半表內聲母、韻母與聲調的出現次數,我們利用基因演算法設計出六張半表,A組與B組各三張半表,分別為A1、A2、A3、B1、B2與B3。任一A組半表可與任一B組半表可以組成符合音素平衡的全表,分別為A1B1、A1B2、A1B3、A2B1、A2B2、A2B3、A3B1、A3B2與A3B3共九張。統計結果顯示,MMRT詞表間具有高度的表間同質性,同時測試項目間的聽取效能變異度明顯小於過去的詞表(MMRT: 2.0 dB;PAL PB-50:11.2 dB;CID W-22:7.2 dB)。

為確保MMRT詞表在臨床上的信度,我們與吳政融以及林口長庚醫院耳科的吳哲民主任對30位感音神經性聽損者,在安靜環境下,以其最舒適響度級(MCL)進行信度量測。統計結果顯示,MMRT詞表具備良好的全表與半表重測信度、全表與半表之複本信度、以及全表與半表間之折半信度。尤其在半表的複本信度上,過去半表的複本信度在0.67到0.95之間,而MMRT半表的複本相關係數在0.87到0.95之間,相關性更高且變動範圍更小。對於全表與半表間之相關性,過去詞表的折半信度為0.62到0.99,而MMRT詞表的折半信度則在0.90到0.99之間,同樣相關性更高且變動範圍更小。由此可見,這份採新設計方法的MMRT詞表,確實克服了過去詞表在設計與使用上的難題。

討論與結論

我們認為語音聽辨測驗詞表在設計時,不單需考慮常用度、音素平衡與表間同質性,同時也需考量測試項目的同質性。從一群常用度高且具高度同質性的字詞中,產生全表與半表均符合音素平衡的詞表,可以有效改善詞表的信度。我們據此概念設計的MMRT詞表已被Ear and Hearing雜誌所接受,如想了解更詳細的設計細節,請參考這篇即將被刊登的文章。而MMRT詞表於安靜環境下,對感音神經性聽損者的信度研究資料,目前則正在整理以便之後的投稿。透過這份嚴謹設計的MMRT詞表,還可以進行非常多的信效度研究:例如,量測MMRT在噪音環境下的信度、與HINT(hearing in noise test)測驗的關連性、驗證耳蝸後聽損(retrocochlear hearing loss)的患者其聽辨率-音強函數曲線(P-I function)是否確實有回跌(rollover)現象等等。我們為MMRT詞表製作了一份標準化錄音的施測光碟,若有研究或臨床上的需要,歡迎與作者聯絡索取。

在這篇文章中,我們討論了過去詞表在設計與使用上的問題,並據此提出了新的詞表設計方法。同時,為了方便產生詞表,我們設計了基因演算法這個可以自動挑詞的電腦程式。我們可以思考如何透過這些工具,增加詞表應用上的彈性。例如,針對高頻聽損者,或許可以產生含高頻子音(如ㄗ、ㄘ、ㄙ…等)較多的詞表,供聽力師確認助聽器是否確實能對高頻語音提供有效的補償。此外,透過MMRT詞表的信度評估,我們證明了從348個常用度高且具高度同質性的單音節字音中,產生出的音素平衡詞表,均具有高度的信度。未來對於需要重複施測的個案,我們甚至可以隨時產生無限多張符合音素平衡的詞表,以避免受測者的學習效應。過去台灣在聽語方面的研究,多延續著國外的研究方法與流程。然而,我們應該試著跳出過去的規範與框架,從中尋求更多研究與發展的可能性。

Reference
  • Egan, J. P. (1948). Articulation testing methods. Laryngoscope, 58, 955-991.
  • Hirsh, I. J., Davis, H., Silverman, S. R., Reynolds, E. G., Eldert, E., Benson, R. W. (1952). Development of materials for speech audiometry. Journal of Speech and Hearing Disorders, 17, 321-337.
  • Lehiste, I., Peterson, G. E. (1959). Linguistic considerations in the study of speech intelligibility. Journal of the Acoustical Society of America, 31, 280-286.
  • Li, P.-C., Chiang, Y.-Y., Tsai, K.-S., Young, S.-T. (2005). Genetic algorithm for the efficient selection of disyllabic word lists used in Mandarin speech discrimination tests. Medical & Biological Engineering & Computing, 43(5), 648-657.
  • Tillman, T. W., Carhart, R. (1966). An expanded test for speech discrimination utilizing CNC monosyllabic words. Northwestern University Auditory Test No, 6. TX: Brooks Air Force Base.
  • Tsai, K.-S., Tseng, L.-H., Wu, C.-J., Young, S.-T. Development of a Mandarin monosyllable recognition test. Ear and Hearing, (In Press).
  • 王老得, 蘇富美. (1979). 中國語音均衡字彙表之編製研究. 中耳醫誌, 14(2), 7-16.

1 則留言:

blog marketing 提到...
網誌管理員已經移除這則留言。