- 相關(guān)推薦
大詞匯連續(xù)漢語(yǔ)語(yǔ)音的MLP聲學(xué)特征的研究論文
摘要:
短時(shí)聲學(xué)特征參數(shù)如MFCC,PLP作為輸入向量的高斯混合模型(GMM)的隱馬爾可夫模型(HMM)的經(jīng)典模型在大詞匯連續(xù)語(yǔ)音識(shí)別系統(tǒng)(LVCSR)已取得了良好識(shí)別效果。但針對(duì)短時(shí)聲學(xué)特征區(qū)分性差的特點(diǎn),本文提出采用神經(jīng)網(wǎng)絡(luò)多層感知器(MLP)產(chǎn)生的兩種類(lèi)型差異特征HATs與TANDEM代替短時(shí)特征,分別訓(xùn)練GMM參數(shù)模型。實(shí)驗(yàn)結(jié)果表明,差異特征的GMHMM的LVCSR系統(tǒng)優(yōu)于傳統(tǒng)的短時(shí)特征的系統(tǒng);為了更進(jìn)一步提高系統(tǒng)識(shí)別率,該文又將兩種類(lèi)型差異特征HATs與TANDEM進(jìn)行復(fù)合,構(gòu)成MLPs特征流重建GMHMM,系統(tǒng)的錯(cuò)字率(CER)有2%——3.8%的明顯改善。
關(guān)鍵詞:多層感知器;差異特征;隱馬爾可夫;高斯混合模型
對(duì)語(yǔ)音信號(hào)特征參數(shù)的研究是建立良好的語(yǔ)音識(shí)別系統(tǒng)的基礎(chǔ)與關(guān)鍵。在過(guò)去的研究中,語(yǔ)音識(shí)別系統(tǒng)的特征提取成分主要包括頻譜包絡(luò)預(yù)測(cè),特別是經(jīng)過(guò)某些簡(jiǎn)單變化后的特征,目前前端大部分是基于短時(shí)軌跡(約10ms)信號(hào)分析的美爾倒譜(MFC)或是感知線性預(yù)測(cè)(PLP)。但這些傳統(tǒng)的短時(shí)特征參數(shù)存在著對(duì)信號(hào)變化過(guò)于敏感,不能反映連續(xù)幀之間的相關(guān)特性,區(qū)分性差等方面的不足。近年來(lái),國(guó)外很多語(yǔ)音研究機(jī)構(gòu)在語(yǔ)音信號(hào)的特征提取、聲學(xué)建模方面引入了神經(jīng)網(wǎng)絡(luò)ANN,其中由Berkeley國(guó)際計(jì)算機(jī)學(xué)院(ICSI)提出用基于MLPs的特征取代傳統(tǒng)特征,系統(tǒng)的識(shí)別率得到了明顯改善[1-3]。基于MLPs特征的差異性的優(yōu)勢(shì)和GMM/HMM模型的成熟性,本文提出將變換后的MLPs差異特征后驗(yàn)概率看作是GMHMM的輸入向量,重新構(gòu)建GMHMM模型。實(shí)驗(yàn)結(jié)果表明MLPs特征具有更好的特性,LVCSR的識(shí)別率得到了明顯的改善。
1、基于MLP的差異聲學(xué)特征。
為彌補(bǔ)了來(lái)自言語(yǔ)感知和倒譜的短時(shí)分析的不足,獲取時(shí)序相關(guān)聯(lián)的多幀語(yǔ)音信息(即音素信息),文本引入了神經(jīng)網(wǎng)絡(luò)ANN的MLP,以提取基于非短時(shí)軌跡的非傳統(tǒng)特征。本文采用的MLP特征為HATs和TANDEM兩種。
。1)長(zhǎng)時(shí)HATs特征參數(shù)。
HATs特征基于人對(duì)不同頻帶的感覺(jué)不同,HATs特征提取將由兩級(jí)MLP實(shí)現(xiàn)[4-5],第一級(jí)由15個(gè)MLP即將關(guān)鍵頻帶數(shù)分為15個(gè),第二級(jí)由1個(gè)MLP構(gòu)成。HATs的基本實(shí)現(xiàn)步驟:
、僖狸P(guān)鍵頻帶,分別計(jì)算每個(gè)短時(shí)窗(10ms)對(duì)應(yīng)的關(guān)鍵頻帶的能量的log值(即為短時(shí)頻段能量參數(shù))。
、诜謩e將各頻帶短時(shí)能量參數(shù)串聯(lián)為0.5s的長(zhǎng)時(shí)頻帶能量參數(shù)作為HATs第一級(jí)的輸入?yún)?shù)。串聯(lián)方法為將前25幀、后25幀和當(dāng)前幀同頻段的能量參數(shù)相串聯(lián)(25+25+1=51),作為該關(guān)鍵頻帶的MLP的51個(gè)輸入單元。即第一級(jí)的每個(gè)MLP都具有51個(gè)輸入端。每一個(gè)MLP都是為了證實(shí)當(dāng)前幀為某個(gè)音素的后驗(yàn)概率P(Pj/Xt)。因此,在語(yǔ)音識(shí)別系統(tǒng)中,每一個(gè)MLP的輸出單元代表了一個(gè)音素。由于這些MLP為差別性音素提供了音素后驗(yàn),所產(chǎn)生的特征為語(yǔ)音識(shí)別提供了音素差別性能力。
③采用softmax函數(shù)將每一個(gè)MLP的概率輸出匯總為1,實(shí)現(xiàn)歸一化。
xij是來(lái)自隱藏單元i的輸入;wij是隱藏單元i與輸出單元j的權(quán)值;zj是作為音素后驗(yàn)的MLP的輸出。隱藏單元應(yīng)用sigmoid函數(shù)限止其輸出值在0-1之間。
因?yàn)槊總(gè)關(guān)鍵頻帶對(duì)不同的音素反映不同,所以每個(gè)第一級(jí)的輸出都提供了音素后驗(yàn)概率。第二級(jí)的目的在于接合所有音素后驗(yàn)概率,對(duì)當(dāng)前幀所屬音素的認(rèn)定作最后的決策。從不同的實(shí)驗(yàn)表明,針對(duì)于LVCSR最成功的做法是采用第一級(jí)隱藏層的結(jié)果作為第二級(jí)的輸入。因?yàn)榈谝患?jí)softmax使所有的輸出都轉(zhuǎn)化為同一級(jí)別,這樣就削弱甚至是抹殺了第一階段涉及所有的MLP的鑒別力。由于第二級(jí)的輸入是源自第一階段的隱藏層,即隱藏激活hidden activation TRAPS (HATS)。第二級(jí)的輸入單元的數(shù)目為15×h,h是第一級(jí)每個(gè)MLP的隱藏單元數(shù)目,本文采用60個(gè)隱藏單元。最后,從第二級(jí)MLP計(jì)算出音素后驗(yàn)概率。由于系統(tǒng)采用71個(gè)音素[10],所以HATs的輸出是一個(gè)71維的音素后驗(yàn)概率。二級(jí)MLP的HATs特征描述如圖 1所示。
。2)TANDEM特征。
本文采用的另一個(gè)MLP特征是中期特征TANDEM[6]。其MLP的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
由于本文采用MFCC作為常規(guī)HMM的輸入特征,為了最大化收集新信息,該TANDEM網(wǎng)絡(luò)采用標(biāo)準(zhǔn)短時(shí)特征采用PLP倒譜特征。TANDEM由一個(gè)MLP網(wǎng)絡(luò)組成,抽取相鄰9幀的PLP和基音,以42×9(42維,9幀)為MLP的輸入,15000個(gè)隱藏單元。隱藏單元依然用sigmoid函數(shù),輸出單元用后驗(yàn)softmax函數(shù)。最后MLP輸出71個(gè)音素的后驗(yàn)概率。
2、MLPs聲學(xué)特征的混合。
本文提出的聲學(xué)特征的混合是基于MLP的長(zhǎng)時(shí)HATs與中期TANDEM復(fù)合為MLPs特征流。
HATs與TANDEM是采用兩套MLP系統(tǒng)產(chǎn)生的,也即每一幀都有兩個(gè)音素后驗(yàn)概率。在文獻(xiàn)[7]中指出,將其兩種后驗(yàn)概率進(jìn)行復(fù)合后,其MLP的特征更有效。為此,本文采用以下步驟實(shí)現(xiàn)音素后驗(yàn)的復(fù)合[8]:
。1)建立后驗(yàn)音素向量:采用Demspter-shafter[7]逆熵加權(quán)策略將兩套音素后驗(yàn)概率合成音素后驗(yàn)向量[r1 r2…r71]。
(2)用log計(jì)算音素后驗(yàn)向量:為了讓音素后驗(yàn)向量與傳統(tǒng)特征復(fù)合,采用log函數(shù)計(jì)算使之更像高斯分布;
。3)用PCA實(shí)現(xiàn)降維和正交化:為了后期與其它特征復(fù)合,71維的音素后驗(yàn)向量需進(jìn)行降維處理;因?yàn)楦咚姑芏群瘮?shù)常認(rèn)為是相互獨(dú)立,對(duì)角協(xié)方差的,所以音素后驗(yàn)向量需要正交化,進(jìn)行均值和方差的歸一化。最終實(shí)現(xiàn)將兩個(gè)71維的音素后驗(yàn)降為一個(gè)35維的MLPs。
3、模型訓(xùn)練。
本文的聲學(xué)模型是以跨詞三音子3狀態(tài)左-右的HMM;跔顟B(tài)共享的決策樹(shù)總數(shù)為4500個(gè)上下文相關(guān)音素狀態(tài)。系統(tǒng)采用3個(gè)級(jí)別的訓(xùn)練,第1級(jí)是聲道長(zhǎng)度的歸一化(VTLN)的訓(xùn)練。為了補(bǔ)償語(yǔ)者差異性,在第2級(jí)中采用了受限的最大似然線性回歸的說(shuō)話人自適應(yīng)的訓(xùn)練(SAT/CMLLR),建立語(yǔ)者獨(dú)立模型。最后是建立語(yǔ)言模型重估(LM rescoring)模型[9]。
4、語(yǔ)料庫(kù)。
本文系統(tǒng)使用了230小時(shí)的廣播新聞和廣播對(duì)話語(yǔ)音數(shù)據(jù)進(jìn)行訓(xùn)練。230小時(shí)的語(yǔ)料包括了30小時(shí)的HUB4,由GALE發(fā)布的100小時(shí)廣播新聞和100小時(shí)廣播談話。識(shí)別中使用了2.2小時(shí)的eval06和2.5小時(shí)的dev07兩組語(yǔ)料。詳細(xì)語(yǔ)料信息見(jiàn)表 1。
5、實(shí)驗(yàn)結(jié)果及結(jié)論。
本文應(yīng)用德國(guó)亞琛工業(yè)大學(xué)語(yǔ)音研究所開(kāi)發(fā)的LVCSR漢語(yǔ)語(yǔ)音識(shí)別系統(tǒng)[9]進(jìn)行實(shí)驗(yàn)。采用230小時(shí)語(yǔ)料庫(kù)為71個(gè)漢語(yǔ)音素基元模型分別建立基于MFCC的HMGMM模型及MLPs/ pitch混合聲學(xué)特征的HMGMM模型,在識(shí)別階段均使用eval06與dev07的語(yǔ)料進(jìn)行識(shí)別,其識(shí)別結(jié)果用連續(xù)識(shí)別的字錯(cuò)誤率(Character Error Rate CER%)進(jìn)行評(píng)價(jià)。其結(jié)果如表 2所示。
采用MLP的特征比傳統(tǒng)的短時(shí)特征都有良好的識(shí)別特性,TANDEM特征系統(tǒng)的CER約有0.5%的改善,HATs的特性比TANDEM更好,系統(tǒng)的CER減少約1%~2.5%,采用MLPs復(fù)合聲學(xué)特征,系統(tǒng)的識(shí)別率有了最大的提高,CER得到了2%-3.8%的改善。本文復(fù)合的聲學(xué)特征為中時(shí)(9幀)和長(zhǎng)時(shí)(51幀)的信息,能否將短時(shí)特征再與其復(fù)合以提高系統(tǒng)識(shí)別率,還待進(jìn)一步研究。
參考文獻(xiàn):
[1] ZHU Qi-feng.Incorporating tandem/HATs MLP features into SRI’s conversational speech recognition system[J]. in Proc. DARPA RT Workshop 2004.
[2] Jing Zheng. Combining Discriminative Feature, Transform, and Model Training for Large Vocabulary Speech Recognition[C].inProc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, Honolulu, Hawaii, 2007(4):633-636.
[3] 閻平凡,張長(zhǎng)水,“人工神經(jīng)網(wǎng)絡(luò)與模擬進(jìn)化計(jì)算”[M]. 清華大學(xué)出版社 2005.
[4] wang M Y.Building a highly accurate mandarin speech recognizer[J].in Proc. IEEE Automatic Speech Recognition and Understanding Workshop, Kyoto, Japan, Dec., 2007:490-495.
[5] Chen B. Learning long-term temporal features in LVCSR using neural networks[J].in Proc. Int. Conf. on Spoken Language Processing, Jeju Island, Korea, Oct., 2004.
[6] Hermansky H, Ellis D P W, Sharma S. Tandem connectionist feature stream extraction for conventional hmm systems[C]. in Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, Istanbul, Turkey, 2000:1635-1638.
[7] Valente F, Hermansky H. Combination of acoustic classifiers based on dempster-shafer theory of evidence[J]. in Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, Honolulu, HI, USA, Apr.,2007.
[8] Morgan N, Chen B Y, Zhu Q, et al. Trapping Conversational Speech: Extending TRAP/Tandem approaches to conversational telephone speech recognition[J].in Proceedings of IEEE ICASSP, Montreal, May 2004.
[9] Plahl C, HoffmEister B, Hwang M, et al. Recent Improvements of the RWTH GALE Mandarin LVCSR System[J].In Interspeech, Brisbane, Australia, September 2008:2426-2429.
[10] 呂丹桔, Hwang M, HoffmEIster B. 漢語(yǔ)連續(xù)語(yǔ)音識(shí)別之音素聲學(xué)模型的改進(jìn)[J].計(jì)算機(jī)仿真,2010(5).
【大詞匯連續(xù)漢語(yǔ)語(yǔ)音的MLP聲學(xué)特征的研究論文】相關(guān)文章:
漢語(yǔ)語(yǔ)音研究的幾個(gè)問(wèn)題04-29
試論類(lèi)推機(jī)制在漢語(yǔ)語(yǔ)音史研究中的作用05-02
1998-2003年漢語(yǔ)音韻研究綜述(上篇)04-27
略談現(xiàn)代漢語(yǔ)詞匯研究04-28
漢語(yǔ)語(yǔ)音對(duì)英語(yǔ)語(yǔ)音學(xué)習(xí)的影響探析05-02
語(yǔ)音詞匯教學(xué)教案04-25
當(dāng)代漢語(yǔ)詞匯研究的新成果-讀張小平《當(dāng)代漢語(yǔ)詞匯發(fā)展變化研究》05-02
普通話輕聲的聲學(xué)特征與讀法04-26
封閉空腔聲學(xué)特性研究04-28