Wednesday, May 27, 2015

Week 13: Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups.

題目:Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups.


作者:Geoffrey Hinton, Li Deng, Dong Yu, George E. Dahl, Abdel-rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patrick Nguyen, Tara N. Sainath, and Brian Kingsbury


文章概要:

           本篇文章在語音識別領域具有開創性。首先提出了DBM-DNN在的語音識別領域的應用,在語音識別領域普遍使用GMM-HMM的基礎上,得到的單純phone recognition更加好的效果。過去使用Gaussian mixture models 來fit每一種 acoustic input state,進而使用Hidden Hidden Markov model得到最好的phone sequence。而本文提出了用DBN進行pretrain然後用DNN 得到posterior probabilities進而輸入HMM,得到更好的phone sequence。


主要算法:

          文章第一部份主要介紹了基本的deep neural network的概念,其實就是對於neural network的擴展,每一個neutron簡單地logistic unit,進而輸出y傳遞到下一層,如式1所示。通過最後的softmax layer得到multiclass的輸出概率,如式2所示。其中update的過程使用SGD,並且通過Feed forward和Backpropagation從而更新weight。

     式1


式2

式3



          而在DNN的基礎上,我們可以先對初始的weight等做初始化和pretrain,這裡就用到了RBM,RBM主要是對式4能量函數進行優化,從而最後用Stack RBM組成DBN(Deep Belief Network).

式4

          模型架構如圖1所示,使用三層的DBN進行pretrain,其中第一層為GRBM,后兩層為RBM,最後在此基礎上加一層softmax layer得到每個state的概率從而可以接下來給HMM做predict。

圖1  模型架構圖

實驗結果:

           實驗結果主要從以下四個方面進行介紹:
           首先是在TIMIT 的core test set進行phone recognition,結果如圖2所示。

圖2 TIMIT core test set結果圖



           其次是在HUB5’00-SWB和RT03S-FSH兩個庫上與GMM-HMM baseline進行比較,結果如圖3所示。

圖3 與GMM-HMM baseline比較圖


           第三個實驗是在五個大型vocabulary任務上進行識別,結果如圖4所示。


圖4 Vocabulary任務識別

            最後一個實驗是在English Broadcast News上進行識別,比較WER(Word Error Rate)。



圖5  English Broadcast News識別結果

創新之處和心得:


            本文為我們提供了語音識別上對於phoneme recognition的新思路,將deep learning與語音有機結合了起來,並且在本文發表后的時間裡,同領域deep learning在語音上的運用發展迅速,是一片具有開創性的文章。


No comments:

Post a Comment