題目:Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups.
作者:Geoffrey Hinton, Li Deng, Dong Yu, George E. Dahl, Abdel-rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patrick Nguyen, Tara N. Sainath, and Brian Kingsbury
文章概要:
本篇文章在語音識別領域具有開創性。首先提出了DBM-DNN在的語音識別領域的應用,在語音識別領域普遍使用GMM-HMM的基礎上,得到的單純phone recognition更加好的效果。過去使用Gaussian mixture models 來fit每一種 acoustic input state,進而使用Hidden Hidden Markov model得到最好的phone sequence。而本文提出了用DBN進行pretrain然後用DNN 得到posterior probabilities進而輸入HMM,得到更好的phone sequence。
主要算法:
文章第一部份主要介紹了基本的deep neural network的概念,其實就是對於neural network的擴展,每一個neutron簡單地logistic unit,進而輸出y傳遞到下一層,如式1所示。通過最後的softmax layer得到multiclass的輸出概率,如式2所示。其中update的過程使用SGD,並且通過Feed forward和Backpropagation從而更新weight。
而在DNN的基礎上,我們可以先對初始的weight等做初始化和pretrain,這裡就用到了RBM,RBM主要是對式4能量函數進行優化,從而最後用Stack RBM組成DBN(Deep Belief Network).
模型架構如圖1所示,使用三層的DBN進行pretrain,其中第一層為GRBM,后兩層為RBM,最後在此基礎上加一層softmax layer得到每個state的概率從而可以接下來給HMM做predict。
圖1 模型架構圖
實驗結果:
實驗結果主要從以下四個方面進行介紹:
首先是在TIMIT 的core test set進行phone recognition,結果如圖2所示。
圖2 TIMIT core test set結果圖
其次是在HUB5’00-SWB和RT03S-FSH兩個庫上與GMM-HMM baseline進行比較,結果如圖3所示。
圖3 與GMM-HMM baseline比較圖
第三個實驗是在五個大型vocabulary任務上進行識別,結果如圖4所示。
圖4 Vocabulary任務識別
圖5 English Broadcast News識別結果
創新之處和心得:
本文為我們提供了語音識別上對於phoneme recognition的新思路,將deep learning與語音有機結合了起來,並且在本文發表后的時間裡,同領域deep learning在語音上的運用發展迅速,是一片具有開創性的文章。









No comments:
Post a Comment