AMMAI course 2015: Week 13: Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups.

Wednesday, May 27, 2015

Week 13: Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups.

題目：Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups.

作者：Geoffrey Hinton, Li Deng, Dong Yu, George E. Dahl, Abdel-rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patrick Nguyen, Tara N. Sainath, and Brian Kingsbury

文章概要：

本篇文章在語音識別領域具有開創性。首先提出了DBM-DNN在的語音識別領域的應用，在語音識別領域普遍使用GMM-HMM的基礎上，得到的單純phone recognition更加好的效果。過去使用Gaussian mixture models 來fit每一種 acoustic input state，進而使用Hidden Hidden Markov model得到最好的phone sequence。而本文提出了用DBN進行pretrain然後用DNN 得到posterior probabilities進而輸入HMM，得到更好的phone sequence。

主要算法：

文章第一部份主要介紹了基本的deep neural network的概念，其實就是對於neural network的擴展，每一個neutron簡單地logistic unit，進而輸出y傳遞到下一層，如式1所示。通過最後的softmax layer得到multiclass的輸出概率，如式2所示。其中update的過程使用SGD，並且通過Feed forward和Backpropagation從而更新weight。

式1

式2

式3

而在DNN的基礎上，我們可以先對初始的weight等做初始化和pretrain，這裡就用到了RBM，RBM主要是對式4能量函數進行優化，從而最後用Stack RBM組成DBN（Deep Belief Network).

式4

模型架構如圖1所示，使用三層的DBN進行pretrain，其中第一層為GRBM，后兩層為RBM，最後在此基礎上加一層softmax layer得到每個state的概率從而可以接下來給HMM做predict。

圖1 模型架構圖

實驗結果：

實驗結果主要從以下四個方面進行介紹：

首先是在TIMIT 的core test set進行phone recognition，結果如圖2所示。

圖2 TIMIT core test set結果圖

其次是在HUB5’00-SWB和RT03S-FSH兩個庫上與GMM-HMM baseline進行比較，結果如圖3所示。

圖3 與GMM-HMM baseline比較圖

第三個實驗是在五個大型vocabulary任務上進行識別，結果如圖4所示。

圖4 Vocabulary任務識別

最後一個實驗是在English Broadcast News上進行識別，比較WER（Word Error Rate）。

圖5 English Broadcast News識別結果

創新之處和心得：

本文為我們提供了語音識別上對於phoneme recognition的新思路，將deep learning與語音有機結合了起來，並且在本文發表后的時間裡，同領域deep learning在語音上的運用發展迅速，是一片具有開創性的文章。

No comments:

Post a Comment

Subscribe to: Post Comments (Atom)