題目:ImageNet Classification with Deep Convolutional Neural Networks
作者:Ross Girshick Jeff Donahue Trevor Darrell Jitendra Malik University of Toronto
文章概要:
本篇文章主要利用CNN(Convolutional Neural Networks),訓練出深度的convolutional neural network 去識別ImageNet LSVRC-2010 contest 的120萬張圖像。ImageNet識別任務如圖1所示。文章核心是介紹了它們所涉及的CNN 網絡的結構,包含6000萬個參數和65萬個neuron,network一共有五層layer,使用了Relu,加速activation,使用dropout技術防止overfitting,使用了大型多核GPU提高訓練速度。
圖1 ImageNet識別任務圖
主要算法:
文章的系統模型架構如圖2所示,是本文的核心。
網路架構一共有9層,輸入層維度為150,528,其它層的neuron個數為 253440–186624–64,896–64,896–43,264– 4096–4096–1000。其中共有5層convolution layer和三層fully-connected layer。作者使用Data Augmentation和dropout解決overfitting的問題,dropout機率設為0.5。
圖2 CNN網路架構圖
實驗結果:
實驗結果如圖3所示,在test-set 上CNN top-1取得了37.5%的錯誤率,top-5取得了17.0%的錯誤率,相比Sparse Coding和SIFT+FV提升效果顯著。
圖3 ILSVRC-2010識別錯誤率比較
而在ILSVRC-2012的資料集上,top-5 test也得到了相比其他更好的效果。如圖4所示。
圖3 ILSVRC-2012識別錯誤率比較
創新之處和心得:
本文是基本上開啟了CNN輝煌的開始,極具有代表性和啓發性。但是我們需要注意的一點是現今deep learning對於硬件的要求也是非常之大,在這方面我們還需要做更多研究來優化deep learning。




No comments:
Post a Comment