Wednesday, May 27, 2015

Week 11: ImageNet Classification with Deep Convolutional Neural Networks

題目:ImageNet Classification with Deep Convolutional Neural Networks


作者:Ross Girshick Jeff Donahue Trevor Darrell Jitendra Malik             University of Toronto



文章概要:


           本篇文章主要利用CNN(Convolutional Neural Networks),訓練出深度的convolutional neural network 去識別ImageNet LSVRC-2010 contest 的120萬張圖像。ImageNet識別任務如圖1所示。文章核心是介紹了它們所涉及的CNN 網絡的結構,包含6000萬個參數和65萬個neuron,network一共有五層layer,使用了Relu,加速activation,使用dropout技術防止overfitting,使用了大型多核GPU提高訓練速度。




圖1 ImageNet識別任務圖

主要算法:


          文章的系統模型架構如圖2所示,是本文的核心。
          網路架構一共有9層,輸入層維度為150,528,其它層的neuron個數為 253440–186624–64,896–64,896–43,264– 4096–4096–1000。其中共有5層convolution layer和三層fully-connected layer。作者使用Data Augmentation和dropout解決overfitting的問題,dropout機率設為0.5。



圖2 CNN網路架構圖




實驗結果:


          實驗結果如圖3所示,在test-set 上CNN top-1取得了37.5%的錯誤率,top-5取得了17.0%的錯誤率,相比Sparse Coding和SIFT+FV提升效果顯著。



圖3  ILSVRC-2010識別錯誤率比較


          而在ILSVRC-2012的資料集上,top-5 test也得到了相比其他更好的效果。如圖4所示。



圖3  ILSVRC-2012識別錯誤率比較


創新之處和心得:



           本文是基本上開啟了CNN輝煌的開始,極具有代表性和啓發性。但是我們需要注意的一點是現今deep learning對於硬件的要求也是非常之大,在這方面我們還需要做更多研究來優化deep learning。




No comments:

Post a Comment