Wednesday, May 27, 2015

Week 12: Rich feature hierarchies for accurate object detection and semantic segmentation

題目:Rich feature hierarchies for accurate object detection and semantic segmentation


作者:Ross Girshick Jeff Donahue Trevor Darrell Jitendra Malik            

            UC Berkeley



文章概要:


           本篇文章主要基於對canonical PASCAL VOC dataset上object detection任務,利用combine了region proposals的CNN,進行對object的識別,主要combine核心是一方面利用high-capacity的CNN進行localize 和segment objects,另一方面對于training data稀缺的情況,進行supervised pre-training,從而改善實驗結果。


主要算法:

           文章的系統模型架構如圖1所示。



圖1  系統架構圖


           主要分為以下4個步驟:
          (1)輸入所要識別的影像;
          (2)提取大約2千個自底向上(bottom-up)的 region proposals;
          (3)對於每個proposal,使用CNN提取出features,這裡作者使用Caffe提取出4096維的feature;
          (4)将提取出的feature输入给linear SVM,進行object detection。訓練過程中,使用了Supervised pre-training,得到了在LSVRC 2012 validation set上top-1 error rate 比先前高2.2 %的feature。進而Domain-specific fine-tuning之後,進行classsify。

實驗結果:


           實驗結果主要是再如上涉及的PASCAL VOC test set進行 object detection 和semantic segmentation結果的比較,object detection結果如圖2所示,semantic segmentation結果如圖3所示。


圖2 object detection結果圖



圖3 semantic segmentation結果圖


           可以看出本文提出的RCNN在總體結果上都實現了突破,實例如圖4所示。



圖4 識別結果圖


創新之處和心得:


          
          本文為我們提供了如何在object detection上利用CNN抽取feature進而提高任務mAP,獲得了很好的效果,這啟發我們多閱讀多思考會得到很好的結果。



No comments:

Post a Comment