AMMAI course 2015: Week 12: Rich feature hierarchies for accurate object detection and semantic segmentation

題目：Rich feature hierarchies for accurate object detection and semantic segmentation

作者：Ross Girshick Jeff Donahue Trevor Darrell Jitendra Malik

UC Berkeley

文章概要：

本篇文章主要基於對canonical PASCAL VOC dataset上object detection任務，利用combine了region proposals的CNN，進行對object的識別，主要combine核心是一方面利用high-capacity的CNN進行localize 和segment objects，另一方面對于training data稀缺的情況，進行supervised pre-training，從而改善實驗結果。

主要算法：

文章的系統模型架構如圖1所示。

圖1 系統架構圖

主要分為以下4個步驟：

（1）輸入所要識別的影像；

（2）提取大約2千個自底向上（bottom-up）的 region proposals；

（3）對於每個proposal，使用CNN提取出features，這裡作者使用Caffe提取出4096維的feature；

（4）将提取出的feature输入给linear SVM，進行object detection。訓練過程中，使用了Supervised pre-training，得到了在LSVRC 2012 validation set上top-1 error rate 比先前高2.2 ％的feature。進而Domain-specific fine-tuning之後，進行classsify。

實驗結果：

實驗結果主要是再如上涉及的PASCAL VOC test set進行 object detection 和semantic segmentation結果的比較，object detection結果如圖2所示，semantic segmentation結果如圖3所示。

圖2 object detection結果圖

圖3 semantic segmentation結果圖

可以看出本文提出的RCNN在總體結果上都實現了突破，實例如圖4所示。

圖4 識別結果圖

創新之處和心得：

本文為我們提供了如何在object detection上利用CNN抽取feature進而提高任務mAP，獲得了很好的效果，這啟發我們多閱讀多思考會得到很好的結果。

AMMAI course 2015

Wednesday, May 27, 2015

Week 12: Rich feature hierarchies for accurate object detection and semantic segmentation