題目:Rich feature hierarchies for accurate object detection and semantic segmentation
作者:Ross Girshick Jeff Donahue Trevor Darrell Jitendra Malik
UC Berkeley
文章概要:
本篇文章主要基於對canonical PASCAL VOC dataset上object detection任務,利用combine了region proposals的CNN,進行對object的識別,主要combine核心是一方面利用high-capacity的CNN進行localize 和segment objects,另一方面對于training data稀缺的情況,進行supervised pre-training,從而改善實驗結果。
主要算法:
文章的系統模型架構如圖1所示。
圖1 系統架構圖
主要分為以下4個步驟:
(1)輸入所要識別的影像;
(2)提取大約2千個自底向上(bottom-up)的 region proposals;
(3)對於每個proposal,使用CNN提取出features,這裡作者使用Caffe提取出4096維的feature;
(4)将提取出的feature输入给linear SVM,進行object detection。訓練過程中,使用了Supervised pre-training,得到了在LSVRC 2012 validation set上top-1 error rate 比先前高2.2 %的feature。進而Domain-specific fine-tuning之後,進行classsify。
實驗結果:
實驗結果主要是再如上涉及的PASCAL VOC test set進行 object detection 和semantic segmentation結果的比較,object detection結果如圖2所示,semantic segmentation結果如圖3所示。
圖2 object detection結果圖
圖3 semantic segmentation結果圖
可以看出本文提出的RCNN在總體結果上都實現了突破,實例如圖4所示。
圖4 識別結果圖
創新之處和心得:
本文為我們提供了如何在object detection上利用CNN抽取feature進而提高任務mAP,獲得了很好的效果,這啟發我們多閱讀多思考會得到很好的結果。




No comments:
Post a Comment