題目:Learning Everything about Anything: Webly-Supervised Visual Concept Learning
作者:Santosh K. Divvala, University of Washington
Ali Farhadi, Carlos Guestrin , The Allen Institute for AI
文章概要:
本篇文章主要利用數量巨大的圖片進行Concept Learning,給定任何概念,系統可以發現數目巨大的擴展詞庫和它的相關圖像,並且在這基礎上訓練一個full-fledged detection models ,達到 Learning Everything about Anything的效果。效果示意圖如圖1所示,網站demo如圖2所示。
圖1 Learning效果示意圖
圖2 網站示意圖
主要算法:
文章提出的方法主要是“webly supervised”的方法。首先使用Google Books 2012的語料尋找出包含POS-tag的dependency ngrams data,其次由於ngram詞數過多以及有很多無關詞彙,需要使用一定的方法進行刪減和剪枝,文中使用Classifier-based 進行prune,具體過程是:利用詞彙在Google Image Search中找出圖片,將圖片做training data和validation data的劃分,使用DPM(Deformable Parts Model)針對每個nram 訓練出單獨的模型。validation的過程中,需要判斷validation出的準確率和threshold 10%的對比。只保留validation正確率大於10%的gram。
但僅僅單純地pruning是不夠的,為了減少相同意義的詞彙和pool 有意義的training data,文中做了取樣的處理。包括對stem word和synonymous的merge。具體方法是利用graph找出相似的詞彙,將他們合併成新的superngram。
實驗結果:
實驗結果主要從兩個方面進行闡述,分別是object detection和action detection。
Object detection主要選取了PASCAL VOC 2007的test sets,其中共有20個classes。可以看到在20個classes中,文中的webly supervised的方法在其中13個classes中有比較好的效果。如圖3所示。
圖3 PASCAL VOC 2007 結果
Action detection主要選取了VOC2011 (val) action detection,在jumping中戰勝了state-of-art,其他三種action取得了類似的結果。如圖4所示。
圖4 VOC2011 (val) action detection結果
創新之處和心得:
這篇paper使用了很讓人振奮的題目,並且定義了未來語言和圖片結合大學習的趨勢,非常具有前瞻性和參考性,讓人思考,給人啟發。












































