題目:To aggregate or not to aggregate: Selective match kernels for image search
作者:Giorgos Tolias INRIA Rennes, NTUA
annis Avrithis NTUA
Herve ́ Je ́gou INRIA Rennes
文章概要:
本篇文章主要比較了一系列衡量圖像的local descriptors,主要包括VLAD decriptor和matching technique 比如Hamming Coding。找出這些方法的差異性和共通性,從而找出最好的kernel來進行aggregation,旨在改進visual recognition中對物體、位置、風景的識別。實驗結果在大規模圖像search系統上提高了準確率和可延展性。
主要算法:
文章首先介紹了matching kernels的framework,選取了BOW(bag-of-words), Hamming Embedding, VLAD簡單地descriptor。其中BOW是每個單詞的descriptor,它可以用cos相似度來描述。如公式(1)所示。
Hamming Embedding對BOW進行了擴展,如公式2所示。
VLAD集成了Visual Word產生d x k 維的vector對單詞進行描述,如公式3所示。
第二部份主要進行match kernel的選擇,包括了Non-aggregated SMK(selective model kernel)和Aggregated SMK,前者公式如公式4所示,是首先利用selective function處理vector之後做summation,後者是在summation的基礎上進行selective,如公式5所示。在此基礎上,對SMK進行了優化,得到了binarization的model,已達到節省空間的效果。
實驗結果:
實驗結果主要從兩個方面進行闡述,首先對SMK和ASMK進行了不同參數的比較,包括threshold和ratio of memory的比較,得到圖1和圖2所示的結果。
圖1 不同threshold對mAP的影響
圖2 不同model對mAP對memory的影響
另一方面從不同方法進行比較,比較不同model,如圖3所示。
圖3 不同model的結果
創新之處和心得:
這篇paper主要從細節出發,對matching kernel做了aggregation,結合了VLAD和HE model的優點和長處。獲得了很好的效果,值得我們學習。








No comments:
Post a Comment