Wednesday, May 27, 2015

Week 06: To aggregate or not to aggregate: selective match kernels for image search

題目:To aggregate or not to aggregate: Selective match kernels for image search


作者:Giorgos Tolias INRIA Rennes, NTUA            

            annis Avrithis NTUA             

            Herve ́ Je ́gou  INRIA Rennes



文章概要:


        本篇文章主要比較了一系列衡量圖像的local descriptors,主要包括VLAD decriptor和matching technique 比如Hamming Coding。找出這些方法的差異性和共通性,從而找出最好的kernel來進行aggregation,旨在改進visual recognition中對物體、位置、風景的識別。實驗結果在大規模圖像search系統上提高了準確率和可延展性。

主要算法:


       文章首先介紹了matching kernels的framework,選取了BOW(bag-of-words), Hamming Embedding, VLAD簡單地descriptor。其中BOW是每個單詞的descriptor,它可以用cos相似度來描述。如公式(1)所示。

   公式(1)


        Hamming Embedding對BOW進行了擴展,如公式2所示。

公式(2)


        VLAD集成了Visual Word產生d x k 維的vector對單詞進行描述,如公式3所示。

公式(3)


        第二部份主要進行match kernel的選擇,包括了Non-aggregated SMK(selective model kernel)和Aggregated SMK,前者公式如公式4所示,是首先利用selective function處理vector之後做summation,後者是在summation的基礎上進行selective,如公式5所示。在此基礎上,對SMK進行了優化,得到了binarization的model,已達到節省空間的效果。


公式(4)


公式(5)

實驗結果:

        實驗結果主要從兩個方面進行闡述,首先對SMK和ASMK進行了不同參數的比較,包括threshold和ratio of memory的比較,得到圖1和圖2所示的結果。



圖1 不同threshold對mAP的影響




圖2 不同model對mAP對memory的影響


        另一方面從不同方法進行比較,比較不同model,如圖3所示。





圖3 不同model的結果


創新之處和心得:


        這篇paper主要從細節出發,對matching kernel做了aggregation,結合了VLAD和HE model的優點和長處。獲得了很好的效果,值得我們學習。


No comments:

Post a Comment