AMMAI course 2015: Week 06: To aggregate or not to aggregate: selective match kernels for image search

題目：To aggregate or not to aggregate: Selective match kernels for image search

作者：Giorgos Tolias INRIA Rennes, NTUA

annis Avrithis NTUA

Herve ́ Je ́gou INRIA Rennes

文章概要：

本篇文章主要比較了一系列衡量圖像的local descriptors，主要包括VLAD decriptor和matching technique 比如Hamming Coding。找出這些方法的差異性和共通性，從而找出最好的kernel來進行aggregation，旨在改進visual recognition中對物體、位置、風景的識別。實驗結果在大規模圖像search系統上提高了準確率和可延展性。

主要算法：

文章首先介紹了matching kernels的framework，選取了BOW（bag-of-words）, Hamming Embedding, VLAD簡單地descriptor。其中BOW是每個單詞的descriptor，它可以用cos相似度來描述。如公式（1）所示。

公式（1）

Hamming Embedding對BOW進行了擴展，如公式2所示。

公式（2）

VLAD集成了Visual Word產生d x k 維的vector對單詞進行描述，如公式3所示。

公式（3）

第二部份主要進行match kernel的選擇，包括了Non-aggregated SMK（selective model kernel）和Aggregated SMK，前者公式如公式4所示，是首先利用selective function處理vector之後做summation，後者是在summation的基礎上進行selective，如公式5所示。在此基礎上，對SMK進行了優化，得到了binarization的model，已達到節省空間的效果。