AMMAI course 2015: Week 03: Efficient visual search of videos cast as text retrieval

題目：Efficient visual search of videos cast as text retrieval

作者：Josef Sivic and Andrew Zisserman

文章概要：

本篇文章主要利用text retrieval的技术，本篇文章主要利用text retrieval的技術，在給定的圖像中尋找和定位到確定物體的位置并標註于圖上。問題如圖1所示。作者利用viewpoint invariant description來描述每張圖片中的物體形成vector，利用quantization的得到visual word，再利用text retrieval的技術，利用query word和visual word的比對，找出相關圖像，具體算法細節在主要算法中介紹。

圖1 object retrieval 示例

主要算法：

該算法的主要思想是：利用viewpoint invariant description來描述每張圖片中的物體形成vector，是利用quantization的K-means做clustering，得到visual word。得到Visual Word之後，利用Stop list去除其中較無用的stop word，使用td-idf weighting得到較重要的word，保證spatial consistency，然後利用得到的Inverted File List，利用query word和visual word的比對，找出相關圖像。

算法主要步驟如下：

（1）使用SIFT descriptor描述video的每個frame，並且只取得穩定的region；如圖2所示，a-c shape adapted region，d-f 得到最穩定的regions。

圖2 使用Visual word描述Video每個frame

（2）建立虛擬詞典，去除stop word，選出tf-idf較高的詞，建立inverted file。

（3）user輸入query word，retrieve top N的結果。

實驗結果：

實驗方法如圖3所示，輸入query word得到相關圖像。實驗結果主要展示了保持spatial consistency的tf-idf和普通tf-idf以及baseline在Red clock, Black clock, Frames sign, Digital clock, Phil sign和Microphone 6種object，如圖4所示，進而可以得到圖5所示的正確率，可以看出a、b方法超出了baseline。