題目:Efficient visual search of videos cast as text retrieval
作者:Josef Sivic and Andrew Zisserman
文章概要:
本篇文章主要利用text retrieval的技术,本篇文章主要利用text retrieval的技術,在給定的圖像中尋找和定位到確定物體的位置并標註于圖上。問題如圖1所示。作者利用viewpoint invariant description來描述每張圖片中的物體形成vector,利用quantization的得到visual word,再利用text retrieval的技術,利用query word和visual word的比對,找出相關圖像,具體算法細節在主要算法中介紹。
圖1 object retrieval 示例
主要算法:
該算法的主要思想是:利用viewpoint invariant description來描述每張圖片中的物體形成vector,是利用quantization的K-means做clustering,得到visual word。得到Visual Word之後,利用Stop list去除其中較無用的stop word,使用td-idf weighting得到較重要的word, 保證spatial consistency,然後利用得到的Inverted File List,利用query word和visual word的比對,找出相關圖像。
算法主要步驟如下:
(1)使用SIFT descriptor描述video的每個frame,並且只取得穩定的region;如圖2所示,a-c shape adapted region,d-f 得到最穩定的regions。
圖2 使用Visual word描述Video每個frame
(2)建立虛擬詞典,去除stop word,選出tf-idf較高的詞,建立inverted file。
(3)user輸入query word,retrieve top N的結果。
實驗結果:
實驗方法如圖3所示,輸入query word得到相關圖像。實驗結果主要展示了保持spatial consistency的tf-idf和普通tf-idf以及baseline在Red clock, Black clock, Frames sign, Digital clock, Phil sign和Microphone 6種object,如圖4所示,進而可以得到圖5所示的正確率,可以看出a、b方法超出了baseline。
圖3 實驗方法圖
圖4 實驗識別物體
圖5
進而又比較了不同的frequency ranking methods對於正確率的影響,得到圖6所示的結果。
圖6
心得:
本篇paper主要是講解的paper,很好地闡述了利用 text retrieval完成影像中的object search,實驗結果也得到了較高的準確率,是一篇值得借鑑的好文章。






No comments:
Post a Comment