Wednesday, May 27, 2015

Week 03: Efficient visual search of videos cast as text retrieval

題目:Efficient visual search of videos cast as text retrieval


作者:Josef Sivic and Andrew Zisserman


文章概要:


         本篇文章主要利用text retrieval的技术,本篇文章主要利用text retrieval的技術,在給定的圖像中尋找和定位到確定物體的位置并標註于圖上。問題如圖1所示。作者利用viewpoint  invariant description來描述每張圖片中的物體形成vector,利用quantization的得到visual word,再利用text retrieval的技術,利用query word和visual word的比對,找出相關圖像,具體算法細節在主要算法中介紹。 


                  

圖1 object retrieval 示例

主要算法:

        該算法的主要思想是:利用viewpoint  invariant description來描述每張圖片中的物體形成vector,是利用quantization的K-means做clustering,得到visual word。得到Visual Word之後,利用Stop list去除其中較無用的stop word,使用td-idf weighting得到較重要的word, 保證spatial consistency,然後利用得到的Inverted File List,利用query word和visual word的比對,找出相關圖像。
算法主要步驟如下: 

(1)使用SIFT descriptor描述video的每個frame,並且只取得穩定的region;如圖2所示,a-c shape adapted region,d-f 得到最穩定的regions。 


圖2 使用Visual word描述Video每個frame

(2)建立虛擬詞典,去除stop word,選出tf-idf較高的詞,建立inverted file。
(3)user輸入query word,retrieve top N的結果。

實驗結果:

         實驗方法如圖3所示,輸入query word得到相關圖像。實驗結果主要展示了保持spatial consistency的tf-idf和普通tf-idf以及baseline在Red clock, Black clock, Frames sign, Digital clock, Phil sign和Microphone 6種object,如圖4所示,進而可以得到圖5所示的正確率,可以看出a、b方法超出了baseline。

        
圖3 實驗方法圖


圖4 實驗識別物體


圖5

        進而又比較了不同的frequency ranking methods對於正確率的影響,得到圖6所示的結果。
                   

圖6


心得:


        本篇paper主要是講解的paper,很好地闡述了利用 text retrieval完成影像中的object search,實驗結果也得到了較高的準確率,是一篇值得借鑑的好文章。

No comments:

Post a Comment