AMMAI course 2015: Week 10: Story-driven summarization for egocentric video

題目：Story-driven summarization for egocentric video

本篇文章主要內容是基於故事驅動對影像進行summary。在給定一段時序的影像輸入之後，選擇一系列短的subshot來描述特定的事件。作者定義了random work，用來評估不同虛擬object在事件中的影響。在這種衡量影響的基礎上，選取k-subshot summary。總體框架如圖1所示。

圖1 總體框架圖

主要算法：

首先將原始的影像定義為一系列一共n個subshots，選定K個subshots，如公式1所示。

公式1

找出S中使得Q最大的S序列，如公式2所示。

公式2

其中Q需要考慮story、importance和diversity的影響。定義如公式3所示。

公式3

在給每一個K-subshots定義分數的時候，將story、importance和diversity定義為bipartite graph，如圖2所示，頂部節點是object，下部節點是subshots，連接它們的是object和subshots之間的概率。在此圖的基礎上，目標函數是使取得最小值。

圖2 相關影響bipartite graph圖

接下來需要將手握或者holding物體考慮進去，如圖3所示，然後將subshot裡面有相關性的物體都考慮進去，這樣才能得到有意義的結果，如圖4所示。

圖3 考慮holding物體圖

圖4 作者method與 unifrom sampling對比

實驗結果：

實驗結果可以看出故事驅動的方法可以找到比較重要的object以及相比其他方法對故事的總結更具有代表性。圖5為與frequency-based baseline的對比。圖6不同方法summarization的效果對比。

圖5 與frequency-based baseline對比

圖6 不同方法summarization的效果對比

本文出發點較新穎，利用故事驅動完成對影像的總結，具有一定的參考價值和借鑑意義。