Wednesday, May 27, 2015

Week 08: Probabilistic latent semantic indexing

題目:Probabilistic Latent Semantic Indexing


作者:Thomas Hofmann


文章概要:


          本文主要介紹對文件做自動索引。利用LSA(Latent Semantic Analysis)用SVD對feature進行降維,然後根據word distribution,分類文檔的劣勢在於,沒有比較好的統計基礎。所以PLSA,用概率模型來做文檔分類、詞聚類等。本文真是基於概率模型,進行文本分類。

主要算法:


            首先準備好字典。假設為SET = {w1,w2,w3..}

   事前定義好的幾個分類,例如: Topic = {t1, t2, t3...}

      最後是一個分類未知的雜合文檔集, Doc = {d1,d2,d3…}
 
            首先在文檔集中挑選一篇文檔d的概率, P(d),然後這篇文檔描述內容是關於topic-t的概

率為P(t|d) ,在這個topic中,包含了文檔當前內容w的概率: P(w|t)。這裡需要注意的是文檔中

字和具體某個文檔無關。
           
             所以P(w|t,d)=>P(w|t),p(d,w) = p(d)p(w|d),p(w|d) = ∑p(w|t)p(t|d) (tT)。
           
             合併兩個方程式,得

             p(d,w) = p(d)*∑p(w|t)p(t|d) = ∑p(w|t)p(t|d)p(d)

             p(t|d)p(d) = p(t,d) = p(d|t)p(t)

            再得p(d,w) = p(d)*∑p(w|t)p(t|d) = ∑p(w|t)p(d|t)p(t) (tT)

      我們要去求的結果是p(w|t)p(d|t)..

      E-STEP:

            p(t|d,w) = p(w|t)p(d|t)p(t)/∑( p(w|t')p(d|t')p(t'))

      M-STEP:

            p(w|t) = ∑(n(d,w)*p(t|d,w))

      同理p(d|t) = ∑(n(d,w)*p(t|d,w)),p(z) = ∑(n(d,w)p(z|w,d)。


創新之處和心得:




           本文利用統計模型對LSA進行了改善,有更強的理論基礎,值得學習和借鑑。




No comments:

Post a Comment