AMMAI course 2015: Week 08: Probabilistic latent semantic indexing

題目：Probabilistic Latent Semantic Indexing

本文主要介紹對文件做自動索引。利用LSA（Latent Semantic Analysis）用SVD對feature進行降維，然後根據word distribution，分類文檔的劣勢在於，沒有比較好的統計基礎。所以PLSA，用概率模型來做文檔分類、詞聚類等。本文真是基於概率模型，進行文本分類。

首先準備好字典。假設為SET ＝ {w1,w2,w3..}

　　　事前定義好的幾個分類,例如: Topic = {t1, t2, t3...}

　　最後是一個分類未知的雜合文檔集, Doc = {d1,d2,d3…}

首先在文檔集中挑選一篇文檔d的概率, P(d)，然後這篇文檔描述內容是關於topic-t的概

率為P(t|d) ，在這個topic中，包含了文檔當前內容w的概率: P(w|t)。這裡需要注意的是文檔中

字和具體某個文檔無關。

所以P(w|t,d)=>P(w|t)，p(d,w) = p(d)p(w|d)，p(w|d) = ∑p(w|t)p(t|d) (t∈T)。

合併兩個方程式，得

p(d,w) = p(d)*∑p(w|t)p(t|d) = ∑p(w|t)p(t|d)p(d)

p(t|d)p(d) = p(t,d) = p(d|t)p(t)

再得p(d,w) = p(d)*∑p(w|t)p(t|d) = ∑p(w|t)p(d|t)p(t) (t∈T)

　　我們要去求的結果是p(w|t)和p(d|t)..

　　 E-STEP:

p(t|d,w) = p(w|t)p(d|t)p(t)/∑( p(w|t')p(d|t')p(t'))

　　 M-STEP:

p(w|t) = ∑(n(d,w)*p(t|d,w))

　　同理p(d|t) = ∑(n(d,w)*p(t|d,w))，p(z) = ∑(n(d,w)p(z|w,d)。

本文利用統計模型對LSA進行了改善，有更強的理論基礎，值得學習和借鑑。