題目:Probabilistic Latent Semantic Indexing
作者:Thomas Hofmann
文章概要:
本文主要介紹對文件做自動索引。利用LSA(Latent Semantic Analysis)用SVD對feature進行降維,然後根據word distribution,分類文檔的劣勢在於,沒有比較好的統計基礎。所以PLSA,用概率模型來做文檔分類、詞聚類等。本文真是基於概率模型,進行文本分類。
主要算法:
首先準備好字典。假設為SET = {w1,w2,w3..}
事前定義好的幾個分類,例如: Topic = {t1, t2, t3...}
最後是一個分類未知的雜合文檔集, Doc = {d1,d2,d3…}
首先在文檔集中挑選一篇文檔d的概率, P(d),然後這篇文檔描述內容是關於topic-t的概
率為P(t|d) ,在這個topic中,包含了文檔當前內容w的概率: P(w|t)。這裡需要注意的是文檔中
字和具體某個文檔無關。
所以P(w|t,d)=>P(w|t),p(d,w) = p(d)p(w|d),p(w|d) = ∑p(w|t)p(t|d) (t∈T)。
合併兩個方程式,得
p(d,w) = p(d)*∑p(w|t)p(t|d) = ∑p(w|t)p(t|d)p(d)
p(t|d)p(d) = p(t,d) = p(d|t)p(t)
再得p(d,w) = p(d)*∑p(w|t)p(t|d) = ∑p(w|t)p(d|t)p(t) (t∈T)
我們要去求的結果是p(w|t)和p(d|t)..
E-STEP:
p(t|d,w) = p(w|t)p(d|t)p(t)/∑( p(w|t')p(d|t')p(t'))
M-STEP:
p(w|t) = ∑(n(d,w)*p(t|d,w))
同理p(d|t) = ∑(n(d,w)*p(t|d,w)),p(z) = ∑(n(d,w)p(z|w,d)。
創新之處和心得:
本文利用統計模型對LSA進行了改善,有更強的理論基礎,值得學習和借鑑。
No comments:
Post a Comment