題目:Text Understanding from Scratch
作者:Xiang Zhang Yann LeCun
Computer Science Department, Courant Institute of Mathematical Sciences, New York University
文章概要:
本篇文章主要利用深度學習技術對文字進行理解。包括從character-level的輸入提取出抽象的文字概念,包括應用ConvNets的技術進行 ontology分類,情感分析和文字分類。文中可以看到ConvNets的應用在以上任務中,包括中文和英文都取得了很好的效果。
主要算法:
文章提出的方法主要是利用ConvNets在大規模資料集上的應用。之所以利用ConvNets的原因作者提出了以下兩點:
(1)ConvNets 不需要利用每個character的知識和意義,因為ConvNets是從圖像演變過來的,所以此處不需要單字的意義;
(2)ConvNets不需要語法或者語義結構的知識,理由同上,可以說,它從本質上和先前的文字處理是不一樣的。
文中主要設計了兩種ConvNets模型,分別是一種大型模型和小型模型。模型中,它們都有9個layers,包括6層 convolutional layers 和 3層 fully-connected layers,不過它們的區別是大型model convolutional layers的hidden units是1024,小型model是256.大型model在fully-connected layers output units是2048,小型是1024.在fully-connected layers,使用了dropout,概率是0.5.模型架構如圖1所示。具體差異如圖2、3所示.
圖1 model架構
圖2 大型model架構
圖3 小型model架構
在此模型架構基礎上,作者做了data augmentation,用synonyms替換了單字和片語。
實驗結果:
實驗結果主要從不同的資料庫上進行了實驗,分別是DBpedia Ontology Classification,Amazon Review Sentiment Analysis,Yahoo! Answers Topic Classification,News Categorization in English和News Categorization in Chinese。
在DBpedia Ontology Classification中,結果如圖4所示,相比word vector和bag of words取得了較好的accuracy。
圖4 DBpedia Ontology Classification結果
在Amazon Review Sentiment Analysis中,結果如圖5、圖6所示。
圖5 Amazon ull score dataset結果
圖6 Amazon review polarity dataset結果
在Yahoo! Answers Topic Classification中,結果如圖7所示。
圖7 Yahoo! Answers dataset結果
在 AG’s news corpus中,結果如圖8所示。
圖8 AG’s news corpus(English)結果
在 Sogou News dataset中,結果如圖9所示。
圖9 Sogou News dataset(Chinese)結果
創新之處和心得:
本文為我們提供了ConvNets在文字理解任務上的適用性和優點,它不需要任務文字語義的知識,而僅僅是把文字當做圖片一樣運用convolutional layer的深層網絡進行識別,取得了很好的效果,在龐大的數據量基礎上,實現了好效果,值得借鑑和參考。









No comments:
Post a Comment