AMMAI course 2015: Week 14:Text Understanding from Scratch.

題目：Text Understanding from Scratch

作者：Xiang Zhang Yann LeCun

Computer Science Department, Courant Institute of Mathematical Sciences, New York University

文章概要：

本篇文章主要利用深度學習技術對文字進行理解。包括從character-level的輸入提取出抽象的文字概念，包括應用ConvNets的技術進行 ontology分類，情感分析和文字分類。文中可以看到ConvNets的應用在以上任務中，包括中文和英文都取得了很好的效果。

主要算法：

文章提出的方法主要是利用ConvNets在大規模資料集上的應用。之所以利用ConvNets的原因作者提出了以下兩點：

（1）ConvNets 不需要利用每個character的知識和意義，因為ConvNets是從圖像演變過來的，所以此處不需要單字的意義；

（2）ConvNets不需要語法或者語義結構的知識，理由同上，可以說，它從本質上和先前的文字處理是不一樣的。

文中主要設計了兩種ConvNets模型，分別是一種大型模型和小型模型。模型中，它們都有9個layers，包括6層 convolutional layers 和 3層 fully-connected layers，不過它們的區別是大型model convolutional layers的hidden units是1024，小型model是256.大型model在fully-connected layers output units是2048，小型是1024.在fully-connected layers，使用了dropout，概率是0.5.模型架構如圖1所示。具體差異如圖2、3所示.

圖1 model架構

圖2 大型model架構

圖3 小型model架構

在此模型架構基礎上，作者做了data augmentation，用synonyms替換了單字和片語。

實驗結果：

實驗結果主要從不同的資料庫上進行了實驗，分別是DBpedia Ontology Classification，Amazon Review Sentiment Analysis，Yahoo! Answers Topic Classification，News Categorization in English和News Categorization in Chinese。

在DBpedia Ontology Classification中，結果如圖4所示，相比word vector和bag of words取得了較好的accuracy。