人工智能A7论坛 >> Tensorflow和深度学习笔记_论坛版 >> 6 CNN 在自然语言处理中的应用

6.1文本的二维矩阵表示

     把文本表示成和图像一样的二维矩阵形式的方法很简单:

     一方面,填充每个句子到的最大句子长度。我们添加特殊的 tokens 到其他句子中使得它们包含max_lengthwords。填充句子到同样的长度是有用的,因为批处理的每个样本都必须有相同的长度,所以这样可以高效地把数据划分成批。

填充句子长度,其实就是一个padding的问题。

     另一方面,使用word embedding。可以直接在神经网络中从头开始训练词向量(train from scratch)。也可以采用迁移学习的思想,先通过word2vec、 glovec 或者Fasttext等方式训练词向量,然后把词向量直接导入神经网络中的embedding 层作为权重,进行fine-tuning

     以上说的是“英文”等不需要分词的文本的方式。对于汉语文本,需要先做分词,再做上两个步骤。