使用传统的LSTM
用的飞桨上的中文情感分类的数据集
进行分词,我使用了jieba对中文分词,构建词表
这里如果语料库比较小,可以使用jieba 的
全词模式
进行分词,这样可以得到更多的词,减少OOV的概率- 一般是先进行分词,再统计每个词的频率,若语料库比较大,可以根据情况过滤掉低频词(也可以不过滤)
- 最后得到词表和stoi(词到索引的映射)、itos(索引到词的映射)
- 通常我们会加入一些特殊的词,例如
<unk>
表示一个词表不存在的词、<pad>
在训练的时候进行填充来保证输入的向量维度相同