读BERT的论文
bert基于
MLM
和 “next sentence prediction” 任务进行预训练因为注意力机制的计算是双向的,跟RNN不同,RNN是单向的,因此bert是双向地提取特征
bert使用的是
wordPiece
的分词方式,vocab_size = 30000, 每个序列的第一个token是[CLS],然后[SEP]分隔句子[CLS]
最终的隐藏层状态会被用来分类任务(也叫做CLS池化),如果是token级别的任务的话,选取对应token的输出即可,然后加一些全连接层做token的分类