一、文本的表示方法 (Representation)
- 文本是一种非结构化的数据信息,是不可以直接被计算的。因为文本不能够直接被模型计算,所以需要将其转化为向量。
- 文本表示的作用就是将这些非结构化的信息转化为结构化的信息,这样就可以针对文本信息做计算,来完成我们日常所能见到的文本分类,情感判断等任务。
文本表示的方法有很多种,主要的有 3 类方式:
- 独热编码 (one-hot representation)
- 整数编码
- 词嵌入(word embedding)
1、独热编码 (one-hot representation)
- 假如我们
更多推荐
NLP-词向量(Word Embedding)-2013:Word2vec模型(CBOW、Skip-Gram)【对NNLM的简化】【层次Softmax、负采样、
发布评论