一、文本的表示方法 (Representation)

  • 文本是一种非结构化的数据信息,是不可以直接被计算的。因为文本不能够直接被模型计算,所以需要将其转化为向量。
  • 文本表示的作用就是将这些非结构化的信息转化为结构化的信息,这样就可以针对文本信息做计算,来完成我们日常所能见到的文本分类,情感判断等任务。


文本表示的方法有很多种,主要的有 3 类方式:

  1. 独热编码 (one-hot representation)
  2. 整数编码
  3. 词嵌入(word embedding)

1、独热编码 (one-hot representation)

  • 假如我们

更多推荐

NLP-词向量(Word Embedding)-2013:Word2vec模型(CBOW、Skip-Gram)【对NNLM的简化】【层次Softmax、负采样、