Lecture 6: Introduction to Natural Language Processing (Part 1)
|Last edited: 2024-11-28

Representing a Word: Ont Hot Encoding

notion image

Bag-of-Words

notion image
优点:
  1. 使用简单
  1. 可以 encode 短语、句子、文章
  1. 对于分类、聚类、衡量文本之间的距离等问题较为适用
缺点
  1. 对于拥有同样单词的句子难以区分。

Bag-of-Bigrams

notion image

Word Representations

Word feature representations

Manually define ‘good’ features

Learned work representations

Vector should approximate “meaning” of the word
Compact, distance between words is semantic

Co-occurrence as feature

notion image

Similarity

Direction is more importance than location

Word2Vec

CBOW: Continuous Bag-of-Words

任务:预测目标词,给定其周围的上下文词。
架构:
  • 输入层:每个上下文词表示为一个独热向量。用一个固定大小的窗口来选取上下文词。
  • 投影层:取上下文词的独热向量通过嵌入矩阵投影后得到的向量,计算它们的平均值,作为隐藏层的输出。
  • 输出层:使用一个 softmax 函数将隐藏层的输出映射为词汇表大小的概率分布。

Skip-Gram Model

任务:给定一个目标词,预测其上下文词。
架构:
  • 输入层:目标词以独热向量表示
  • 嵌入层:通过矩阵 投影独热向量得到一个词向量。
  • 输出层,通过另一个矩阵 将词向量转换为一个大小为词汇表 的向量,使用 softmax 函数将其映射为概率分布。
 
Loading...