Lecture 6: Introduction to Natural Language Processing (Part 1)
Representing a Word: Ont Hot Encoding
Bag-of-Words
优点:
- 使用简单
- 可以 encode 短语、句子、文章
- 对于分类、聚类、衡量文本之间的距离等问题较为适用
缺点
- 对于拥有同样单词的句子难以区分。
Bag-of-Bigrams
Word Representations
Word feature representations
Manually define ‘good’ features
Learned work representations
Vector should approximate “meaning” of the word
Compact, distance between words is semantic
Co-occurrence as feature
Similarity
Direction is more importance than location
Word2Vec
CBOW: Continuous Bag-of-Words
任务:预测目标词,给定其周围的上下文词。
架构:
- 输入层:每个上下文词表示为一个独热向量。用一个固定大小的窗口来选取上下文词。
- 投影层:取上下文词的独热向量通过嵌入矩阵投影后得到的向量,计算它们的平均值,作为隐藏层的输出。
- 输出层:使用一个 softmax 函数将隐藏层的输出映射为词汇表大小的概率分布。
Skip-Gram Model
任务:给定一个目标词,预测其上下文词。
架构:
- 输入层:目标词以独热向量表示
- 嵌入层:通过矩阵 投影独热向量得到一个词向量。
- 输出层,通过另一个矩阵 将词向量转换为一个大小为词汇表 的向量,使用 softmax 函数将其映射为概率分布。