Lecture 9: Introduction to Multimodal Machine Learning — Part 2
Image Captioning
Image Captioning Using RNN
Problem: Input is ‘bottlenecked’ through c. Model needs to encode everything it wants to say within c.
Image Captioning Using RNN & Attention
每次用 算出 attention map,从而去和 feature map 做点积,来求出每一时刻的 。
Model choose its own attention weights.
More Advanced Attention Mechanism
特征与特征之间是不需要管顺序的。所以可以直接将 拉平成 。
将 换成一个简单的点积。注意除以 以保证点积所得到的结果不会特别大。
引入 query。
- query 可以和 input vector 做点积,得到 Alignment。在这一步中,input vector 相当于 key。
- 把上一步得到的 Alignment 当做分数,对 input vector 做 Attention。在这一步中,input vector 相当于 value。
有几个 query,最终输出就有几个 feature。
value 有多少维,最终输出的 feature 维度就有多少维。
query 和 key 的维度必须相同。
Positional Encoding
where
优点:
- 相差为 的位置的 positional encoding 的点积是一个只与 有关的值。
- 相差 和 的点积相同。