Lecture 9: Introduction to Multimodal Machine Learning — Part 2
|Last edited: 2024-12-31

Image Captioning

Image Captioning Using RNN

notion image
Problem: Input is ‘bottlenecked’ through c. Model needs to encode everything it wants to say within c.

Image Captioning Using RNN & Attention

notion image
每次用 算出 attention map,从而去和 feature map 做点积,来求出每一时刻的
Model choose its own attention weights.

More Advanced Attention Mechanism

notion image
特征与特征之间是不需要管顺序的。所以可以直接将 拉平成
notion image
换成一个简单的点积。注意除以 以保证点积所得到的结果不会特别大。
notion image
引入 query。
  1. query 可以和 input vector 做点积,得到 Alignment。在这一步中,input vector 相当于 key。
  1. 把上一步得到的 Alignment 当做分数,对 input vector 做 Attention。在这一步中,input vector 相当于 value。
notion image
💡
有几个 query,最终输出就有几个 feature。
💡
value 有多少维,最终输出的 feature 维度就有多少维。
💡
query 和 key 的维度必须相同。

Positional Encoding

where
优点:
  1. 相差为 的位置的 positional encoding 的点积是一个只与 有关的值。
  1. 相差 的点积相同。
 
 
Loading...