Lecture 4: Introduction to Computer Vision (Part 2)
Computer Vision Problems
- Categorizaion
- Detection
- Segmentation
- Instance Segmentation
AlexNet
FLOP:Floating Point Operation,指的是模型执行所需的浮点运算次数。
注:这里的 memory 指的是某个模块的输出所占用的内存。
VGG Net
Deeper Network!
- 使用小的卷积核。
好处:降低参数量,降低浮点运算次数。
两个 3x3 卷积和一个 5x5 卷积相比,感受野相同,但是参数量与浮点运算次数都得到了降低。
- 与 AlexNet 相比,VGG Net 的体量大了很多。
GoogleNet
- Downsample aggressively at the beginning.
- 由于VGGNet大部分的运算全部集中于开始,所以在一开始很大力度上做降采样。
- Inception Module
- Local Unit with parallel branches (Multiple receptive field size)
- Concatenate all filter together channel-wise
- Local structure repeated many times throughout the network
- Use 1x1 Bottleneck layer to reduce channel dimension before expensive conv
- Global Average Pooling
- 由于 FC 会带来很大的参数量,所以在最后用 Pool 减少 feature map 的大小,从而消除了大的 FC 层。
- Auxiliary Classifiers
- 只用最后的 Loss 不能很好的训练模型。
- 模型太深了。
- 在中间层加入辅助的分类器。
Residual Networks
更深的模型比较浅的模型表现更差,而且是欠拟合。
猜想:优化上出了问题。
可以训练非常深的网络。
梯度问题
普通网络
在深层神经网络中,梯度反向传播时会经历多层链式求导。
在经历多次连乘之后,梯度可能会指数式衰减或指数式增长,从而导致优化困难。
Residual Network
其中 是输入, 是权重, 是非线性变换。
梯度
即使 很小,由于 的存在,梯度不会完全消失。