Lecture 2: Introduction to Deep Learning
Outline
- Linear Regression
- One Layer Neural Network
- Multi Layer Neural Network
- Gradient Descent
- Activation Functions
- Regularizations
Linear Regression
One Layer Neural Network
Multi Layer Neural Network
Light Theory: Neural Network as Universal Approximator
Neural network can arbitrarily approximate any continuous function for every value of possible inputs
By using enough neurons, we can always find a neural network whose output satisfies for an arbitrary small .
直观理解:可以构造 step function
Activation Function
Sigmoid
优点:
- 把任何东西压缩到 之中。
- 可以被理解为“概率”
- 有良好定义的梯度
缺点
- 梯度消失问题。当 很大或者很小时,函数的导数接近于零,可能会导致梯度消失问题。
- 非零中心。sigmoid 函数的输出总是非负的,这会导致在反向传播的过程中,梯度的符号可能一直为正或者一直为负,从而导致梯度更新的方向不对称。
- 计算复杂。Expensive to compute.
Tanh
附:其他双曲函数
优点:
- 把输入压缩在 之中。
- 以零为中心
- 有良好定义的梯度
缺点
- 梯度消失问题
ReLU
优点
- 在 的时候梯度不会消失
- 计算非常简单
- 收敛速度较快
缺点
- 非零中心
Leaky / Parameterized ReLU
其中 是一个固定的常数,例如 0.01。
也可以将 设置为可学习的参数。
优点:
- 梯度不消失
- 计算简单
- 手链较快
GELU
Swish
SwiGLU
在实现中,通常将 和 的输入通道维度扩展到 ,输出通道维度压缩为 ,然后再进行主元素相乘,最后通过下游的线性层还原维度。
Regularization
L2 Regularization
Learn a more dense distributed representation
L1 Regularization
Learn a sparse representation (few non-zero weight elements)
Batch Normalization
其中, 表示每个数据, 表示每个特征维度。
从上述公式可以看出,batch normalization是对每个特征单独求平均值和方差的。
为了让网络保持表达能力,对归一化后的值进行线性变化
和 也是针对于每个特征维度 而言的。
通常加在激活函数之前。
Layer Normalization
Dropout
在前向传播的过程中,随机将一些神经元的输出置零。
置零的比例:dropout rate
Loss Function
Binary Classification
假设我的模型是 , 表示模型认为 的标签应该是 的概率。
则根据最大似然原则,我们要最大化
取对数,取相反数,得
即
Multiclass Classification
与 Binary Classification 类似,设 表示模型认为 的标签应该是 的概率。
则