深度学习优化器
  1. 仅涉及到梯度的优化器
    1. 批量梯度下降法
    2. 随机梯度下降法
    3. MBGD
  2. 引入动量
    1. 权重衰减
    2. 动量
    3. Nesterov Accelerated Gradient
  3. 自适应学习率算法
    1. Adagrad
    2. RMSProp 和 Adadelta
    3. Adam
    4. AdamW

以上