# 优化算法
SGD、牛顿法、拟牛顿法
# 什么是梯度下降法?
https://www.zhihu.com/question/305638940/answer/973832203
# 用梯度下降训练 SVM 会有什么问题?
https://www.zhihu.com/question/265751466
# 最小二乘、极大似然、梯度下降有何区别?
https://www.zhihu.com/question/24900876
# 最优化问题中,牛顿法为什么比梯度下降法求解需要的迭代次数更少?
https://www.zhihu.com/question/19723347
# 为什么nn的较大问题是会陷入局部最优时,不选用凸函数作为激活函数?
https://www.zhihu.com/question/38549801