调节学习率
当学习率过大的时候会导致模型难以收敛,过小的时候会收敛速度过慢,合理的学习率才能让模型收敛到最小点而非局部最优点或鞍点
经验值: 0.01 ~ 0.001
学习率衰减
原因:起初距离目标偏离大,可以设置较大,为了快速收敛,后续逐渐靠近目标,需要精细化一点,所以希望值小一点
分类
1.轮数衰减
每经过k个epochs后学习率减半
2.指数衰减
3.分数衰减
参考
https://blog.csdn.net/LiuPeiP_VIPL/article/details/119581343