2024-04-06 b5a4ec4783bc8d238005ac3c9948ff5b 99+ fast 0.0 k

内存/显存不够

1.从磁盘读数据集时

？？

2.训练时

1 batch size减少

2 分布式

机器学习训练技巧

内存/显存不够

2022-06-01 3ba33d1ceab0ed9e29fb092823752fff 99+ fast 0.0 k

early stop

机器学习训练技巧

2022-06-01 3d31f012d7c81479d9aed26111e76653 99+ fast 0.1 k

训练,验证同步进行

参数没变，只是选择了训练中验证最好的模型，类似early stop

不同时行不行？不同时可能无法得到最优的step，有可能过拟合

机器学习训练技巧

训练,验证同步进行

2021-12-18 115a685e3e12bd423388f7c8e204e324 99+ a minute 0.2 k

调节学习率

当学习率过大的时候会导致模型难以收敛，过小的时候会收敛速度过慢，合理的学习率才能让模型收敛到最小点而非局部最优点或鞍点

经验值： 0.01 ~ 0.001

学习率衰减

原因：起初距离目标偏离大，可以设置较大，为了快速收敛，后续逐渐靠近目标，需要精细化一点，所以希望值小一点

分类

1.轮数衰减

每经过k个epochs后学习率减半

2.指数衰减

$\alpha_t=decay\_rate^{epoch}*\alpha_{t-1}$

3.分数衰减

$\alpha_t=\frac{\alpha_{t-1}}{1+decay\_rate*epoch}$

参考

https://blog.csdn.net/LiuPeiP_VIPL/article/details/119581343

机器学习训练技巧

调节学习率

2021-11-26 63b40fd2e490d40d15674e3ca890fd0d 99+ a minute 0.2 k

权重初始化

参数初始权重为什么不全0或者任意相同值

$某一层任意一个神经元 \\ z=W_{1\times m}X_{m\times 1}+b_{1\times1}$

如果我们将神经网络中的权重集初始化为零或者相同，那么同一层的所有神经元将在反向传播期间开始产生相同的输出和相同的梯度。导致同一层每个神经元完全一样，等价于只有一个

常用的三种权值初始化方法

随机初始化、Xavier initialization、He initialization

参考

https://mdnice.com/writing/6fe7dfe1954945d180d6b36562658af8

https://m.ofweek.com/ai/2021-06/ART-201700-11000-30502442.html

https://blog.csdn.net/qq_15505637/article/details/79362970

机器学习训练技巧

权重初始化

2021-11-10 0b9b8ab68ec465f37bbbbcf22c5522fb 99+ fast 0.0 k

Gradient Accumulation

https://blog.csdn.net/u013546508/article/details/121157559

https://blog.csdn.net/Princeicon/article/details/108058822

机器学习训练技巧

gradient_accumulate_steps，调节学习率

2021-11-10 3672d6822b0ff93c15e465872615f02f 99+ fast 0.0 k

loss不下降的解决方法

https://blog.csdn.net/zongza/article/details/89185852

机器学习训练技巧

loss不下降的解决方法

2021-11-04 c35f4e43cf37c04a9ce9676112152841 99+ 2 m 0.3 k

调参

1. 调什么参数

1 训练层面

0 权重初始化

1 学习率

2 batch size

3 epoch

4 dropout

5 正则化

6 优化算法

2 模型层面

1 激活函数

2 网络尺寸

2. 超参数怎么调

1.手动调参

经验值

2.自动化调参

a.网格搜索

超参数排序组合，如果有n个参数，每个参数都有m个候选值，那么网格搜索中就要训练m的n次方个模型。

b.随机搜索

比起网格搜索：1、搜索次数少，快 2. 因为有偶然性，可能不是最优

c.贝叶斯优化

https://zhuanlan.zhihu.com/p/146633409

Bayesian optimization algorithm，简称BOA

网格搜索和随机搜索，每次都是相互独立的，贝叶斯优化利用之前已搜索点的信息确定下一个搜索点

参考

https://zhuanlan.zhihu.com/p/340578370

https://www.jianshu.com/p/92d8943fb0ba

https://zhuanlan.zhihu.com/p/146633409

https://blog.csdn.net/weixin_45884316/article/details/109828084

https://www.cnblogs.com/zingp/p/11352012.html#_label8

https://www.jianshu.com/p/71f39c2ea512

机器学习训练技巧

2021-10-14 5fc44d8e0e41b17ac6dca81ad01ce603 99+ fast 0.0 k

优化算法

mark

https://www.cnblogs.com/zingp/p/11352012.html#_label8

https://www.jianshu.com/p/71f39c2ea512

机器学习训练技巧

2021-09-07 a163153037c01b910d58c60152e6ada9 99+ 3 m 0.5 k

正则化

是机器学习中对原始损失函数引入额外信息，以便防止过拟合和提高模型泛化性能的一类方法的统称。

1.L1正则（Lasso回归）

L1正则化可以使得参数稀疏化，即得到的参数是一个稀疏矩阵，可以用于特征选择。

$\begin{align*} L_{L1}(w)&=L(w)+\lambda\Vert w \Vert_1=L(w)+\lambda\sum_{i=1}^{N}|w_i| \\ \frac{\partial L_{L1}}{\partial w_i}&=\frac{\partial L}{\partial w_i}+\lambda \ sgn(w_i) \\w_i &\rightarrow w_i-\eta(\frac{\partial L}{\partial w_i}+\lambda \ sgn(w_i)) \rightarrow w_i-\eta\lambda \ sgn(w_i)-\eta\frac{\partial L}{\partial w_i} \end{align*}$

L1是每次减去一个常数的收敛，所以L1更容易收敛到0。

2.L2正则（Ridge回归）

L2正则化使得参数平滑。

$\begin{align*} L_{L2}(w)&=L(w)+\lambda\Vert w \Vert_2^2=L(w)+\lambda\sum_{i=1}^{N}w_i^2 \\ \frac{\partial L_{L2}}{\partial w_i}&=\frac{\partial L}{\partial w_i}+2\lambda w_i \\w_i& \rightarrow w_i-\eta(\frac{\partial L}{\partial w_i}+2\lambda w_i) \rightarrow(1-2\eta\lambda)w_i-\eta \frac{\partial L}{\partial w_i} \end{align*}$

L2是每次乘上一个小于1的倍数进行收敛，所以L2使得参数平滑。

3.dropout

使用：在训练时，每个神经单元以概率$p$被保留(Dropout丢弃率为$1−p$)；在预测阶段，每个神经单元都是存在的。

原理：神经网络通过Dropout层以一定比例随即的丢弃神经元，使得每次训练的网络模型都不相同，多个Epoch下来相当于训练了多个模型，同时每一个模型都参与了对最终结果的投票，从而提高了模型的泛化能力，类似bagging。

参考

https://www.cnblogs.com/zingp/p/11631913.html

https://blog.csdn.net/b876144622/article/details/81276818

https://www.zhihu.com/question/37096933/answer/70494622

机器学习训练技巧