数据不平衡如何解决

1.基于数据

a.过采样和欠采样

对少数数据进行有放回的过采样,使原本的数据变的均衡,这样就是对少数数据进行了复制,容易造成过拟合。

对多数数据进行有放回/无放回的欠采样,这样会丢失一些样本,损失信息,模型只学会整体模式的一部分,容易欠拟合。

b.SMOTE算法

c.数据增强

通过人为或算法增加少数数据的数量

2.基于loss

使用代价函数时,可以增加小类样本的权值,降低大类样本的权值

参考

https://zhuanlan.zhihu.com/p/62877337

https://blog.csdn.net/asialee_bird/article/details/83714612

Author

Lavine Hu

Posted on

2021-09-04

Updated on

2022-06-01

Licensed under

Comments

:D 一言句子获取中...