特征工程
https://zhuanlan.zhihu.com/p/111296130
1.特征预处理
0.是否去重
1.缺失值
均值补全
2.异常值
检测异常值
数值范围
sigma准则
knn
箱线图
处理异常值
剔除
均值补全
2.特征表示
特征分类:数值特征,文本特征,类别特征
1.数值特征
1.直接使用数值
2.离散化
分桶
2.类别特征
1.one hot
2.embedding
3.其他
catboost
3.特征选择
https://blog.csdn.net/Datawhale/article/details/120582526
大致分为3种,filter,wrapper,embedded