机器学习特征工程技巧
一些特征工程的指南方法:
- 线性模型能够自然地学习求和以及差值的关系,但对于复杂的关系较弱,搭建相关的特征时可以从该角度上处理
- 比率关系在多数模型中都是难以训练的,因此搭建比率关系能够简单快速的提升模型效果
- 线性模型和神经网络对于 Normalized 的特征,能够取得较好效果。而基于树的模型例如随机森林以及 XGBoost,对于是否 Normalized 影响较小
- 树模型能够学习到特征组合的近似效果,但是对于小样本数据提前处理特征组合进行训练是有意义的
- 树模型不能对信息进行聚合统计,因此使用计数统计的方法是非常有效的方法