机器学习特征工程技巧

一些特征工程的指南方法:

  • 线性模型能够自然地学习求和以及差值的关系,但对于复杂的关系较弱,搭建相关的特征时可以从该角度上处理
  • 比率关系在多数模型中都是难以训练的,因此搭建比率关系能够简单快速的提升模型效果
  • 线性模型和神经网络对于 Normalized 的特征,能够取得较好效果。而基于树的模型例如随机森林以及 XGBoost,对于是否 Normalized 影响较小
  • 树模型能够学习到特征组合的近似效果,但是对于小样本数据提前处理特征组合进行训练是有意义的
  • 树模型不能对信息进行聚合统计,因此使用计数统计的方法是非常有效的方法

过拟合和欠拟合问题

在搭建模型的过程来看,可以看作是优化泛化过程。优化(Optimization) 是解决模型训练过程中在训练数据上表现出的较佳性能,而泛化(Generalization) 是体现模型用于解决实际的问题的性能。两者较难都达到最佳性能,两者的差异化表现可以即是过拟合欠拟合

阅读更多
n>
  • Trick4
  • Nonsense2
  • Note13
  • Others2
  • Paper1
  • Trick4