机器学习特征工程技巧

一些特征工程的指南方法:

  • 线性模型能够自然地学习求和以及差值的关系,但对于复杂的关系较弱,搭建相关的特征时可以从该角度上处理
  • 比率关系在多数模型中都是难以训练的,因此搭建比率关系能够简单快速的提升模型效果
  • 线性模型和神经网络对于 Normalized 的特征,能够取得较好效果。而基于树的模型例如随机森林以及 XGBoost,对于是否 Normalized 影响较小
  • 树模型能够学习到特征组合的近似效果,但是对于小样本数据提前处理特征组合进行训练是有意义的
  • 树模型不能对信息进行聚合统计,因此使用计数统计的方法是非常有效的方法

SQLAlchemy技巧

SQLAlchemy 是为 Python 编程语言提供的开源 SQL 工具包及对象关系映射器,在关系型数据管理中有广泛应用。该文是包括了一些使用过程中的一些总结经验。包括了以下相关内容

  • 添加日期自动更新的 triger
  • Decimal 控制数据不一致
阅读更多