[统计学习]第五章决策树

决策树是一种解决分类和回归问题的方法,它是基于特征对实例进行划分以生成树结构。决策树的模型实现需要从特征选择、树生成以及剪枝等三个部分,特征选择依赖于不同的算法作出选择。在应用上决策树可以生成基于特征的规则,这种条件规则可以被应用于生产场景。

阅读更多

R 基础笔记

R 和 Python 一样都是解释性、动态类型语言,因此存在相同点和差异点,为了方便学习 R 将结合 Python 的角度来了解 R。

阅读更多

机器学习特征工程技巧

一些特征工程的指南方法:

  • 线性模型能够自然地学习求和以及差值的关系,但对于复杂的关系较弱,搭建相关的特征时可以从该角度上处理
  • 比率关系在多数模型中都是难以训练的,因此搭建比率关系能够简单快速的提升模型效果
  • 线性模型和神经网络对于 Normalized 的特征,能够取得较好效果。而基于树的模型例如随机森林以及 XGBoost,对于是否 Normalized 影响较小
  • 树模型能够学习到特征组合的近似效果,但是对于小样本数据提前处理特征组合进行训练是有意义的
  • 树模型不能对信息进行聚合统计,因此使用计数统计的方法是非常有效的方法

SQL 笔记Part1: DBMS

1. 背景

常用语境下的数据库一般是说的 DBMS,实际数据库是存储的数据集合。而又因为数据存储形式差异,DBMS 有多种类型:

  • 层次数据库(Hierarchical Database,HDB)最早研制成功的数据库系统,它把数据通过层次结构(树形结构)的方式表现出来,代表是 IMS(Information Management System)数据库
  • 关系数据库(Relational Database,RDB) 关系型数据库也采用由行和列组成的二维表来管理数据,此外使用的语言是 SQL(Structured Query Language)。代表性的关系型数据库有 Oracle Database、SQL Server、DB2、PostgreSQL 和 MySQL
阅读更多

时间序列分析背景

一般进行数据分析通过步骤包括:

步骤1:定义问题

通常这是预测中最困难的步骤。要准确定义这个问题,需要了解怎样运用预测方法,谁需要这个预测,以及预测效果如何满足需要这个预测的机构。预测人员需要花费一定时间与所有参与收集数据、维护数据库和使用这个预测对未来进行规划的人沟通。

阅读更多

AB测试笔记总结Part2

总结这篇文章,主要在学习 AB 测试的过程中遇到了两个方面的问题。其中之一是,课程讲解是将 AB 测试的流程交叉到分析过程、概念讲解等过程中,以致于对 AB 测试的流程没有形成一个完整的体系;另一个问题是,AB 测试中用到的统计学相关知识。在课程中统计学的讲解和公式,表面上是很违背“直觉的”,所以需要一个合适的切入角度去理解 AB 测试中用到的统计学知识。第二部分是对 AB 测试第一部分中补充信息。

阅读更多

关联分析及其应用

关联分析是通过寻找大型数据中的隐藏关系,确认可用的关系规则,这种确认的关系即是关联规则。其中典型的应用例子为购物篮分析,沃尔玛的关联分析得出的“尿布-啤酒”规则。实际应用的场景,不仅限于购物篮分析,还有可能应用于网页挖掘等。

阅读更多

过拟合和欠拟合问题

在搭建模型的过程来看,可以看作是优化泛化过程。优化(Optimization) 是解决模型训练过程中在训练数据上表现出的较佳性能,而泛化(Generalization) 是体现模型用于解决实际的问题的性能。两者较难都达到最佳性能,两者的差异化表现可以即是过拟合欠拟合

阅读更多

数据化运营指标体系之流量运营指标体系

流量是企业运营的基础,泛化的流量概念针对用户对内容关注、转化等过程方式。流量的运营包括流量采集、流量数据与其他数据整合、流量指标选择以及流量数据化运营等,主要内容集中在对流量指标的整理。流量数据化运营指标,包括了站外营销推广指标网站流量数量指标以及网站流量指标

阅读更多