[统计学习]第五章决策树
决策树是一种解决分类和回归问题的方法,它是基于特征对实例进行划分以生成树结构。决策树的模型实现需要从特征选择、树生成以及剪枝等三个部分,特征选择依赖于不同的算法作出选择。在应用上决策树可以生成基于特征的规则,这种条件规则可以被应用于生产场景。
决策树是一种解决分类和回归问题的方法,它是基于特征对实例进行划分以生成树结构。决策树的模型实现需要从特征选择、树生成以及剪枝等三个部分,特征选择依赖于不同的算法作出选择。在应用上决策树可以生成基于特征的规则,这种条件规则可以被应用于生产场景。
一些特征工程的指南方法:
常用语境下的数据库一般是说的 DBMS,实际数据库是存储的数据集合。而又因为数据存储形式差异,DBMS 有多种类型:
一般进行数据分析通过步骤包括:
步骤1:定义问题
通常这是预测中最困难的步骤。要准确定义这个问题,需要了解怎样运用预测方法,谁需要这个预测,以及预测效果如何满足需要这个预测的机构。预测人员需要花费一定时间与所有参与收集数据、维护数据库和使用这个预测对未来进行规划的人沟通。
总结这篇文章,主要在学习 AB 测试的过程中遇到了两个方面的问题。其中之一是,课程讲解是将 AB 测试的流程交叉到分析过程、概念讲解等过程中,以致于对 AB 测试的流程没有形成一个完整的体系;另一个问题是,AB 测试中用到的统计学相关知识。在课程中统计学的讲解和公式,表面上是很违背“直觉的”,所以需要一个合适的切入角度去理解 AB 测试中用到的统计学知识。第二部分是对 AB 测试第一部分中补充信息。
关联分析是通过寻找大型数据中的隐藏关系,确认可用的关系规则,这种确认的关系即是关联规则。其中典型的应用例子为购物篮分析,沃尔玛的关联分析得出的“尿布-啤酒”规则。实际应用的场景,不仅限于购物篮分析,还有可能应用于网页挖掘等。
在搭建模型的过程来看,可以看作是优化与泛化过程。优化(Optimization) 是解决模型训练过程中在训练数据上表现出的较佳性能,而泛化(Generalization) 是体现模型用于解决实际的问题的性能。两者较难都达到最佳性能,两者的差异化表现可以即是过拟合和欠拟合。
流量是企业运营的基础,泛化的流量概念针对用户对内容关注、转化等过程方式。流量的运营包括流量采集、流量数据与其他数据整合、流量指标选择以及流量数据化运营等,主要内容集中在对流量指标的整理。流量数据化运营指标,包括了站外营销推广指标、网站流量数量指标以及网站流量指标。