[统计学习]第五章决策树
决策树是一种解决分类和回归问题的方法,它是基于特征对实例进行划分以生成树结构。决策树的模型实现需要从特征选择、树生成以及剪枝等三个部分,特征选择依赖于不同的算法作出选择。在应用上决策树可以生成基于特征的规则,这种条件规则可以被应用于生产场景。
决策树是一种解决分类和回归问题的方法,它是基于特征对实例进行划分以生成树结构。决策树的模型实现需要从特征选择、树生成以及剪枝等三个部分,特征选择依赖于不同的算法作出选择。在应用上决策树可以生成基于特征的规则,这种条件规则可以被应用于生产场景。
逻辑斯蒂回归,即逻辑回归(Logistic Regression),虽然是使用了回归方程但实际该模型是用于解决分类问题的经典算法。逻辑回归的方程 $f(x)=\frac{\exp^{w \cdot x}}{1+\exp^{w\cdot x}}$ ,在 $w \cdot x$ 的结果在实数范围内的分布结果如下:
朴素贝叶斯法是以特征独立性假设为基础,利用贝叶斯定理进行分类方法。因为在朴素贝叶斯方法过程中,需要在学习过程中学习到生成数据的模式——该模式是能够进行预测前 $P(\hat{y}|X)$ 需要通过 $P(X|y)\times P(y)$ 方式能够构建数据生成机制;此外依赖独立性假设,使预测的方式转换为求解最大化后验概率来预测结果。
感知机(Perceptron),是线性分类模型,利用一个线性超平面对数据进行二分类。
感知机的模型的假设是对于输入空间中的变量,经模型
$$
f(x)=\text{sign}(w\cdot x+b) \tag{1} \label{1}
$$
得到输入变量 $y\in \lbrace -1, +1 \rbrace$ 。对于模型中的 $\text{sign}$ 它是一个指示函数,用于筛选在某种条件下属于正例,反之属于负例。该模型是属于 $y=f(x)$ 的模型,即是一个判别模型。
统计学习(statistical learning),谈论的是统计机器学习(statistical machine learning),解决的方式是利用数据,抽取出相关特征,构建数据的模型以发现数据中的知识,并最终对未知数据进行分析和预测。而围绕数据的角度来有一个基本的假设,即建立知识模型的数据和预测分析使用的数据具有相同的性质。而且对于数据