使用Spark进行机器学习

Spark 提供的统一分析引擎中包括了数据整合分析、特征、模型训练和部署等一套完整的生态系统,因此使用 Spark 能够进行实现机器学习的任务。常规的分类和回归问题,都可以通过 spark.mlib 或者 spark.ml 两个包来完成。但是两者在在处理数据类型上存在一些差异,spark.mlib(自 Spark 2.0 版本进入维护模式) 提供的是基于 RDD API 的原生机器学习 API;而 spark.ml 是一个相对较新的包,它是基于 DataFrame API 的机器学习 API

HBase 以及 Python 使用 HBase

HBase 的支持的文件系统是 HDFS,但其不仅仅支持 HDFS。由于其使用的文件系统是可插拔的架构,只需要提供可以被 Hadoop 接口支持的文件系统那么就可以替换 HBase 底层文件系统。

ZooKeeper 是一个可靠的高可用的、持久化的分布式的协调系统,它在 HBase 的架构中是监控服务器可用性、跟踪机器故障和网络分区。每台 Region 服务器在 ZooKeeper 服务器中会有独立的会话,Region 作为客户端会向 ZooKeeper 服务器定时发送”心跳“,以判断服务器是否故障。

阅读更多

ETL 和 ELT 差异

ETL 和 ELT 都是数据处理的模式,但是两者在逻辑和应用场景下是具有较大差异的。两者的英文单字都是相同的意思:

  • Extract,数据抽取,从数据源中提取数据
  • Ttransform,数据转换,包括了数据清理以及规范化处理,以及其他相关的操作
  • Load,数据加载,可以看作是将当前数据结果交付,应用于下游任务
阅读更多

[统计学习]第四章朴素贝叶斯法

朴素贝叶斯法是以特征独立性假设为基础,利用贝叶斯定理进行分类方法。因为在朴素贝叶斯方法过程中,需要在学习过程中学习到生成数据的模式——该模式是能够进行预测前 $P(\hat{y}|X)$ 需要通过 $P(X|y)\times P(y)$ 方式能够构建数据生成机制;此外依赖独立性假设,使预测的方式转换为求解最大化后验概率来预测结果。

阅读更多
[统计学习]第三章 K 邻近法

[统计学习]第三章 K 邻近法

K-Nearest Neighbour 即 K 邻近算法,是可用于解决分类和回归问题的算法。在用于解决分类问题的思路是在已知的数据实例上,对于新的实例根据 $k$ 个最邻近的已知训练实例通过多数表决的方案进行预测,因此 $k$ 邻近算法不是一个显式学习过程。$k$ 邻近算法模型要素是通过 $k$ 选择,距离度量以及分类决策规则确认。

阅读更多
[统计学习]第二章感知机

[统计学习]第二章感知机

感知机(Perceptron),是线性分类模型,利用一个线性超平面对数据进行二分类。

1. 感知机模型

感知机的模型的假设是对于输入空间中的变量,经模型
$$
f(x)=\text{sign}(w\cdot x+b) \tag{1} \label{1}
$$
得到输入变量 $y\in \lbrace -1, +1 \rbrace$ 。对于模型中的 $\text{sign}$ 它是一个指示函数,用于筛选在某种条件下属于正例,反之属于负例。该模型是属于 $y=f(x)$ 的模型,即是一个判别模型

阅读更多
[统计学习]第一章基本概念

[统计学习]第一章基本概念

1. 基本概念

统计学习(statistical learning),谈论的是统计机器学习(statistical machine learning),解决的方式是利用数据,抽取出相关特征,构建数据的模型以发现数据中的知识,并最终对未知数据进行分析和预测。而围绕数据的角度来有一个基本的假设,即建立知识模型的数据和预测分析使用的数据具有相同的性质。而且对于数据

阅读更多

AB测试笔记总结Part1

总结这篇文章,主要在学习 Udacity 数据分析课程中 AB 测试部分遇到了两个方面的问题。其中之一是,课程讲解是将 AB 测试的流程交叉到分析过程、概念讲解等过程中,以致于对 AB 测试的流程没有形成一个完整的体系;另一个问题是,AB 测试中用到的统计学相关知识。在课程中统计学的讲解和公式,表面上是很违背“直觉的”,所以需要一个合适的切入角度去理解 AB 测试中用到的统计学知识。

因此本次根据课程内容,网上查阅的相关资料对 AB 测试的流程进行一个梳理。同时在最后将统计学方面中较难理解的部分,进行一个梳理,提供一个可行的切入角度。

阅读更多