使用Spark进行机器学习

Spark 提供的统一分析引擎中包括了数据整合分析、特征、模型训练和部署等一套完整的生态系统,因此使用 Spark 能够进行实现机器学习的任务。常规的分类和回归问题,都可以通过 spark.mlib 或者 spark.ml 两个包来完成。但是两者在在处理数据类型上存在一些差异,spark.mlib(自 Spark 2.0 版本进入维护模式) 提供的是基于 RDD API 的原生机器学习 API;而 spark.ml 是一个相对较新的包,它是基于 DataFrame API 的机器学习 API