2021-01-18发表2021-04-11更新DataScience / Trick2 分钟读完 (大约358个字)

Python 调用 StanfordNLP 服务

Stanford NLP Group 提供了自然语言软件处理工具，目前（2021年）能够非常非常方便快捷的调用 POS、NER 等功能。本例是以 Server 方式提供服务，让 Python 能够调用相关服务。相关的步骤如下：

2020-12-29发表2021-04-19更新DataScience / Trick1 分钟读完 (大约164个字)

使用Spark进行机器学习

Spark 提供的统一分析引擎中包括了数据整合分析、特征、模型训练和部署等一套完整的生态系统，因此使用 Spark 能够进行实现机器学习的任务。常规的分类和回归问题，都可以通过 spark.mlib 或者 spark.ml 两个包来完成。但是两者在在处理数据类型上存在一些差异，spark.mlib(自 Spark 2.0 版本进入维护模式) 提供的是基于 RDD API 的原生机器学习 API；而 spark.ml 是一个相对较新的包，它是基于 DataFrame API 的机器学习 API

2020-12-15发表2021-04-20更新DataScience / Trick12 分钟读完 (大约1786个字)

HBase 以及 Python 使用 HBase

HBase 的支持的文件系统是 HDFS，但其不仅仅支持 HDFS。由于其使用的文件系统是可插拔的架构，只需要提供可以被 Hadoop 接口支持的文件系统那么就可以替换 HBase 底层文件系统。

ZooKeeper 是一个可靠的高可用的、持久化的分布式的协调系统，它在 HBase 的架构中是监控服务器可用性、跟踪机器故障和网络分区。每台 Region 服务器在 ZooKeeper 服务器中会有独立的会话，Region 作为客户端会向 ZooKeeper 服务器定时发送”心跳“，以判断服务器是否故障。

2020-11-30发表2021-03-17更新DataScience / Trick4 分钟读完 (大约593个字)

使用 PySpark 处理数据笔记

调用 Spark 能力处理数据

Python 调用 StanfordNLP 服务

使用Spark进行机器学习

HBase 以及 Python 使用 HBase

使用 PySpark 处理数据笔记

标签

归档

订阅更新

分类

最新文章