2020-12-29发表2021-04-19更新DataScience / Trick1 分钟读完 (大约164个字)

使用Spark进行机器学习

Spark 提供的统一分析引擎中包括了数据整合分析、特征、模型训练和部署等一套完整的生态系统，因此使用 Spark 能够进行实现机器学习的任务。常规的分类和回归问题，都可以通过 spark.mlib 或者 spark.ml 两个包来完成。但是两者在在处理数据类型上存在一些差异，spark.mlib(自 Spark 2.0 版本进入维护模式) 提供的是基于 RDD API 的原生机器学习 API；而 spark.ml 是一个相对较新的包，它是基于 DataFrame API 的机器学习 API

2020-12-15发表2021-04-20更新DataScience / Trick12 分钟读完 (大约1786个字)

HBase 以及 Python 使用 HBase

HBase 的支持的文件系统是 HDFS，但其不仅仅支持 HDFS。由于其使用的文件系统是可插拔的架构，只需要提供可以被 Hadoop 接口支持的文件系统那么就可以替换 HBase 底层文件系统。

ZooKeeper 是一个可靠的高可用的、持久化的分布式的协调系统，它在 HBase 的架构中是监控服务器可用性、跟踪机器故障和网络分区。每台 Region 服务器在 ZooKeeper 服务器中会有独立的会话，Region 作为客户端会向 ZooKeeper 服务器定时发送”心跳“，以判断服务器是否故障。

2020-12-12发表2021-01-07更新DataScience / DataAnalysis2 分钟读完 (大约363个字)

ETL 和 ELT 差异

ETL 和 ELT 都是数据处理的模式，但是两者在逻辑和应用场景下是具有较大差异的。两者的英文单字都是相同的意思：

Extract，数据抽取，从数据源中提取数据
Ttransform，数据转换，包括了数据清理以及规范化处理，以及其他相关的操作
Load，数据加载，可以看作是将当前数据结果交付，应用于下游任务

2020-11-30发表2021-03-17更新DataScience / Trick4 分钟读完 (大约593个字)

使用 PySpark 处理数据笔记

调用 Spark 能力处理数据

2020-11-27发表2021-04-19更新DataScience / MachineLearning / Statistics7 分钟读完 (大约1029个字)

[统计学习]第四章朴素贝叶斯法

朴素贝叶斯法是以特征独立性假设为基础，利用贝叶斯定理进行分类方法。因为在朴素贝叶斯方法过程中，需要在学习过程中学习到生成数据的模式——该模式是能够进行预测前 $P(\hat{y}|X)$ 需要通过 $P(X|y)\times P(y)$ 方式能够构建数据生成机制；此外依赖独立性假设，使预测的方式转换为求解最大化后验概率来预测结果。

2020-09-17发表2021-01-26更新DataScience / MachineLearning / Statistics16 分钟读完 (大约2360个字)

[统计学习]第三章 K 邻近法

K-Nearest Neighbour 即 K 邻近算法，是可用于解决分类和回归问题的算法。在用于解决分类问题的思路是在已知的数据实例上，对于新的实例根据 $k$ 个最邻近的已知训练实例通过多数表决的方案进行预测，因此 $k$ 邻近算法不是一个显式学习过程。$k$ 邻近算法模型要素是通过 $k$ 选择，距离度量以及分类决策规则确认。

2020-09-09发表2021-04-19更新DataScience / MachineLearning / Statistics12 分钟读完 (大约1772个字)

[统计学习]第二章感知机

感知机（Perceptron），是线性分类模型，利用一个线性超平面对数据进行二分类。

1. 感知机模型

感知机的模型的假设是对于输入空间中的变量，经模型
$$
f(x)=\text{sign}(w\cdot x+b) \tag{1} \label{1}
$$
得到输入变量 $y\in \lbrace -1, +1 \rbrace$ 。对于模型中的 $\text{sign}$ 它是一个指示函数，用于筛选在某种条件下属于正例，反之属于负例。该模型是属于 $y=f(x)$ 的模型，即是一个判别模型。

2020-09-03发表2021-04-19更新DataScience / MachineLearning / Statistics17 分钟读完 (大约2619个字)

[统计学习]第一章基本概念

1. 基本概念

统计学习（statistical learning），谈论的是统计机器学习（statistical machine learning），解决的方式是利用数据，抽取出相关特征，构建数据的模型以发现数据中的知识，并最终对未知数据进行分析和预测。而围绕数据的角度来有一个基本的假设，即建立知识模型的数据和预测分析使用的数据具有相同的性质。而且对于数据

2019-12-01发表2021-04-20更新DataScience1 小时读完 (大约7381个字)

AB测试笔记总结Part1

总结这篇文章，主要在学习 Udacity 数据分析课程中 AB 测试部分遇到了两个方面的问题。其中之一是，课程讲解是将 AB 测试的流程交叉到分析过程、概念讲解等过程中，以致于对 AB 测试的流程没有形成一个完整的体系；另一个问题是，AB 测试中用到的统计学相关知识。在课程中统计学的讲解和公式，表面上是很违背“直觉的”，所以需要一个合适的切入角度去理解 AB 测试中用到的统计学知识。

因此本次根据课程内容，网上查阅的相关资料对 AB 测试的流程进行一个梳理。同时在最后将统计学方面中较难理解的部分，进行一个梳理，提供一个可行的切入角度。

2019-04-10发表2021-04-11更新DataScience6 分钟读完 (大约893个字)

Python 数据处理技巧

本篇笔记记录使用 Python 进行数据处理的相关技巧:

Pandas 缺失数据处理
数据类型转换

使用Spark进行机器学习

HBase 以及 Python 使用 HBase

ETL 和 ELT 差异

使用 PySpark 处理数据笔记

[统计学习]第四章朴素贝叶斯法

[统计学习]第三章 K 邻近法

[统计学习]第二章感知机

1. 感知机模型

[统计学习]第一章基本概念

1. 基本概念

AB测试笔记总结Part1

Python 数据处理技巧

标签

归档

订阅更新

分类

最新文章