2021-04-19

只有背景信息,没有跌宕起伏的故事来串联,是如此的空乏。

SQLAlchemy技巧

SQLAlchemy 是为 Python 编程语言提供的开源 SQL 工具包及对象关系映射器,在关系型数据管理中有广泛应用。该文是包括了一些使用过程中的一些总结经验。包括了以下相关内容

  • 添加日期自动更新的 triger
  • Decimal 控制数据不一致
阅读更多

时间序列分析背景

一般进行数据分析通过步骤包括:

步骤1:定义问题

通常这是预测中最困难的步骤。要准确定义这个问题,需要了解怎样运用预测方法,谁需要这个预测,以及预测效果如何满足需要这个预测的机构。预测人员需要花费一定时间与所有参与收集数据、维护数据库和使用这个预测对未来进行规划的人沟通。

阅读更多

Ubuntu 服务器环境搭建笔记

本文是对搭建数据分析等服务器环境,包括了在搭建过程中的大致步骤以及搭建环境使用的主要工具。

阅读更多

AB测试笔记总结Part2

总结这篇文章,主要在学习 AB 测试的过程中遇到了两个方面的问题。其中之一是,课程讲解是将 AB 测试的流程交叉到分析过程、概念讲解等过程中,以致于对 AB 测试的流程没有形成一个完整的体系;另一个问题是,AB 测试中用到的统计学相关知识。在课程中统计学的讲解和公式,表面上是很违背“直觉的”,所以需要一个合适的切入角度去理解 AB 测试中用到的统计学知识。第二部分是对 AB 测试第一部分中补充信息。

阅读更多

关联分析及其应用

关联分析是通过寻找大型数据中的隐藏关系,确认可用的关系规则,这种确认的关系即是关联规则。其中典型的应用例子为购物篮分析,沃尔玛的关联分析得出的“尿布-啤酒”规则。实际应用的场景,不仅限于购物篮分析,还有可能应用于网页挖掘等。

阅读更多

过拟合和欠拟合问题

在搭建模型的过程来看,可以看作是优化泛化过程。优化(Optimization) 是解决模型训练过程中在训练数据上表现出的较佳性能,而泛化(Generalization) 是体现模型用于解决实际的问题的性能。两者较难都达到最佳性能,两者的差异化表现可以即是过拟合欠拟合

阅读更多

自监督学习之AutoEncoder

自监督学习是监督学习的特例(严格来说,它并不是监督式学习),其学习数据中并没有相应的人工标注标签,但作为监督学习是存在标签的——一般标签是来自于输入数据中。比较显著的例子是 AutoEncoder,是直接使用输入数据作为输出的标签。

Numba 包使用简要总结

Numba 是一个开源 JIT 编译工具,功能是将 Python 和 Numpy 代码快速转换为机器码。通过llvmlite Python包,使用LLVM将一部分Python和NumPy (需要注意 Pandas 不能被 Numba 理解,直接对 Pandas 处理导致的结果是计算成本会增加) 转换为快速机器代码。它提供了一系列选项,用于并行化 CPU 和 GPU 的 Python 代码,通常只需进行少量代码更改。

阅读更多