SQLAlchemy技巧

SQLAlchemy 是为 Python 编程语言提供的开源 SQL 工具包及对象关系映射器,在关系型数据管理中有广泛应用。该文是包括了一些使用过程中的一些总结经验。包括了以下相关内容

  • 添加日期自动更新的 triger
  • Decimal 控制数据不一致
阅读更多

关联分析及其应用

关联分析是通过寻找大型数据中的隐藏关系,确认可用的关系规则,这种确认的关系即是关联规则。其中典型的应用例子为购物篮分析,沃尔玛的关联分析得出的“尿布-啤酒”规则。实际应用的场景,不仅限于购物篮分析,还有可能应用于网页挖掘等。

阅读更多

数据化运营指标体系之流量运营指标体系

流量是企业运营的基础,泛化的流量概念针对用户对内容关注、转化等过程方式。流量的运营包括流量采集、流量数据与其他数据整合、流量指标选择以及流量数据化运营等,主要内容集中在对流量指标的整理。流量数据化运营指标,包括了站外营销推广指标网站流量数量指标以及网站流量指标

阅读更多

数据不平衡处理

数据不均衡问题指样本数据中不同类别的容量差异过大,这类数据集在特定的领域会更容易遇见,例如: 信用欺诈、垃圾邮件检测、客户流失以及广告点击等。在搭建这类数据集的分类模型,容易出现过拟合情况,因此需要对数据集进行一定的处理。

阅读更多

数据分析之留存分析报告搭建

对用户进行分析过程中,留存是一个重要的指标,它体现了新用户/会员在经过一定时间之后,仍然具有访问、登陆、使用或者转化等属性或行为。用户的留存才有可能产生收入,同时作为监控产品的指标也是需要进行周期性分析。

阅读更多

Matplotlib 可视化应用基础

笔记是针对 Python 可视化工具 Matplotlib 基本信息总结,针对的版本是 3.3.1

TL;DR

  1. 图形是对象,所有对象都是 Artists
  2. 图形对象是具有层级关系
  3. 图像优化可以选择具体的对象进行分别优化
  4. 数据可视化建议,先简单摸索后优化

作为 Python 可视化中的重要工具,matplotlib 有广泛的应用——不仅是一个独立 package,而且常被作为其他可视化依赖工具——例如 pandasseaborn 可视化均有相关依赖。

阅读更多

RFM 模型与使用 RFE 模型分析用户价值

1. RFM 背景

RFM 是分析用户价值的一种营销分析方法,其目的是为了找到最佳用户的方式,利用帕累托效应衡量当前用户价值和和客户潜在价值。分析的方法正如其名:

  • Recency 最近消费时间间隔,指距离最近一次消费的时间长度,在评分上可以采取 rank 为 10 的方式,其中 1 为最低[^1]
  • Frequency 指定时间段内的消费次数,针对的是在给定是时间跨度范围内(例如 12 个月),用户消费的消费次数。在分析中同样可以采取 rank 为 10 的方式评分[^1]
  • Monetary 消费总额或者平均消费额
阅读更多

HBase 以及 Python 使用 HBase

HBase 的支持的文件系统是 HDFS,但其不仅仅支持 HDFS。由于其使用的文件系统是可插拔的架构,只需要提供可以被 Hadoop 接口支持的文件系统那么就可以替换 HBase 底层文件系统。

ZooKeeper 是一个可靠的高可用的、持久化的分布式的协调系统,它在 HBase 的架构中是监控服务器可用性、跟踪机器故障和网络分区。每台 Region 服务器在 ZooKeeper 服务器中会有独立的会话,Region 作为客户端会向 ZooKeeper 服务器定时发送”心跳“,以判断服务器是否故障。

阅读更多