SQLAlchemy技巧
SQLAlchemy 是为 Python 编程语言提供的开源 SQL 工具包及对象关系映射器,在关系型数据管理中有广泛应用。该文是包括了一些使用过程中的一些总结经验。包括了以下相关内容
- 添加日期自动更新的 triger
- Decimal 控制数据不一致
SQLAlchemy 是为 Python 编程语言提供的开源 SQL 工具包及对象关系映射器,在关系型数据管理中有广泛应用。该文是包括了一些使用过程中的一些总结经验。包括了以下相关内容
关联分析是通过寻找大型数据中的隐藏关系,确认可用的关系规则,这种确认的关系即是关联规则。其中典型的应用例子为购物篮分析,沃尔玛的关联分析得出的“尿布-啤酒”规则。实际应用的场景,不仅限于购物篮分析,还有可能应用于网页挖掘等。
流量是企业运营的基础,泛化的流量概念针对用户对内容关注、转化等过程方式。流量的运营包括流量采集、流量数据与其他数据整合、流量指标选择以及流量数据化运营等,主要内容集中在对流量指标的整理。流量数据化运营指标,包括了站外营销推广指标、网站流量数量指标以及网站流量指标。
数据不均衡问题指样本数据中不同类别的容量差异过大,这类数据集在特定的领域会更容易遇见,例如: 信用欺诈、垃圾邮件检测、客户流失以及广告点击等。在搭建这类数据集的分类模型,容易出现过拟合情况,因此需要对数据集进行一定的处理。
对用户进行分析过程中,留存是一个重要的指标,它体现了新用户/会员在经过一定时间之后,仍然具有访问、登陆、使用或者转化等属性或行为。用户的留存才有可能产生收入,同时作为监控产品的指标也是需要进行周期性分析。
笔记是针对 Python 可视化工具 Matplotlib 基本信息总结,针对的版本是 3.3.1
TL;DR
作为 Python 可视化中的重要工具,matplotlib
有广泛的应用——不仅是一个独立 package,而且常被作为其他可视化依赖工具——例如 pandas
和 seaborn
可视化均有相关依赖。
RFM 是分析用户价值的一种营销分析方法,其目的是为了找到最佳用户的方式,利用帕累托效应衡量当前用户价值和和客户潜在价值。分析的方法正如其名:
HBase 的支持的文件系统是 HDFS,但其不仅仅支持 HDFS。由于其使用的文件系统是可插拔的架构,只需要提供可以被 Hadoop 接口支持的文件系统那么就可以替换 HBase 底层文件系统。
ZooKeeper 是一个可靠的高可用的、持久化的分布式的协调系统,它在 HBase 的架构中是监控服务器可用性、跟踪机器故障和网络分区。每台 Region 服务器在 ZooKeeper 服务器中会有独立的会话,Region 作为客户端会向 ZooKeeper 服务器定时发送”心跳“,以判断服务器是否故障。
本篇笔记记录使用 Python 进行数据处理的相关技巧: