R 基础笔记

R 和 Python 一样都是解释性、动态类型语言,因此存在相同点和差异点,为了方便学习 R 将结合 Python 的角度来了解 R。

阅读更多

时间序列分析背景

一般进行数据分析通过步骤包括:

步骤1:定义问题

通常这是预测中最困难的步骤。要准确定义这个问题,需要了解怎样运用预测方法,谁需要这个预测,以及预测效果如何满足需要这个预测的机构。预测人员需要花费一定时间与所有参与收集数据、维护数据库和使用这个预测对未来进行规划的人沟通。

阅读更多

AB测试笔记总结Part2

总结这篇文章,主要在学习 AB 测试的过程中遇到了两个方面的问题。其中之一是,课程讲解是将 AB 测试的流程交叉到分析过程、概念讲解等过程中,以致于对 AB 测试的流程没有形成一个完整的体系;另一个问题是,AB 测试中用到的统计学相关知识。在课程中统计学的讲解和公式,表面上是很违背“直觉的”,所以需要一个合适的切入角度去理解 AB 测试中用到的统计学知识。第二部分是对 AB 测试第一部分中补充信息。

阅读更多

关联分析及其应用

关联分析是通过寻找大型数据中的隐藏关系,确认可用的关系规则,这种确认的关系即是关联规则。其中典型的应用例子为购物篮分析,沃尔玛的关联分析得出的“尿布-啤酒”规则。实际应用的场景,不仅限于购物篮分析,还有可能应用于网页挖掘等。

阅读更多

数据化运营指标体系之流量运营指标体系

流量是企业运营的基础,泛化的流量概念针对用户对内容关注、转化等过程方式。流量的运营包括流量采集、流量数据与其他数据整合、流量指标选择以及流量数据化运营等,主要内容集中在对流量指标的整理。流量数据化运营指标,包括了站外营销推广指标网站流量数量指标以及网站流量指标

阅读更多

数据化运营指标体系之内容运营指标体系

内容运营是媒体信息化运营的核心,指的是对内容策划、编辑、发布、优化以及营销等一系列工作。其中内容生产的方式上包括 UGC、PGC 以及 OGC(职业化生产内容,和 PGC 存在一些差异——内容生产者更多样,不仅仅是一类专业化内容生产)。在内容运营的数据指标类型方面,包括了内容类指标、SEO 指标、内容流量指标、内容互动指标以及目标转化指标。

阅读更多

数据不平衡处理

数据不均衡问题指样本数据中不同类别的容量差异过大,这类数据集在特定的领域会更容易遇见,例如: 信用欺诈、垃圾邮件检测、客户流失以及广告点击等。在搭建这类数据集的分类模型,容易出现过拟合情况,因此需要对数据集进行一定的处理。

阅读更多

数据分析之留存分析报告搭建

对用户进行分析过程中,留存是一个重要的指标,它体现了新用户/会员在经过一定时间之后,仍然具有访问、登陆、使用或者转化等属性或行为。用户的留存才有可能产生收入,同时作为监控产品的指标也是需要进行周期性分析。

阅读更多

数据化运营指标体系之会员运营指标体系

数据化运营的体系分类包括:会员数据化运营、商品数据化运营、流量数据化以及内容数据化运营。运营指标体系是量化分析的 metrics,是说明命题的参考依据。本文从相关分类上的指标体系进行收集和归纳.

阅读更多

Matplotlib 可视化应用基础

笔记是针对 Python 可视化工具 Matplotlib 基本信息总结,针对的版本是 3.3.1

TL;DR

  1. 图形是对象,所有对象都是 Artists
  2. 图形对象是具有层级关系
  3. 图像优化可以选择具体的对象进行分别优化
  4. 数据可视化建议,先简单摸索后优化

作为 Python 可视化中的重要工具,matplotlib 有广泛的应用——不仅是一个独立 package,而且常被作为其他可视化依赖工具——例如 pandasseaborn 可视化均有相关依赖。

阅读更多