Ubuntu集群时间同步配置

Ubuntu 默认使用 timesyncd 服务,需要开启 NTP 的指定服务器时间同步。NTP 服务器(Network Time Protocol)是用来使计算机时间同步化的一种协议,NTP服务器确保不同的系统之间时间戳保持同步。系统信息:

  • OS 版本: Ubuntu 20.04
阅读更多

Docker 笔记 Part1: 基础

前言

容器化技术也是虚拟化技术,相对来说容器化比传统的虚拟化要优势。虚拟化技术是将计算资源抽象化、隔离和管理的技术。它允许在单个物理服务器上运行多个虚拟计算环境,每个环境都可以独立地运行操作系统和应用程序。虚拟化技术的主要目标是提高硬件资源利用率、降低管理成本、提高灵活性和可扩展性。虚拟化技术一般包括,虚拟机 (Virtual Machine),宿主机/客户机 (Host Machine) 和虚拟机监控器 (Hypervisor,是一个虚拟化管理程序,负责在物理服务器上创建、管理虚拟机)。容器化技术是一种充分利用了操作系统本身已有的机制和特性,实现远超传统虚拟机的轻量级虚拟化技术。容器化是操作系统级虚拟化,内核可以创建多个虚拟的操作系统实例,隔离不同进程。

阅读更多

awk
sed
grep

[用户增长]商业进化与底层认知

Linkedin 第一个增长飞轮,用户第一,以用户服务、活跃度为核心,推动用户行为数据搭建,形成数据产品;而产品又推动用户活跃,该模式主要针对的 ToC 的模式。以 ToB 的模式推动第二个增长飞轮,分别以人才、市场和商机等三个维度;第三个增长方式是通过搭建国际化信息,以此构建全球经济图谱。

一些优化分析的思路:

  • 转化率,流量以及 GMV 大小分布揭示分类页的具体情况,
  • 通过讲直接搜索(全站搜索,即进入 App 后进行直接搜索)、热门搜索以及最近搜索

业务优化策略优先级,使用 ICE 模型:包括 Impact,影响范围;Confidence,信心程度;Easy,实现难度。

2021-05-30

线上数据全在数仓完成,涉及线下数据再使用 ETL。

对于大平台数据以及 BI 呈现的关系,还是需要弄清楚两者关系,否者就遇问题解决问题。这样的劣势会产生资源不能整合,浪费资源在 ETL 过程中。

[统计学习]第五章决策树

决策树是一种解决分类和回归问题的方法,它是基于特征对实例进行划分以生成树结构。决策树的模型实现需要从特征选择、树生成以及剪枝等三个部分,特征选择依赖于不同的算法作出选择。在应用上决策树可以生成基于特征的规则,这种条件规则可以被应用于生产场景。

阅读更多

R 基础笔记

R 和 Python 一样都是解释性、动态类型语言,因此存在相同点和差异点,为了方便学习 R 将结合 Python 的角度来了解 R。

阅读更多

机器学习特征工程技巧

一些特征工程的指南方法:

  • 线性模型能够自然地学习求和以及差值的关系,但对于复杂的关系较弱,搭建相关的特征时可以从该角度上处理
  • 比率关系在多数模型中都是难以训练的,因此搭建比率关系能够简单快速的提升模型效果
  • 线性模型和神经网络对于 Normalized 的特征,能够取得较好效果。而基于树的模型例如随机森林以及 XGBoost,对于是否 Normalized 影响较小
  • 树模型能够学习到特征组合的近似效果,但是对于小样本数据提前处理特征组合进行训练是有意义的
  • 树模型不能对信息进行聚合统计,因此使用计数统计的方法是非常有效的方法

SQL 笔记Part1: DBMS

1. 背景

常用语境下的数据库一般是说的 DBMS,实际数据库是存储的数据集合。而又因为数据存储形式差异,DBMS 有多种类型:

  • 层次数据库(Hierarchical Database,HDB)最早研制成功的数据库系统,它把数据通过层次结构(树形结构)的方式表现出来,代表是 IMS(Information Management System)数据库
  • 关系数据库(Relational Database,RDB) 关系型数据库也采用由行和列组成的二维表来管理数据,此外使用的语言是 SQL(Structured Query Language)。代表性的关系型数据库有 Oracle Database、SQL Server、DB2、PostgreSQL 和 MySQL
阅读更多