Attention Is All You Need 笔记
1. 背景
在解决翻译问题时,如果句子长度过长 Encoder-Decoder 的模型也不能得到良好的结果。这样的问题就是长序列会遇到的问题,其主要原因是序列过长时,向后处理序列时前面的序列会出现“遗忘”问题。通过 Attention 的方式可以缓解这种问题,增加长记忆的能力。
在解决翻译问题时,如果句子长度过长 Encoder-Decoder 的模型也不能得到良好的结果。这样的问题就是长序列会遇到的问题,其主要原因是序列过长时,向后处理序列时前面的序列会出现“遗忘”问题。通过 Attention 的方式可以缓解这种问题,增加长记忆的能力。
笔记是针对 Python 可视化工具 Matplotlib 基本信息总结,针对的版本是 3.3.1
TL;DR
作为 Python 可视化中的重要工具,matplotlib
有广泛的应用——不仅是一个独立 package,而且常被作为其他可视化依赖工具——例如 pandas
和 seaborn
可视化均有相关依赖。
对于商品来说不同的定价策略会影响到收益和利润,理解不同的需求的消费者的消费意愿对价格的响应具有重要的实践意义。从分析的角度利用需求曲线,以及价格对市场环境拟合可以用于评估利润的最大值。在基础信息包括:
整理的使用 PySpark 处理数据过程中遇到的一些异常问题,以及可能的解决方案。
RFM 是分析用户价值的一种营销分析方法,其目的是为了找到最佳用户的方式,利用帕累托效应衡量当前用户价值和和客户潜在价值。分析的方法正如其名:
Spark 提供的统一分析引擎中包括了数据整合分析、特征、模型训练和部署等一套完整的生态系统,因此使用 Spark 能够进行实现机器学习的任务。常规的分类和回归问题,都可以通过 spark.mlib
或者 spark.ml
两个包来完成。但是两者在在处理数据类型上存在一些差异,spark.mlib
(自 Spark 2.0 版本进入维护模式) 提供的是基于 RDD API 的原生机器学习 API;而 spark.ml
是一个相对较新的包,它是基于 DataFrame API 的机器学习 API
HBase 的支持的文件系统是 HDFS,但其不仅仅支持 HDFS。由于其使用的文件系统是可插拔的架构,只需要提供可以被 Hadoop 接口支持的文件系统那么就可以替换 HBase 底层文件系统。
ZooKeeper 是一个可靠的高可用的、持久化的分布式的协调系统,它在 HBase 的架构中是监控服务器可用性、跟踪机器故障和网络分区。每台 Region 服务器在 ZooKeeper 服务器中会有独立的会话,Region 作为客户端会向 ZooKeeper 服务器定时发送”心跳“,以判断服务器是否故障。
ETL 和 ELT 都是数据处理的模式,但是两者在逻辑和应用场景下是具有较大差异的。两者的英文单字都是相同的意思:
在设计架构过程是使用 cookiecutter 能够方便快速的搭建统一的框架。该笔记是依据 《整洁架构》搭建日志模版的过程和思路整理。