Attention Is All You Need 笔记
1. 背景
在解决翻译问题时,如果句子长度过长 Encoder-Decoder 的模型也不能得到良好的结果。这样的问题就是长序列会遇到的问题,其主要原因是序列过长时,向后处理序列时前面的序列会出现“遗忘”问题。通过 Attention 的方式可以缓解这种问题,增加长记忆的能力。
在解决翻译问题时,如果句子长度过长 Encoder-Decoder 的模型也不能得到良好的结果。这样的问题就是长序列会遇到的问题,其主要原因是序列过长时,向后处理序列时前面的序列会出现“遗忘”问题。通过 Attention 的方式可以缓解这种问题,增加长记忆的能力。