https://www.youtube.com/watch?v=dqb4U-QzMbs
视觉、自然语言、语音、翻译 全都可以用Transformer架构解决,而且现在大家都在这样做。
最早引入的论文:2014年,Neural Machine Translation by Jointly Learning to Align and Traslate,在其中 attention 出现了三次。
2017年,Attention Is All You Need