NLP模型:Transformer:Self-Attention

以下参考：https://www.jianshu.com/p/d2ae158fc9e5

attention:输入和输出进行比较，不同的输出对不同输入的关注不同。假设输出$y_1$更关注输入$x_1$，$y_2$更关注$x_2$，那么在句子翻译中，语言$x_1x_2 \cdots x_n$翻译成$y_1y_2 \cdots y_n$，那么很可能认为单词$x_1$翻译成$y_1$，$x_2$翻译成$y_2$。能够使模型捕捉有用信息。

self-attention:输入和输入自己进行比较（计算相似度），将输入的与上下文无关的词向量更新成上下文有关的词向量。解决了RNN等的短时记忆问题（即某个输入的词向量只与前几个输入有关）。

self-attention 计算过程

self-attention计算过程1：嵌入词向量，再由词向量依次线性变换出queries keys values

Thinking 和 Machines是同一组输入（同一句话）中的某两个输入（某两个单词），$x$是上下文无关的词向量

1. 根据原词向量依次计算queries，Keys，Values

$$Queries = X*W^Q$$

$$Keys = Queries*W^K$$

$$Values = Keys*W^V$$

其中，$W^Q，W^K，W^V$是待训练的参数

self-attention计算过程2

2. 计算scores

$$
scores=\frac{q_i* keys}{\sqrt{d_{k}}}
$$
每个$q_i$都算出n个score，即(1,n)的scores向量
其中，$d_k$是超参数（这里取64），为了让后面的计算中具有稳定的梯度

3. 计算（能句子中的长依赖关系）的新向量

$$
z_i=softmax（scores）*v
$$

对于某个词向量，$softmax（scores）$即为所有词向量对该词向量的权重，将这些权重分别乘以各向量得到新向量。运算为$(1，n)*(n,1)$

那么最后能生成输入句子中单词与单词直接的权重矩阵，即注意力矩阵

self-attention的优点

传统的RNN，LSTM网络，需要按顺序进行序列计算，所以距离越远，关系越难捕捉。如果面对长句子，这种距离较远的依赖关系相比之下很难捕获到。而self-attention是针对句子中所有词两两计算，不存在距离长短的问题
相比循环网络，self-attention能并行计算

以下参考：https://mp.weixin.qq.com/s/RLxWevVWHXgX-UcoxDS70w

transformer总体框架

输入经过transoformer得到输出

transfromer内部结构总体框架

transformer模型框架

上述框架可抽象成Encoders和Decoders

transformer也是一个Encoder-Decoder模型

Encoders包含6个Encoder，Decoders包含6个Decoder
最后一个Encoder与6个Decoder建立连接，连接的意思是某种运算，例如RNN是使用中间语义$c$作为中间连接

以最后的那个Encoder和其中一个Decoder的连接为例，继续探究Encoder和Decoder的内部
Encoder和Decoder都有Self-Attention和Feed Forward层，Decoder还有一个 Encoder-Decoder Attention层，注意，Decoder中的注意力层其实是masked self-attention

Encoder和Decoder的内部结构