Self_Attention

Huahuatii大约 2 分钟

Attention机制

以a¹得到b¹为例讲解注意力机制：

attention计算过程

a¹通过叉乘W^q得到q¹，即为query；
【a¹, a², a³, ...】通过点乘W^k得到【k₁, k₂, k₃, ...】，即为各个aⁿ的key；
【a¹, a², a³, ...】通过点乘W^v得到【v₁, v₂, v₃, ...】，即为各个aⁿ的value；
将q¹（即 a¹的query）点乘各个kⁿ（即aⁿ的key），通常会再经过一个SoftMax层，最终得到a'_1,n（即a¹对aⁿ的Attention Score）；
最后一步用a¹的注意力分数叉各个value，求和得到b¹，公式如下： $\boldsymbol{b}^{\mathbf{1}}=\sum_{i} \alpha_{1, i}^{\prime} \boldsymbol{v}^{\boldsymbol{i}}$ :::

多头注意力机制其实和注意力机制相似，通过设定多个W_q，W_k，W_v矩阵以捕获不同的关系（学习不同类型的注意力），因此最终可以得到多个bⁱ，可以通过一个新的矩阵W₀将【b^i,1,b^i,2,b^i,3, ...】整合成一个包含多个注意力信息的输出bⁱ。

Cross attention同时也是Transformer中decoder所采用的架构，一个序列作为输入的Q，定义了输出的序列长度，另一个序列提供输入的K&V。

Soft：并非强硬地输出最大值

Max：求最大值

通过SoftMax不再唯一的确定某一个最大值，而是为每个输出分类的结果都赋予一个概率值，表示属于每个类别的可能性，计算公式如下：

其中为第i个节点的输出值，C为输出节点的个数，即分类的类别个数。通过Softmax函数就可以将多分类的输出值转换为范围在[0, 1]和为1的概率分布.

\operatorname{Softmax}\left(z_{i}\right)=\frac{e^{z_{i}}}{\sum_{c=1}^{C} e^{e_{c}}},

当使用Softmax函数作为输出节点的激活函数的时候，一般使用交叉熵作为损失函数。

L=-\sum_{c=1}^{C} y_{c} \log \left(p_{c}\right)