欢迎来到天天文库
浏览记录
ID:57174949
大小:899.00 KB
页数:26页
时间:2020-08-02
《自然语言处理中的attention机制课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、NLP中的Attention机制介绍李世杰复习Attention机制通用定义Attentionscore的计算变体更多attention种类总结内容利用点积dot得到attentionscore利用softmax函数:attentionscores转化为概率分布按照上一步概率分布:计算encoder的hiddenstates的加权求和复习Attention机制通用定义Attentionscore的计算变体更多attention种类总结内容Attention机制的一个更加通用的定义(课程里面的定义)给定一组向量集合values,以及一个向量query,attention机制是一种根据该
2、query计算values的加权求和的机制。attention的重点就是这个集合values中的每个value的“权值”的计算方法。有时候也把这种attention的机制叫做query的输出关注了(或者说叫考虑到了)原文的不同部分。(Queryattendstothevalues)举例:seq2seq中,哪个是query,哪个是values?从定义来看Attention的感性认识Theweightedsumisaselectivesummaryoftheinformationcontainedinthevalues,wherethequerydetermineswhichvalues
3、tofocuson.换句话说,attention机制也是一种根据一些其他向量表达(query)从向量表达集合(values)中获得特定向量表达(attention)的方法复习Attention机制通用定义Attentionscore的计算变体更多attention种类总结内容针对attention向量计算方式变体SoftattentionHardattention“半软半硬”的attention(localattention)动态attention静态attention强制前向attentionSoftattentionSoftattention就是我们上面讲过的那种最常见的atte
4、ntion,是在求注意力分配概率分布的时候,对于输入句子X中任意一个单词都给出个概率,是个概率分布HardattentionSoft是给每个单词都赋予一个单词match概率,那么如果不这样做,直接从输入句子里面找到某个特定的单词,然后把目标句子单词和这个单词对齐,而其它输入句子中的单词硬性地认为对齐概率为0,这就是HardAttentionModel的思想。localattention(半软半硬attention)在这个模型中,对于是时刻t的每一个目标词汇,模型首先产生一个对齐的位置pt(alignedposition),contextvector由编码器中一个集合的隐藏层状态计算得
5、到,编码器中的隐藏层包含在窗口[pt-D,pt+D]中,D的大小通过经验选择。寻找pt并计算alpha的方式又大致分为两种:Local–m:假设对齐位置就是pt=t(线性对齐)然后计算窗口内的softmax,窗口外的alpha可以取0Local–p:先通过一个函数预测pt在[0,S]之间,然后取一个类高斯分布乘以softmax。动态attention、静态attention、强制前向attention动态attention:就是softmaxattention静态attention:对输出句子共用一个St的attention就够了,一般用在Bilstm的首位hiddenstate输出
6、拼接起来作为St(如图所示中的u)强制前向attention:要求在生成目标句子单词时,如果某个输入句子单词已经和输出单词对齐了,那么后面基本不太考虑再用它了针对Attentionscore的计算方式变体已有的情况下,计算query的attention向量a(很多时候也称作上下文向量,contextvector)使用的公式为:点积attentionscore(Basicdot-productattention):这个就是我们常见的attentionscore计算方式乘法attentionscore(Multiplicativeattention):加法attentionscore(A
7、dditiveattention:复习Attention机制通用定义Attentionscore的计算变体更多attention种类总结内容Selfattention思想:Selfattention也叫做intra-attention在没有任何额外信息的情况下,我们仍然可以通过允许句子使用selfattention机制来处理自己,从句子中提取关注信息。它在很多任务上都有十分出色的表现,比如阅读理解(Chengetal.,2016)、文本继承(textual
此文档下载收益归作者所有