在无监督学习的nlp任务中

在无监督学习的nlp任务中

ID:5408122

大小:521.00 KB

页数:29页

时间:2017-11-10

在无监督学习的nlp任务中_第1页
在无监督学习的nlp任务中_第2页
在无监督学习的nlp任务中_第3页
在无监督学习的nlp任务中_第4页
在无监督学习的nlp任务中_第5页
资源描述:

《在无监督学习的nlp任务中》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、OnlineEMforUnsupervisedModelsWrittenbyPercyLiang,DanKleinPresentedbyLinzhengACL-2009OutlineIntroductionTasks,modelsanddatasetsEMalgorithmsExperimentsConclusionIntroduction在无监督学习的NLP任务中,比如tagging,parsing,alignment,往往需要引入隐含的语言结构。概率模型是解决这些问题的典范,而EM算法是用于模型学习的

2、驱动力,它简单且直观。Introduction然而,EM算法存在收敛慢的问题,比如在词性标注问题中,EM迭代大约需要100轮来达到最高性能。EM算法执行慢主要源自它的批特性,即每趟遍历完所有的数据后参数只更新一次。当参数估计仍然粗糙或者数据存在高冗余时,计算全部数据后更新一次参数显然是浪费的。Introduction在这篇文章中作者调研了两种在线EM算法——incrementalEMandstepwiseEM.即在每个样本或者一小批样本后更新参数,在线学习算法通过频繁更新来实现加速收敛。文章主要研究ste

3、pwiseEM,发现选择合适的stepsize和mini-batchsize非常重要。stepwiseEM可以和batchEM达到相同效果并且速度更快,此外,stepwiseEM甚至可以超越batchEM的性能。Tasks,modelsanddatasets定义一个概率模型其中x是输入变量,z是隐含输出变量,是参数。给定一组没有标记的样本x1,….xn,训练目标是最大化这些样本的对数似然:Tasks,modelsanddatasets文章对四个任务进行了实验,分别是:词性标注(Part-of-speech

4、tagging)文档分类(Documentclassification)分词(Wordsegmentation)词对齐(Wordalignment)Tasks,modelsanddatasets词性标注:对每个句子,代表一个词序列,我们希望预测相应的词性标记序列模型采用二元隐马尔科夫模型数据采用WallStreetJournalportionofthePennTreebank(49208个句子,45个标记)Tasks,modelsanddatasets文档分类:每篇文档包含L个单词,我们希望预测文档的类别

5、每篇文档的类别在其所包含的所有单词的类别上建模实验采用18828篇文档,20个类别。Tasks,modelsanddatasets分词:对每个句子代表一串没有间隔的英文音素或者中文汉字,想要将其分变成单词序列模型采用naïveunigrammodel,由于倾向于将每个句子形成一个切分,所以对长切分进行惩罚和最长字符限制。数据采用CHILDESdatabase(9790个句子)和SIGHAN前100k个句子。Tasks,modelsanddatasets词对齐:每一个互翻译的双语句对要预测词语对齐模型:IB

6、M模型1数据采用英法HansardsNAACL2003EMalgorithmsEM算法是机器学习中一个很重要的算法,这种方法可以广泛地应用于处理不完整数据,主要包括以下两个步骤:E步骤:estimatetheexpectedvalues M步骤:re-estimateparameters迭代使用EM步骤,直至收敛。EMalgorithms完整似然函数:若隐含变量的值已知,得到完整数据的log似然函数为:EMalgorithms观测数据X已知,参数的当前值已知,在完整似然函数中,缺失数据(隐含变量)Y未知,

7、完整log似然函数对Y求期望。定义其中是待确定的参数通过求期望,去掉了完整似然函数中的变量Y。即EM的E步。EMalgorithms对E步计算得到的完整似然函数的期望求极大值(EM的M步),得到参数新的估计值,即每次参数更新会增加非完整似然值反复迭代后,会收敛到似然的局部最大值EMalgorithmsBatchEMEMalgorithmsOnlineEMEMalgorithmsOnlineEMEMalgorithmsStepwiseEM算法有两个重要参数:Stepwisereductionpowera:a

8、越小,更新越大,旧的统计数据衰减越快,可以导致快速收敛,也会造成不稳定性。Mini-batchsizem:可以通过在许多样本后更新一次而不是每个样本更新一次来增加稳定性,即把每一小批样本看成单个样本。m越大更新越缓,越稳定。Experiments——词性标注Experiments——文本分类Experiments——分词Experiments——词对齐ExperimentsExperimentsExperimentsExper

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。