深度学习在自然语言处理的应用v0.76

深度学习在自然语言处理的应用v0.76

ID:46716940

大小:1.86 MB

页数:55页

时间:2019-11-27

深度学习在自然语言处理的应用v0.76_第1页
深度学习在自然语言处理的应用v0.76_第2页
深度学习在自然语言处理的应用v0.76_第3页
深度学习在自然语言处理的应用v0.76_第4页
深度学习在自然语言处理的应用v0.76_第5页
资源描述:

《深度学习在自然语言处理的应用v0.76》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、深度学习在自然语言处理的应用张俊林2014.10.31大纲�深度学习简介�基础问题:语言表示问题–WordEmbedding–不同粒度语言单元的表示�字符/单字/单词/短语/句子/文档�值得重点关注的模型–RAE/TensorNetwork/卷积网络�NLP的应用–语言模型–中文分词–知识挖掘–情感计算–机器翻译–Paraphrase–IR2�探讨与思考深度学习(表示学习)3深度学习(表示学习)4Layer-WisePre-Training5DenoisingAutoencoder6自然语言交互的时代

2、7大纲�深度学习简介�基础问题:语言表示问题–WordEmbedding–不同粒度语言单元的表示�字符/单字/单词/短语/句子/文档�值得重点关注的模型–RAE/TensorNetwork/卷积网络�NLP的应用–语言模型–中文分词–知识挖掘–情感计算–机器翻译–Paraphrase–IR8�探讨与思考One-Hot表示•OneHot表示在传统NLP中很常用Similarity(dog,cat)=09WordEmbedding•词向量:单词的分布向量表示(DistributionalRepresent

3、ation)Similarity(dog,cat)>Similarity(dog,the)Similarity(“thedogsmiles.”,“onecatcries.”)•词向量表征了单词使用上下文中的句法语义特征–One-Hot的字面匹配到DR的语义匹配10无监督训练获得单词的WE-word2vec11单词:苹果无监督训练获得单词的WE-word2vec12单词:长颈鹿无监督训练获得单词的WE-word2vec13单字:张无监督训练获得单词的WE-word2vec14单字:雯无监督训练获得单词的

4、WE-word2vec15单字:葱Word2vecCBOW:16word2vecSkip-Gram:17word2vecCBOW+HierarchicalSoftmax18word2vec最大化:正例st:负例CBOW+NegativeSampling19不同粒度语言单元的表示-字符/单字字符上下文向量英文:捕获构词法中文:捕获字搭配英文拓展:字符N-Gram中文拓展:单字N-Gram?20不同粒度语言单元的表示-短语/句子/文档�方法一:单词词向量取和(Summrization)–很多情况都做此种简

5、化处理–过于简单,但是仔细思考有一定道理�方法二:单词词向量加权求和–Huang’sWork–权重:类似于IDF�方法三:RNN21不同粒度语言单元的表示-短语/句子/文档�方法四:Matrix-VectorNN22不同粒度语言单元的表示-短语/句子/文档�方法五:卷积神经网络23大纲�深度学习简介�基础问题:语言表示问题–WordEmbedding–不同粒度语言单元的表示�字符/单字/单词/短语/句子/文档�值得重点关注的模型–RAE/TensorNetwork/卷积网络�NLP的应用–语言模型–中

6、文分词–知识挖掘–情感计算–机器翻译–Paraphrase–IR24�探讨与思考RAE(RecursiveAutoEncoders)�推导短语及句子级别的WordEmbedding表示25NeuralTensorNetworks�表达多个实体之间的关系/两个单词之间某种操作26NeuralTensorNetworks27卷积网络(ConvolutionalDeepNeuralNetwork)�全局特征选择与融合/不定长转换为定长表示28大纲�深度学习简介�基础问题:语言表示问题–WordEmbeddi

7、ng–不同粒度语言单元的表示�字符/单字/单词/短语/句子/文档�值得重点关注的模型–RAE/TensorNetwork/卷积网络�NLP的应用–语言模型–中文分词–知识挖掘–情感计算–机器翻译–Paraphrase–IR29�探讨与思考语言模型30语言模型Bilinear-LM31语言模型32RNNLM深度学习用于中文分词-思路133深度学习用于中文分词-思路234深度学习用于中文分词�两者思路基本相同–基于字的WordEmbedding+三层神经网络+BEMS标记序列分类–思路2引入全局的Vite

8、rbi解码(分类后处理)–效果:和主流分词算法效果接近�CRF/Maxent+二元特征–类似思路同样可以套用到POS/NER/Parser等场景–这是利用WordEmbedding解决NLP问题最直观的NLP应用思路–考虑探索下非标准三层神经网络结构的复杂模型35深度学习用于知识挖掘�两大类问题–现有知识库的新知识推理�CYC,WordNet,FreeNet……�目前的文献做法大思路基本一致–已知实体用WordEmbedding表示–实体关系用Tenso

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。