专栏 - 深度学习在NLP中的运用？从分词、词性到机器翻译、对话系统.doc

ID：27827669

大小：104.00 KB

页数：7页

时间：2018-12-06

专栏 - 深度学习在NLP中的运用？从分词、词性到机器翻译、对话系统.doc_第1页

专栏 - 深度学习在NLP中的运用？从分词、词性到机器翻译、对话系统.doc_第2页

专栏 - 深度学习在NLP中的运用？从分词、词性到机器翻译、对话系统.doc_第3页

专栏 - 深度学习在NLP中的运用？从分词、词性到机器翻译、对话系统.doc_第4页

专栏 - 深度学习在NLP中的运用？从分词、词性到机器翻译、对话系统.doc_第5页

资源描述：

《专栏 - 深度学习在NLP中的运用？从分词、词性到机器翻译、对话系统.doc》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、专栏

2、深度学习在NLP中的运用？从分词、词性到机器翻译、对话系统　　自然语言是人类知识的抽象浓缩表示，而自然语言理解是人工智能研究领域中极具挑战的一个分支。上次，《自然语言处理在2017年有哪些值得期待的发展？》中，我们已经讲到，2016年是深度学习大潮冲击NLP的一年，通过去年一年的努力，深度学习在NLP领域已经站稳了脚跟。其中，对话交互系统已经成为一个重要的应用研究领域，2017年的自然语言对话系统，将开创一个新的人机交互时代。　　通过深度学习和其他机器学习技术的模型组合，竹间智能也已初步实现了自然语言对话中

3、的意图识别、上下文理解和多轮对话。本文将基于竹间智能的一些经验和探索，从分词、词性等基础模块，到机器翻译、知识问答等领域，列举并分析一些深度学习在NLP领域的具体运用，希望对大家研究深度学习和NLP有所帮助。　　事实上，从分词、词性、语法解析、信息抽取等基础模块，到自然语言生成、机器翻译、对话管理、知识问答等高层的NLP领域，几乎都可以应用以CNN、RNN为代表的深度学习模型，且确实能够取得不错的效果。深度学习模型有效降低了语言模型输入特征的维度，降低了输入层的复杂性。另外，深度学习模型具有其他浅层模型不能比拟的

4、灵活性。深度学习模型更复杂，能够对数据进行更精准的建模，从而增强实验效果。　　深度学习模型可以将文本中的词高效地表示为分布式连续向量（word2vec），将词语、文本由词空间映射到语义空间，这样的语义表示可以捕获重要的句法和语义信息，一定程度上缓解了词面不匹配、数据稀疏、语义鸿沟等问题。Word2vec的应用可以使许多自然语言处理任务取得突出的表现。Word2vec虽然可以通过神经网络训练大规模的语料实现，但仍面临着outofvocabulary的现实。Bahdanau等人利用LSTM模型结合定义知识语料，解决传

5、统wordembedding模型中的outofvocabulary问题。（框架流程见图1，具体见https://arxiv.org/abs/1706.00286）　　　　图1：利用RNN解决Word2Vec中outofvocabulary问题实例　　中文不同于英文自然分词，中文分词是文本处理的一个基础步骤，也是自然语言处理的基础模块。分词性能的好坏直接影响比如词性、句法树等其他模块的性能。利用深度学习实现的字嵌入+Bi-LSTM+CRF中文分词器，不需要构造额外手工特征。使用人民日报的80万语料训练实现，按照字符

6、正确率评估标准能达到98%的准确率。其本质上是一个序列标注模型，模型参考的论文是：http://www.aclweb.org/anthology/N16-1030，整个神经网络的主要框架如图2所示。有感兴趣的朋友可以去看看，具体实现已在github开源https://github.com/koth/kcws。　　　　图2：WordEmbedding+Bi-LSTM+CRF主要框架示意图　　语法解析可以获得句子的语法结构，例如，哪些单词组合在一起（形成「短语」），哪些单词是动词的主题或对象。SyntacticPar

7、sing明确标出了词与词之间的短语结构，隐含了词与词之间的关系。而DependencyParser则明确表示出了词与词之间的关系。利用神经网络模型解析句子的语法结构的实现可以参考http://www.petrovi.de/data/acl15.pdf以及斯坦福的http://cs.stanford.edu/~danqi/papers/emnlp2014.pdf。除解析文本之外，RichardSocher等人利用CNN模型实现了解析图片的功能（ParsingNaturalScenesandNaturalLangua

8、gewithRecursiveNeuralNetworks）。　　文本分类是各种场景在自然语言处理领域中经常使用到的技术，例如判断文本内容的情感分类（即对文本表达的情感进行分析，如正面、负面的情感，开心、愤怒等情绪等）。深度学习在文本分类中的表现优于其他一些传统线性模型，例如https://arxiv.org/abs/1508.04112。Github上的https://github.com/harvardnlp/sent-conv-torch是用于文本分类的CNN，这个代码用GPU在Torch中实现了Kim（2

9、014）的句子卷积代码。它复制了现有数据库中的结果，并允许在任意其它的文本数据库上训练模型。　　信息抽取，从句子中抽取特定的片段（比如命名实体识别、摘要总结等）。AbstractiveSummarization摘要总结https://github.com/harvardnlp/NAMAS，该项目包含了来自论文ANeuralAttentionModelforAbstract

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 7



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

专栏 - 深度学习在NLP中的运用？从分词、词性到机器翻译、对话系统.doc

专栏 - 深度学习在NLP中的运用？从分词、词性到机器翻译、对话系统.doc

相关文章

相关标签