基于深度学习中文分词的研究

基于深度学习中文分词的研究

ID:23523192

大小:2.54 MB

页数:53页

时间:2018-11-08

基于深度学习中文分词的研究_第1页
基于深度学习中文分词的研究_第2页
基于深度学习中文分词的研究_第3页
基于深度学习中文分词的研究_第4页
基于深度学习中文分词的研究_第5页
资源描述:

《基于深度学习中文分词的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、(0)焱姜邦贫大綮硕士研宄生学位论文基于深度学习中文分词的研究作者:王梦鹤指导教师:李晓戈教授专业学位类别(麵):工程硕士(计算机技术)一_论文日期:二〇八年六月单位代码11664学号1503210056分类号TP391密级西安邮电大学硕士研究生学位论文题(中、英文)目基于深度学习中文分词的研究ResearchonChineseWordSegmentationBasedonDeepLearning作者姓名王梦鸽指导教师姓名、职务李晓戈教授专业学位类别工程硕士专业学位领域计算机技术提交论文日期二○一八年六月摘要摘要中文自动分词是指将一个连续的

2、中文文本序列按照一定的规则切分成一个个单独的词序列的过程。由于中文是以单个的字作为最小写作单元的,并且词和词之间没有像英文一样有空格可以作为固定分隔符,因此无论在中文自然语言处理里的哪一个子领域中,第一步都离不开中文分词。中文分词技术是自然语言处理(NLP)中一个基础的板块,也是其他中文信息处理任务中前期文本处理的一个关键环节,分词结果的好坏将直接影响后续信息处理的结果。大多数中文分词系统的实现都需要依赖分词词典的匹配,然而随着Web2.0和Web3.0互联网信息时代的飞速发展,语言也随之不断演化,同时涌现出大量新词汇,导致了分词词典覆盖率降低,因此分词系统处理文本语料的准

3、确率也随之降低。综上所述,对中文自动分词的研究具有重要的意义。当前传统机器学习分词方法大都依赖于人工设计的特征工程,并且需要大量的工作来验证这些特征的有效性,显然工作效率比较低。基于神经网络深度学习的算法逐渐兴起之后,使得训练神经网络模自动学习特征成为可能。这种方式不但将大量工作者从特征工程的工作中解放了出来,同时也提高了提取特征工程的效率。以此为背景,为了提高中文自动分词的准确率和召回率,本文应用了一种基于长短时记忆神经网络(LSTM)与条件随机场模型(CRF)相结合的中文自动分词系统模型。首先,从大量未标记的语料数据中利用深度学习工具Word2Vec训练出字符嵌入向量表

4、示;然后,将这些字向量输入给LSTM神经网络并计算出其上下文表示向量;最后,这些上下文表示向量被作为特征应用到CRF判别模型层中进行有监督的中文分词。本文分别在基于2014年《人民日报》语料集和第四届自然语言处理与中文计算会议(The4thCCFConferenceonNaturalLanguageProcessing&ChineseComputing,NLPCC2015)提供的微博评测语料上进行了测试。实验结果表明:基于LSTM与CRF相结合的模型既可以减少传统机器学习分词方法中人工设计的特征工程,同时能够获得比传统机器学习方法更好的性能,并且更加具有通用性。其中双层Bi

5、-LSTM+CRF模型在2014人民日报语料集上的分词结果最好,准确率、召回率和F值分别高达99.02%、98.97%和98.99%。关键词:深度学习;词嵌入;长短期记忆;条件随机场;中文分词;自然语言处理IABSTRACTABSTRACTChineseautomaticwordsegmentationreferstotheprocessofdividingacontinuousChinesetextsequenceintoseparatewordsequencesaccordingtocertainrules.SincethesmallestwritingunitinCh

6、ineseisasingleChinesecharacter,andtherearenospacesbetweenwordsandwordslikeEnglishasafixeddelimiter,thus,nomatterwhichsub-domainintheChineseNaturalLanguageProcessing,thefirststepisinseparablefromtheChinesewordsegmentation.ChinesewordsegmentationisabasicpartofNaturalLanguageProcessingandisak

7、eylinkintheearlytextprocessingofotherChineseinformationprocessingtasks.Theresultofthewordsegmentationwilldirectlyaffecttheoutcomeofsubsequentinformationprocessing.TheimplementationofmostChinesewordsegmentationsystemsreliesonthematchingoflexicaldictionaries.How

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。