基于GRU神经网络结合CRF的中文分词研究分析

基于GRU神经网络结合CRF的中文分词研究分析

ID:37062172

大小:1.76 MB

页数:53页

时间:2019-05-16

基于GRU神经网络结合CRF的中文分词研究分析_第1页
基于GRU神经网络结合CRF的中文分词研究分析_第2页
基于GRU神经网络结合CRF的中文分词研究分析_第3页
基于GRU神经网络结合CRF的中文分词研究分析_第4页
基于GRU神经网络结合CRF的中文分词研究分析_第5页
资源描述:

《基于GRU神经网络结合CRF的中文分词研究分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、工程硕士研究生学位论文基于GRU神经网络结合CRF的中文分词研究分析作者姓名慕容伟波工程领域软件工程校内指导教师张平健教授校外指导教师潘勇高级工程师所在学院软件学院论文提交日期20180521AResearchonChineseWordSegmentationBasedonGRUNeuralNetworkCombinedwithCRFADissertationSubmittedfortheDegreeofMasterCandidate:MurongWeiboSupervisor:Prof.ZhangPingjianSouthChinaUniversityof

2、TechnologyGuangzhou,China分类号:TP3学校代号:10561学号:201520210056华南理工大学硕士学位论文基于GRU神经网络结合CRF的中文分词研究分析作者姓名:慕容伟波指导教师姓名、职称:张平健教授;潘勇高级工程师申请学位级别:工程硕士工程领域名称:软件工程论文形式:ꇶ产品研发ꇶ工程设计ꇶ应用研究ꇶ工程/项目管理ꇶ调研报告研究方向:自然语言处理论文提交日期:2018年5月21日论文答辩日期:2018年5月26日学位授予单位:华南理工大学学位授予日期:年月日答辩委员会成员:主席:黄敏委员:张平健、陈虎、汤佑德、徐迪威摘要分词是

3、中文自然语言处理中的关键技术。将中文分词问题转化为字标注问题,以便套用机器学习的方法去解决,是较为有效的一种思路。然而,基于传统机器学习方法进行分词,需要人为的在中文文本中提取特征,存在信息提取不充分、词库维度高、且利用CPU训练模型时间长的缺点。近年,深度学习模型被引进来解决中文分词问题,比较典型的是可以处理长距离依赖信息的长短记忆神经网络。但是,在基于序列标注的中文分词问题上,长短记忆神经网络提取中文词语局部约束信息的能力较弱,而且存在着训练时间较长的问题,为了解决以上两方面的问题,本文提出了基于长短记忆神经网络后接CRF层的中文分词模型。本文通过对一般

4、的LSTM神经网络中文分词模型、基于GRU神经网络的中文分词模型及结合了CRF的GRU神经网络的中文分词模型的效率和效果进行对比,实验结果表明,结合了CRF的GRU神经网络中文分词模型在保证效率的基础上,分词效果也得到了明显的提升。关键字:中文分词长短记忆神经网络门循环单元神经网络线性条件随机场IAbstractSegmentationisakeytechnologyinChinesenaturallanguageprocessing.TheproblemoftranslatingChinesewordsegmentationintowordtaggingi

5、samoreeffectivewaytosolveitbyapplyingmachinelearningmethods.However,segmentationbasedonthetraditionalmachinelearningmethodneedsartificiallyextractingfeaturesinChinesetexts,hasthedisadvantagesofinsufficientinformationextraction,highvocabularydimension,andlongtrainingtimeusingCPUs.In

6、recentyears,thedeeplearningmodelhasbeenintroducedtosolvetheproblemofChinesewordsegmentation.Thetypicallong-termandshort-termmemoryneuralnetworkcanhandlelong-distancedependentinformation.However,ontheproblemofChinesewordsegmentationbasedonsequenceannotation,theabilityofshortandlongm

7、emoryneuralnetworkstoextractlocalconstraintsofChinesewordsisweak,andthereisaproblemoflongtrainingtime.Inordertosolvetheabovetwoproblems,thispaperproposesamethodbasedonlengthandshortness.TheneuralnetworkisfollowedbytheChinesewordsegmentationmodeloftheCRFlayer.Thispapercomparestheeff

8、iciencyandeffectivenessoft

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。