《基于深度学习中文分词的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
(0)焱姜邦贫大綮硕士研宄生学位论文基于深度学习中文分词的研究作者:王梦鹤指导教师:李晓戈教授专业学位类别(麵):工程硕士(计算机技术)一_论文日期:二〇八年六月 单位代码11664学号1503210056分类号TP391密级西安邮电大学硕士研究生学位论文题(中、英文)目基于深度学习中文分词的研究ResearchonChineseWordSegmentationBasedonDeepLearning作者姓名王梦鸽指导教师姓名、职务李晓戈教授专业学位类别工程硕士专业学位领域计算机技术提交论文日期二○一八年六月 摘要摘要中文自动分词是指将一个连续的中文文本序列按照一定的规则切分成一个个单独的词序列的过程。由于中文是以单个的字作为最小写作单元的,并且词和词之间没有像英文一样有空格可以作为固定分隔符,因此无论在中文自然语言处理里的哪一个子领域中,第一步都离不开中文分词。中文分词技术是自然语言处理(NLP)中一个基础的板块,也是其他中文信息处理任务中前期文本处理的一个关键环节,分词结果的好坏将直接影响后续信息处理的结果。大多数中文分词系统的实现都需要依赖分词词典的匹配,然而随着Web2.0和Web3.0互联网信息时代的飞速发展,语言也随之不断演化,同时涌现出大量新词汇,导致了分词词典覆盖率降低,因此分词系统处理文本语料的准确率也随之降低。综上所述,对中文自动分词的研究具有重要的意义。当前传统机器学习分词方法大都依赖于人工设计的特征工程,并且需要大量的工作来验证这些特征的有效性,显然工作效率比较低。基于神经网络深度学习的算法逐渐兴起之后,使得训练神经网络模自动学习特征成为可能。这种方式不但将大量工作者从特征工程的工作中解放了出来,同时也提高了提取特征工程的效率。以此为背景,为了提高中文自动分词的准确率和召回率,本文应用了一种基于长短时记忆神经网络(LSTM)与条件随机场模型(CRF)相结合的中文自动分词系统模型。首先,从大量未标记的语料数据中利用深度学习工具Word2Vec训练出字符嵌入向量表示;然后,将这些字向量输入给LSTM神经网络并计算出其上下文表示向量;最后,这些上下文表示向量被作为特征应用到CRF判别模型层中进行有监督的中文分词。本文分别在基于2014年《人民日报》语料集和第四届自然语言处理与中文计算会议(The4thCCFConferenceonNaturalLanguageProcessing&ChineseComputing,NLPCC2015)提供的微博评测语料上进行了测试。实验结果表明:基于LSTM与CRF相结合的模型既可以减少传统机器学习分词方法中人工设计的特征工程,同时能够获得比传统机器学习方法更好的性能,并且更加具有通用性。其中双层Bi-LSTM+CRF模型在2014人民日报语料集上的分词结果最好,准确率、召回率和F值分别高达99.02%、98.97%和98.99%。关键词:深度学习;词嵌入;长短期记忆;条件随机场;中文分词;自然语言处理I ABSTRACTABSTRACTChineseautomaticwordsegmentationreferstotheprocessofdividingacontinuousChinesetextsequenceintoseparatewordsequencesaccordingtocertainrules.SincethesmallestwritingunitinChineseisasingleChinesecharacter,andtherearenospacesbetweenwordsandwordslikeEnglishasafixeddelimiter,thus,nomatterwhichsub-domainintheChineseNaturalLanguageProcessing,thefirststepisinseparablefromtheChinesewordsegmentation.ChinesewordsegmentationisabasicpartofNaturalLanguageProcessingandisakeylinkintheearlytextprocessingofotherChineseinformationprocessingtasks.Theresultofthewordsegmentationwilldirectlyaffecttheoutcomeofsubsequentinformationprocessing.TheimplementationofmostChinesewordsegmentationsystemsreliesonthematchingoflexicaldictionaries.However,withtherapiddevelopmentofWeb2.0andWeb3.0Internetinformationage,thelanguageevolutioncausedagreatnumberofnewwordsproduced,andalargeamountofunstructuredinformationisdistributedovertheInternet,whichleadtoadecreaseinthelexicaldictionarycoverage.Therefore,theaccuracyofwordsegmentationsystemforprocessingtextcorporaisalsodecreased.Tosumup,thestudyofChineseautomaticwordsegmentationisofgreatsignificance.Aspresent,mostoftraditionalmachinelearningwordsegmentationmethodsrelyontheartificialfeatureengineering,whichrequiresalotofworktoverifytheeffectivenessofthesecharacteristics.Obviouslytheworkefficiencyisrelativelylow.Itispossibletotrainneuralnetworkmodetoextractfeaturesautomaticallyaftertheneuralnetworkdepthlearningalgorithmisgraduallydeveloped.Thismethodnotonlyliberatedalotofworkersfromthefeatureengineering,butalsoimprovedtheefficiency.Basedonthisbackground,inordertoimprovetheaccuracyandrecallrateofChineseautomaticwordsegmentation,aChinesesegmentationmodelbasedonthecombinationofLongShort-TermMemoryneuralnetwork(LSTM)andConditionalRandomField(CRF)isappliedinthispaper.Firstly,thetextcharacterembeddingsaretrainedfromalargeamountofunlabeledcorpusdatabythedeeplearningtoolWord2Vec.ThenthecharacterembeddingsareinputtotheLSTMtocomputetheircontextrepresentationvectors.Finally,theserepresentationvectorswillbeappliedtotheCRFmodelasfeaturesforsupervisedChinesewordsegmentation.III 西安邮电大学硕士学位论文Experimentswereconductedonthecorpusofthe2014people'sdailyaswellasthe4thCCFConferenceonNaturalLanguageProcessing&ChineseComputing(NLPCC2015)corpus.TheexperimentsresultsshowthatthemodelsbasedonLSTMandCRFcannotonlyreducethefeatureengineeringcannotonlyreducetheartificialfeatureengineeringintraditionalmachinelearningparticiplemethod,butalsoachievebetterperformancethantraditionalmachinelearningmethod,anditismoreversatile.Amongthosemodelsweproposed,thetwo-layerBi-LSTM+CRFmodelachievedthebestsegmentationresultsinthePeople’sDailycorpus,whichaccuracy,recallrateandFvalueareashighas99.02%,98.97%and98.99%respectively.Keywords:DeepLearning;WordEmbedding;LongShort-TermMemory(LSTM);ConditionalRandomField(CRF);Chinesewordsegmentation;NaturalLanguageProcessingIV 目录目录摘要........................................................................................................................................IABSTRACT........................................................................................................................III目录......................................................................................................................................V第1章绪论.........................................................................................................................11.1研究背景与意义............................................................................................................11.2中文分词研究现状.........................................................................................................11.3论文的主要研究内容....................................................................................................41.4本文组织结构................................................................................................................5第2章中文分词简介.........................................................................................................72.1中文分词的研究意义....................................................................................................72.2中文分词的难点分析....................................................................................................92.2.1中文分词的规范问题..............................................................................................92.2.2中文分词的切分歧义问题......................................................................................92.2.3未登录词的识别.....................................................................................................102.3中文分词的研究方法..................................................................................................112.3.1基于规则的分词方法............................................................................................112.3.2基于统计的分词方法.............................................................................................112.3.3基于传统机器学习的分词方法.............................................................................122.3.4基于深度学习的分词方法.....................................................................................132.4本章小结......................................................................................................................13第3章神经网络模型与关键技术...................................................................................153.1词向量...........................................................................................................................153.2循环神经网络...............................................................................................................163.3LSTM神经网络模型...................................................................................................183.3.1LSTM神经网络模型.............................................................................................183.3.2双向LSTM神经网络............................................................................................203.3.3深层LSTM神经网络............................................................................................213.4条件随机场模型...........................................................................................................223.5本章小结.......................................................................................................................23第4章系统架构与实现...................................................................................................254.1系统整体框架...............................................................................................................25V 西安邮电大学硕士学位论文4.2Bi-LSTM+CRF模型....................................................................................................264.3双层Bi-LSTM+CRF...................................................................................................284.4本章小结......................................................................................................................29第5章实验结果与分析...................................................................................................315.1实验数据.......................................................................................................................315.2实验环境.......................................................................................................................315.3实验评测标准...............................................................................................................315.4实验结果分析...............................................................................................................315.4.1字向量维度及隐藏层层数对分词结果的影响...................................................315.4.2不同语料库下模型分词性能的对比....................................................................325.4.3有无CRF层对分词结果的影响...........................................................................335.4.4神经网络结构对分词的影响................................................................................345.5本章小结.......................................................................................................................35第6章结论与展望...........................................................................................................376.1工作总结.......................................................................................................................376.2工作展望.......................................................................................................................38参考文献.............................................................................................................................39攻读学位期间公开发表的论文.........................................................................................43致谢.....................................................................................................................................45VI 第1章绪论第1章绪论1.1研究背景与意义随着Web2.0和Web3.0信息时代的飞速发展,互联网技术日新月异,互联网也不断深入人们的生活,每时每刻都有海量的信息资源向我们涌来,也为人们提供了更多可查阅和检索的中文信息。然而这些分散在互联网上的信息绝大部分都是非结构化信息,如何才能从这些日益增长的非结构化信息海洋中快速查找出自己所需要的信息数据是人们长久以来想要实现的目标。并且,处于这样一个大数据信息时代,如果仍然通过手工处理这些海量的信息已然变得不太现实,因此,研究出一种自动化的处理方法来进行信息检索和抽取、语义分析等自然语言处理(NeuralLanguageProcessing,NLP)和文本数据挖掘,以解决当今社会信息丰富而知识匮乏的现状具有重要意义。但是想要完成这项工作,我们首先需要让计算机能够像人类的大脑一样可以进行独立思考,也就是说,我们必须让计算机可以读懂人类的语言。通常一条信息是由若干个句子组成,而一个句子又是由几个词语所表示的信息点所组成的,也就是说文本数据挖掘技术和自然语言处理任务的关键是需要把语句分割成多个有含义的词语,从而从这些词语中获得一些重要的信息,再将其中有用的信息放到一起,得到当前句子所想[1]要表达的实际意义。中文自动分词任务就是以此为目的的一项研究。我们可以通过自己的学习经验认知得知一段文字或信息的含义,但是如果想要使得计算机明白这些文字的原意,那么使用中文分词技术是必不可少的。对于像英语等拉丁语系的语言而言,由于单词与单词两两之间都有空格作为分隔边界,因此一般情况下词语都能简单且准确的提取出来。而在中文语言的文本中,除了句、段以及标点符号有明显的间隔之外,字与字之间紧密相连,没有明显的词语边界,并且缺乏严格意义上的形态变化。一般情况下,只要词语的意义允许或者符合通常的语言习惯就可以组合起来,这使得计算机自动分词问题困难重重。汉语中以单个字作为最基本的语义单位,虽然每个单字也有自己的意义,但表意能力较差,意义比较分散,而词的表达能力更强,能够更加准确的描述一个事物,因此,通常情况下在自然语言处理任务中把词(包括单字成词)作为最基本的处理单位。由此可以看出对中文分词的研究既有极其重要的意义。1.2中文分词研究现状我国在自然语言处理技术上面的研究起步比国外晚了近二十年。在上个世纪中后期,国外就已经开发出了相对来说比较成熟的自然语言处理系统模型,而我国却在上1 西安邮电大学硕士学位论文个世纪末,才真正研究并构建出属于自己的自然语言处理处理机制。由于中文分词技术是自然语言处理中的一个比较基础却又不可缺少的一个模块,近年来随着中文信息处理的普遍使用,中文分词的科研工作也相应受到了国内外众多专家及学者的广泛关注,研发出了各种各样有效的分词系统模型,同时这些模型的分词性能和效率也逐步得到改进和提高。我国实现的第一个自动中文分词系统是北京航空航天大学梁南元教授1984年提出的CDWS书面汉语自动分词系统(TheModernChineseDistinguishingWords[2]System)。CDWS是基于可靠、可使用、可移植和结构化的原则设计的一个现代书面汉语自动分词系统。模型结构如图1.1所示。该系统采用最大匹配(MM)的分词算法和切分标记来完成自动分词,并在系统中添加了词尾字构词检错技术和知识纠错。它有两种操作方式,分别是知识库自动分词和人工干预分词,其分词速度每秒达到11至15个字,平均错分率约为0.175%。CDWS分词系统在逻辑上独立,基本可以满足自然语言理解、机器翻译等基于分词结果的自然语言处理系统应用的需求。CDWS分词系统的实现是国内首次对中文自动分词实践的尝试,对后期中文分词技术的发展产生了很大的启发作用及理论意义。CDWS分词程序维护程序分词程序知识库维护程序分词词典临时词典知识库图1.1CDWS自动分词系统框架图[3]随后北航与1991年又设计实现了CASS汉语自动分词系统,图1.2展示其系统结构。该系统的实现选用嵌套调用了正向增资最大匹配法(ASM),可以识别出各种多义切分字段,同时CASS系统中的分词词典采用的结构方式是首字索引,是通过可变长记录的键值文件实现的,取得了节省存储空间和快速存取的优点,其机械分词速度比CDWS提高了十几倍,达到了200字/秒,分词准确率也有所提升。2 第1章绪论分词词典管理程序CASS系统总控程序知识库管理程序终端终端管理程序语料库管理程序语料库分词词典自动分词算法程序语料库自动分词算法程序知识库运行控制程序图1.2CASS分词系统结构图[4]山西大学的计算机系研制出了一种被称为ABWS的自动分词系统,该系统使用了“两次扫面联想-回溯”的分词方法,利用了联想-回溯的方式来解决自动分词过程中组合型切分歧义的问题。ABWS分词系统同本身没有过分依赖于词典,而是利用了较多的构词法、语法等汉语知识总结出了一些合理的分词规则,从而提高了分词准确度与速度。切分速度约为每分钟48个词,而切分准确率高达98.6%(不含非常用、未登录等专用名词)。北京师范大学研制的书面汉语自动分词系统是第一个将专家系统方法完整的引[5]入了中文分词技术中的中文分词系统。该分词系统的知识库与推理机保持相对独立的状态,它的词典同CASS系统一样使用的是首字索引的数据结构。据资料显示,该分词系统在封闭语料下的切分准确率高达99.94%,对开放语料的切分精度也达到99.8%,切分速度约为200字/秒左右。[6]清华大学早期研究出的SEG分词系统提供了带回溯的正向、反向及双向最大匹配法和全切分-评价切分算法,用户可以根据需要来自由选择合适的切分算法。该系统既考虑了切分盲点问题,提出了全切分的概念,同时提出了对全切分过程进行修剪的方法,从而解决了全切分带来的爆炸问题,是一种带修剪的全切分评价算法。经过大量的封闭试验,进行了多次切分之后,全切分评价算法的准确度几乎可以达到99%。后期他们提出的SEGTAG分词系统聚焦于将各种各样的信息进行综合,使用了词频、词类频度、词类共现频度等统计信息,以便最大限度地利用这些信息提高切分精度。实验证明该系统能够处理存在较多未登录词的文本,切分速度在30字/秒左右,切分精度基本保持在99%。[7]ICTClAS分词系统是由中科院计算所的张华平、刘群所开发的一套分词系统,在业内收到了广泛的认可。该分词系统利用了一种基于层叠隐马尔科夫模型(CascadedHiddenMarkovModel,CHMM)的中文词法分析的方法,是集中分词、3 西安邮电大学硕士学位论文词性标注、切分排歧和未登录词识别于一体的完整的理论框架。它的核心思想是先通过CHMM进行分词,通过分层,既增加了分词的准确性,又保证了分词的效率;同[8]时提出了一种基于N-最短路径的策略用于切分排歧。该系统曾获得了多次国内外组织的汉语分词大赛中获得第一和第二名。此外国内还有几个早期比较有代表性的分词系统,例如哈工大提出的统计学分词系统,它尝试将串频统计和词匹配算法结合起来,是一种典型的运用统计学方法的纯切词系统。不仅使得中文分词的匹配程度和分词的效率得以提升,而且还能够充分利用上下文信息识别出大量生词,从而可以降低切分歧义率,经过测试,该分词系统最终的切分精度约为98.5%,切分速度可以达到236字/秒。微软自然语言研究中心研发的通用多国语言处理平台NLPwin,最初只对英语进行研究,而后增加了对中文信息处理技术研究的模块,其正确处理歧义切分字段的准确率达到85%,在Pentium200PC上的切分速度约600-900字/秒。由计算机语言学研究所研制开发的分词和词类标注相结合的分词系统,通过利用丰富的词类信息对分词决策提供了帮助,并且在标注过程中还可以反过来对分词结果进行检验、调整,使规则的普遍性与灵活性得到统一,分词准确率也达到了较高水准。1.3论文的主要研究内容中文分词是中文自然语言处理技术的基础和关键技术之一。近年来基于传统机器学习分词方法大都依赖于人工设计的特征,而一个有效的特征需要通过大量实验来验证,因此通常会面临巨大的工作量。为了解决上述问题,本文利用深度学习的方法来自动完成特征提取并进行中文分词任务。本文的主要研究内容包括以下几个方面:(1)本文简单讲述了自然语言处理技术以及和它相关的一些背景知识和概念,并阐述了自然语言处理技术在某些领域中的应用和重要性。(2)重点对自然语言处理技术中的中文分词任务做了详细介绍,并对国内外分词研究现状进行了分析说明。对比介绍了几种常用的中文分词系统模型的原理及其优缺点。(3)对不同结构类型的深度学习神经网络模型进行了深入研究,并应用基于深度学习的中文分词方法,通过对比实验,证明了深度学习在中文分词任务中比传统分词方法具有优越性。(4)最后,对神经网络模型进行改进并实验,进一步说明了不同神经网络结构对分词结果的影响。4 第1章绪论1.4本文组织结构本文主要分为六章,每个章节的主要内容安排如下:第1章为绪论。首先,主要对自然语言处理技术的相关概念和中文分词任务的研究背景和意义进行了简单讲解;其次,对中文分词技术的国内外发展现状进行了分析和研究;最后,给出了本文主要研究内容和本文的组织结构。第2章为中文分词的简介。本章节主要从中文分词的研究意义,中文分词存在的难点问题,以及常用的几种中文分词方法三个方面进行了分析与介绍。并主要展开介绍了基于规则、基于统计、基于传统机器学习和基于深度学习的分词方法的工作原理及其优缺点。第3章为神经网络模型与关键技术。该章节主要介绍了本文所用的基于深度学习的中文分词系统模型所使用的神经网络模型和一些关键技术。分别介绍了词向量技术,循环神经网络模型和它的多种变体网络结构,以及条件随机场模型。第4章为系统框架与实现。主要介绍了本文所提出的中文分词系统的整体框架。第5章为实验结果与分析。通过实验,与传统分词方法的进行了对比,证明了基于深度学习的中文分词方法比基于传统机器学习方法性能更好。并且进行了多组不同的实验,验证了影响神经网络分词系统性能的多种因素。第6章为总结与展望。本章节主要总结归纳了本文的主要研究内容,并对接下来的工作内容进行了展望。5 西安邮电大学硕士学位论文6 第2章中文分词简介第2章中文分词简介中文自动分词(ChineseWordSegmentation)指的是将一个连续的中文文本序列按照一定的规则分割成一个个单独的词序列的过程。换句话说,中文分词实际上就是将一连串连续的字序列按照指定的规范重新排列并组合成词序列的过程。在英文等拉丁语系的语言文本中,两个相邻单词之间都是以空格作为自然分界符的,而在中文文本中只有字、句和段之间能通过明显的分界符来做简单的划分,而唯独词与词之间没有一个形式上的分隔符,虽然在英文中也存在着短语划分的问题,但是在分词这一层面上,相比英文来说,对中文文本的处理更为复杂,困难度也要高的多。2.1中文分词的研究意义在目前的自然语言处理领域中,中文信息处理技术比西文的处理技术要落后很大一段距离,许多适用于西方文本的处理方法无法直接套用在对中文语言的处理上面,这就是因为对中文信息处理之前都必需有分词这道工序。在中文语言文本中,“词”[9]是最小的能够独立运用的语言单位,很多中文词仅有一个单个的汉字组成,但是更多的单个汉字是无法独立运用的。所以,在很多中文自然语言处理任务中,也就多了一个中文分词这个预处理过程,将连续的汉字分隔成更具有语言语义学上意义的词。因此,可以说中文分词是其他中文信息处理技术的基础步骤,也是其他中文信息处理的关键环节,中文分词的准确度直接影响着后续应用的性能。例如在以下几个应用中,中文分词均起到了不可或缺的作用。因此,对中文自动分词的研究具有非常重要的意义,是直接影响中文信息处理技术快速发展的技术瓶颈。(1)搜索引擎(SearchEngine):搜索引擎是一种可以依据一定的策略,运用某些特定的计算机程序,从互联网上采集信息,再对得到的信息进行组织处理之后,提供给用户用来进行检索,并将用户检索的相关信息展示给用户的系统。搜索引擎的种类很多,主要包括全文索引、目录索引、集合式搜索引擎、垂直搜索引擎、门户搜索引擎、元搜索引擎等。中文自动分词的准确性对搜索引擎系统来说是十分重要的,同时,由于搜索引擎需要处理数以亿计的网页,因此对中文分词速度的要求也很高。(2)机器翻译(MachineTranslation,MT):机器翻译,又叫做自动翻译,是利用计算机将一种自然语言(源语言)转换成另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。在进行机器翻译的过程中,如若忽略了中文是以7 西安邮电大学硕士学位论文词语为基本表意单位的这一特点,而直接以字为单位来进行自动评测,则会使得结果[10]存在偏差,但是如果先对文本进行分词后再进行评测,那么结果将有所提升。因此,可以看出中文分词对机器翻译具有重要意义。(3)自动文本摘要(Automatictextsummarization):自动文本摘要是指,通过利用计算机来实现对文本内容的自动分析和归纳并生成摘要的一种技术。如今我们处于一个信息膨胀的互联网时代,大量的信息时时刻刻充斥在我们身边,自动文本摘要技术对我们处理这些信息意义十分重大。这项技术需要通过对文本中的特征提取来实现,而文本的特征大部分是通过文本中的有意义的实词来体现的,因此先通过中文自动分词技术将文中的实词分离出来再提取特征就比以字[11]为基础来提取特征得到的结果要好的多。(4)语音合成(SpeechSynthesis):通过电子、机械的方法产生出人造语音的技术称之为语音合成技术。语音合成技术又称为文语转换(TexttoSpeech)技术,是一种将计算机自己产生的、或者外部输入进去的文字信息转变为我们能够听得懂的、流利的口语输出的技术。换句话说,语音合成技术就是为了让计算机具有像人一样的讲话能力。这项技术是近年来信息产业竞争市场中重要的技术之一。语音合成技术的难点在于如何模拟人发音的停顿,尤其[12]是词语之间存在的停顿,而这个问题只能通过分词的方法才能得以解决。(5)情感分析(SentimentAnalysis):情感分析又称为倾向性分析、观点挖掘等,是自然语言处理领域中一个重要的任[13]务,是对带有主观性情感色彩的文本分析、归纳并推理的过程。比如从一个商品的评论中提取并分析出用户对此商品各个属性的情感倾向。在进行情感分析的过程中,首先需要对评论中的文本进行自动分词,然后从中提取出带有主观感情色彩的诸如“好极了”、“很差劲”、“还可以”等词语,作为该评论的特征词,最后通过对这些特征值进行分类计算得出每个评论的情感类别。(6)问答系统(QuestionAnsweringSystem,QA):问答系统是一种可以使用简洁而准确的自然语言来回答用户用自然语言提出的[14]问题的高级形式的信息检索系统。而中文自动分词技术是问答系统的基础,通过对问题进行分词并分类,再与问题的答案相匹配。对问答系统的研究起因是帮助人们更快速而准确地获取他们所需要的信息。问答系统也是目前自然语言处理领域中备受关注的一项研究技术,发展前景非常广泛。除了上面举例列出的几个应用以外,中文自动分词还在文本自动分类、信息摘录、中文自动校对系统等自然语言处理技术上起着重要的作用。综上所述,中文自动分词技术的进步与否直接影响着中文信息处理技术。8 第2章中文分词简介2.2中文分词的难点分析虽然对中文自动分词的研究工作已经有近三十年之久,取得了一些成就,研究专家和学者们也提出了一些比较成熟的分词方法,然而中文自动分词的问题依然没有被完全解决。在进行中文分词任务的过程中,主要存在三大难题,其一是中文分词的规范问题,第二是分词的切分歧义问题,第三个问题是对新词、未登录词的识别问题。2.2.1中文分词的规范问题[15]词是语言的载信单位,中文信息处理技术在某种程度上主要时对词的处理。即使使用同种自动分词技术,倘若使用了不同的分词原则,那么产生的分词结果也将各不相同。然而在中文信息处理的过程中,如果在分词层面上就存在较大的偏差的话,势必会直接影响到后续信息处理的结果。并且,中文信息处理技术包含了众多的子领域,而每个子领域又各自都有其自身对词结构和用词的不同特点,因此如果没有一个统一的规范,任其自流各执一是,则各领域之间的用词差异便会很大,既不利于中文信息处理的规范化,也将降低各个中文信息处理系统值间的兼容性,阻碍中文信息处理技术发展的脚步,这是我们不希望看到的。[16]然而在汉语语言文学界,词的概念始终是一个挥之不去却又纠缠不清的问题。制定分词规范首先需要解决词的定义问题,而迄今为止也没有一个公认的、权威的定义表示。主要存在两方面的困难:一方面是单字词和语素之间的边界难以划分;另一方面则是如何确定词与短语或词组之间界限。除此之外,普通群众的语感和对“词”的认识同语言学家们所制定的标准差异较大,对词的认识上存在差异必然会导致自动分词的困难。2.2.2中文分词的切分歧义问题在中文语言文本中,句子都是以连续字符串的形式书写的。由于可能存在歧义问题,因此中文自动分词并不是一个简单的从输入字串中发现合法词的过程。通常一个句子中对应若干个合法词序列,因此,中文分词任务中存在的一个重要的问题——如何在所有这些可能的序列中选出一个正确的结果?歧义切分问题在中文自动分词的任务中是不可避免的,同时这也是中文自动分词中一个比较棘手的问题。中文分词系统对歧义切分字段的处理能力,严重影响着其自身的分词的精度。就形式结构来看,中文切分歧义现象可以大致分为三类,分别是:交集型切分歧义,多义组合型切分歧[17]义和混合型切分歧义。(1)交集型切分歧义交集型切分歧义指的是在分词过程中遇到以下这种情况:在一个字段ABC中,满足AB可以组成一个词,同时BC也可以组成一个词。这里的字母A、B、C分别代表由一个或者多个字组成的字串,其中B被称为“交集字串”,一个字段中存在交9 西安邮电大学硕士学位论文集字串的个数被称为“链长”。例如,在字段“中国产品质量”中,“中国”、“国产”“产品”、“品质”和“质量”分别可以组成一个词,因此该字段存在交集型切分歧义问题,并且该字段中一共存在4个交集字串,分别是“国”、“产”、“品”和“质”,因此“中国产品质量”这个交集字段中的交集字串链长为4。这种交集型切分歧义问题普遍存在月中文文本中,除了上文中的例子还有诸如“好学生”,“昨天下午”等类似的歧义字段。(2)多义组合型切分歧义多义组合型切分歧义指的是,在一个字段AB中,当字段AB、字串A和字串B分别都可以组成一个词,此时字段AB可以称之为多义型歧义字段。例如以下两个短语:①“一/起/交通事故”;②“一起/表演/拉丁舞”。短语①和短语②中均含有“一起”这个字段,然而在短语①中“一”和“起”分别表示独立的词,应该被切分,但是在②中的“一起”才是一个词,中间不应切分。因此,这里的“一起”一个多义组合型歧义字段。此外,诸如“文章”、“研究所”、“学生会”等,也属于多义组合型歧义字段的范畴。(3)混合型切分歧义当字段ABC在上文语境中,同时满足交集型切分歧义和多义组合型切分歧义时,我们就称字段ABC是混合型歧义字段。这种类型的切分歧义在中文分词中也很常见,并且由于它结合了交集型和组合型切分歧义的特点于一身,因此其情形也更为复杂。例如在句子“一家人生生世世在一起”中,“家”、“人”、“家人”、“人生”、“生”、“生生世世”、“世”都可以分别作为词,所以“家人生生世世”这个字段既满足交集型切分歧义又满足多义组合型切分歧义的条件,因此,该字段为混合型歧义字段。针对于混合型切分歧义的问题,在进行分词时一般分为两步,首先解决交集型歧义切分问题,如果无法正确匹配时,再考虑处理组合型歧义切分来解决问题。歧义切分问题普遍存在于中文自动分词任务中,而一个分词系统对该问题的解决能力也直接影响着分词模型精度性能。在实际应用中,可以通过利用多方面的信息,比如上下文信息、语法和语义信息等,来缓解复杂的切分歧义问题。2.2.3未登录词的识别所谓的“未登录词”指的是那些并没有被收录在分词词典中,但却是大家公认的词语的那些词,未登录词主要包括各类专有名词,例如人名、地名、组织机构名称、商标号等,还包括某些术语、缩略词以及新词等等。想要解决这个问题最好的方法是将这些未登录词词条全部收录到分词词典中去,但是这显然是行不通的。因为随时都可能会有新的人名、地名、组织机构名等专有名词的产生,不仅如此,当下我们处于一个互联网十分发达的时代,网民们还会不断创造出一些新词来,诸如最近流行的“尬聊”、“老铁”、“打call”、“戏精”等,把这些词汇统统收录进词典是个不可能10 第2章中文分词简介实现的任务。正是由于未登录词具有种类繁多,形态组合各异,规模宏大的特点,对这些词语的自动辨识,是一件非常困难的事。对未登录词识别带来的分词问题是分词歧义问题的10至20倍。因此未登录词识别问题是中文自动分词任务所面临的最大的挑战。2.3中文分词的研究方法经过国内外众多专家学者的不断研究,目前被提出的中文分词处理方法主要分为[18]基于规则的分词方法、基于统计的分词方法、基于传统机器学习的方法和基于深度学习神经网络的方法。2.3.1基于规则的分词方法基于规则的中文分词方法是分词任务中最传统也是最常见的一种处理办法,这种分词方法也可称为“词典匹配法”或者“机械分词方法”。基于规则的分词方法是按照一定的策略将待分词的中文信息串与一个“足够大的”分词词典中的词条进行配,若能够在词典中找到某个字符串,则表示匹配成功(识别出一个词语)。按照扫描方向的不同,该分词方法可以分为正向匹配法和逆向匹配法;按照不同长度优先匹配的情况,可以分为最大(最长)匹配法和最小(最短)匹配法;而按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。除此之外,还可以将以上的方法相互结合,例如将正向最大匹配法和逆向最大匹配法相结合构成双向最大匹配法等。但由于中文单字成词的特点,一般很少使用最小匹配的方法。通常逆向匹配的切分精度要略高于正向匹配法,并且会降低出现切分歧义现象的概率。在实际应用中,研究人员在此基础上还提出了一些改进方法。[19]马玉春等人在最大匹配法(MM)的基础之上,充分考虑了中文上下文语言习惯,在内存中利用二分法进行分词匹配,从而有效地解决了歧义字段,实验证明分词的准[20]确率和速度有所提高。莫建文等提出一种基于改进的正向最大匹配分词法,通过对原有的双字hash词典进行了研究分析并改进,实验结果在分词速度和精度尤其是对长字词的切分均有所提高,但词典的覆盖面和测试语料的选取对分词结果影响较大。基于规则的方法虽然简单易懂,不依赖于训练数据,可以做到与下游的应用紧密结合(根据应用中词长度的大小来设置匹配的最大长度),但对词表的依赖很大,当出现词表中不存在的新词则无法做到正确切分,因此很难适应开放的大规模文本的分词处理。2.3.2基于统计的分词方法由于自然语言自身的复杂性,人们自己对于某些语句的理解可能都不完全准确,因此想要把自然语言中所有知识全部用规则表示出来并能够被计算机准确理解,这几11 西安邮电大学硕士学位论文乎是一个不可能完成的任务。所以研究人员逐渐将研究重点转移到了基于统计学的分词方法上。基于统计的分词方法主要是依据字与字之间相邻的紧密结合程度来进行分词的。它的基本思想是,如果相连的字在不同的文本中出现的频率越高,就表明相连的这组字很可能就是一个词。因此,我们就可以通过利用字与字出现相邻的频率来反应成词的可靠度,统计语料中相邻共现的各个字的组合的频度,当组合频度高于某一个阈值时,我们就认为这个字组可能会构成了一个词语。我们可以通过统计语料库中所包含的每个字与其它字相邻共现的频率计算出其互信息pxy,Pxy,log2,(2.1)pxpy其中p(x,y)代表字x与字y相邻共现的概率,而p(x)、p(y)分别表示字x和y分别在整个语料库中所出现的概率。互信息值反映了字与字之间关系的紧密程度,互信息的值越大,则这两个字组合成一个词的概率越高,反之亦反。根据互信息计算公式(2.1),当计算出的互信息值p(x,y)大于零时,我们认为字x和字y之间的相关性较高,而当这个互信息值大于某一阈值时,就可判定这两个词可能组合成了一个词;反之,当互信息值p(x,y)小于零时,说明字x与y呈负相关,则这两个字基本上不会构成词;而当p(x,y)值为零时,表示这两个字之间的相关性不明确。基于统计的分词模型主要有N元文法模型(N-gram)和最大熵模型(ME)。吴[21]应良等人提出以N-gram模型为基础,并结合有效的Viterbi搜索算法来实现汉语句[22]子的分词,具有较高的查准率和查全率。杜丽萍等人提出利用互信息改进算法的非监督新词识别方法,有效改善分词系统对网络文本的处理效果。这类方法相比于基于规则的方法而言实用性较好,如果有充分大的训练语料,便会更加容易得到和描述出语言学的规律,并且具有更好的鲁棒性和相合性。但同时也存在一定的局限性,如经常会有精度方面的问题,训练时需要大量且覆盖面广泛的语料库。2.3.3基于传统机器学习的分词方法传统机器学习的方法是把中文分词看作一个序列标注任务来完成的,常用的序列[23]标注模型主要有隐马尔科夫模型(HiddenMarkovModel,HMM)、最大熵马尔可夫模型(MaximumEntropyMarkovModel,MEMM)和条件随机场(ConditionalRandom[24][25]Field,CRF)模型等。Xue提出了基于HMM模型的字标注分词方法。陈莉等在[26]HMM的基础上对算法进行改进,完成了柯尔克孜语的词性标注。朱艳辉等人提出一种条件随机场与领域词典相结合的方法提高分词的准确率和领域自适应性。罗彦彦[27]等在基于字标注的CRFs分词的基础上,提出基于CRFs边缘概率的中文分词方法,有效减少了CRFs的标注错误,提高了CRFs的分词水平。然而传统的机器学习算法12 第2章中文分词简介极依赖于人工设计的特征,而一个有效的特征需要通过大量的实验来验证,因此通常会面临巨大的特征工程挑战。2.3.4基于深度学习的分词方法深度学习(DeepLearning)是机器学习中一种基于对数据进行表征学习的方法,它通过对数据进行多层级的建模来获得关于数据特征的层次结构以及数据的分布式表示。深度学习非常适用于解决自然语言处理领域的一系列难题。使用深度学习给我们带来的好处在于它是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。首先,由于语言本身具有高维特性,传统的自然语言处理系统通常需要复杂的语言学知识再通过手工构造出可供分类器使用的特征,而利用深度学习,则可以利用构造模型来自动学习处用于解决自然语言处理领域的问题所需要的特征。其次,自然语言处理领域中的大量无标签数据一般是可以轻易地获得的,然而有标签数据相对来说比较稀少且昂贵,而通过深度学习的方法,就可以利用获得的大量无标签数据来训练获取特征。再次,自然语言处理领域的很多问题之间往往具有非常强的关联性,比如对于分词、词性标注和命名实体识别的任务,传统的方法往往都会将这几个问题分开一一解决,而忽略了它们之间的关系。但是如果使用深度学习的方法,就可以在特征提取的层面构造出一个统一的模型便于同时处理这些问题,再通过多任务学习的方法在模型中对它们的关联性进行建模,进而获得更好的性能。深度学习当前在NLP领域发展也相当快,机器翻译、问答系统等基本都被深度学习所占领。目前深度学习的自然语言处理的研究主要集中在英文领域,中文领域的研究刚刚起步,在深度学习的英语自然语言处理模型的基础上,提出适用于中文自然语言处理的深度神经网络模型,以及针对该模型的完整的训练方法,该模型不需要添加任何语言学知识或者手工特征设计,可以被用于中文自动分词、词性标注以及命名实体识别[28]等多种中文自然语言处理的任务中,并且具有相对较好的移植性。如Zheng等最早[29]将深层神经网络应用到中文分词和序列标注任务,并取得了较好的结果。2.4本章小结本章首先简单介绍了什么是中文分词,并对中文自动分词的研究意义进行了分析介绍。然后对中文自动分词技术所存在的难点问题进行了分析,主要对中文分词的规范问题、切分歧义问题和未登录词的识别进行了详细介绍。最后,介绍了常用的几种中文自动分词方法,并且说明了它们的工作原理以及各自的优缺点。13 西安邮电大学硕士学位论文14 第3章神经网络模型与关键技术第3章神经网络模型与关键技术3.1词向量近年来深度学习技术取得了突飞猛进的发展,为图像处理技术、语音识别技术和自然语言处理等多种技术提供了一种强大的工具,同时也为这些领域在今后的快速发展提供了新的契机。而深度学习给NLP带来的最大的突破非词向量(Word[30]Embedding)技术莫属。词向量技术是一种可以将字或词转化成为向量表示的技术,并且对于那些语义相近的字词,其表示出来的词向量在向量空间中距离也比较靠近。在自然语言处理应用中,词向量一般会被用来作为深度学习模型的输入特征。因此,自然语言处理模型的最终效果如何在很大程度上取决于输入词向量特征的好坏程度。在各种自然语言处理任务中,词向量是一种表示字词的强大方式。早期处理过程中,通常是将字词转换成离散的单独的符号,例如将“中国”转换为编号为5178的特征,将“北京”转换为编号为3987的特征。这种方法被称作“One-HotEncoding”[31],通常需要将一段文字中的每一个词均转换为一个向量,其中每个向量中只有该词对应位置的元素值表示为1,其余元素均为零,而整段文字则被表示成了一个稀疏矩阵。One-Hot编码的方法因其简单易用,曾经被广泛应用于各种NLP任务中,其中N-gram模型采用的就是这种表示方法。然而这种表示方法存在两个问题,首先,在实际应用中,采用这种稀疏矩阵的表示方法会导致词向量的维数过高,尤其是在待表示的文本数据过大时,很容易导致维度灾难问题;其次,使用One-HotEncoder存在的第二个问题是,在对字词转成符号时,对特征的编码通常是随机的,即任意两个词之间是相互独立的,没有提供任何的关联信息,无法刻画不同字词之间的语义关系,容易造成“词汇鸿沟”现象。例如上文提到的“中国”和“北京”两个词,我们从它们编号5178和3987上看不出任何类似于二者的从属关系或者地理位置关系等的相关信息。[32]于是,Hinton等教授在1986年提出了一种分布式表达(Distributed[33]Representation)方式,相对于One-Hot编码方式的离散性,这种表示法可以将一段文字中的字词转换为连续值的固定长度的向量表示,将所有的这些词向量表示组合在一起形成一个向量空间,而每一个向量可以看作该向量空间上的一个点,并在这个空间内引入“距离”的概念,将其中意思相同或者相近的词映射到向量空间中距离靠近的位置上,于是便可以根据词与词之间的距离来判断它们之间的关系。使用这种表达方法可以有效地克服One-HotEncoding的缺点。[34]Mikolov等人在2013年提出的Word2Vec是目前最流行的词向量模型,它可以15 西安邮电大学硕士学位论文高效地从原始语料中训练处字词空间向量,主要分为两种不同的模型:连续词袋模型(ContinuousBagofWords,CBOW)和连续跳跃元语法模型(skip-gram)。CBOW框架模型原理是根据上下文来预测目标词。如从给定原始语句“陕西省的省会是”,推测出目标词为“西安”。而skip-gram模型与CBOW刚好相反,它是通过使用目标词去反向预测出目标词前后的词。根据Mikolov等人的论文,CBOW模型的训练速度是skip-gram模型的7倍,并且其预测准确率也略好,但是当训练语料库比较小时,skip-gram模型的性能更好,更利于处理罕见字词与短语。3.2循环神经网络循环神经网络(recurrentneuralnetwork,RNN)源自于20世纪80年代,由Saratha[35]Sathasivam提出的霍普菲尔德网络。由于霍普菲尔德网络年已实现,在其提出的时候应用并不广泛,不久后该网络结构于1986年后被全连接神经网络以及一些传统的机器学习算法所取代。然而,传统的机器学习算法非常依赖于人工提取的特征,使得基于传统机器学习的图像识别、语音识别以及自然语言处理等问题存在特征提取的瓶颈。而基于全连接神经网络的方法也存在参数太多、无法利用数据中时间序列信息等问题。最近几年,随着神经网络结构的进步和GPU上深度学习训练效率的突破,更加有效的RNN结构逐渐流行起来,RNN用于挖掘数据中的时序信息以及语义信息的深度表达能力被充分利用,并在语音识别、语言模型、机器翻译以及时序分析等方面实现了突破。RNN是一种主要用来处理和预测序列数据的工具。全连接神经网络或卷积神经网络模型的网络结构都是从输入层到隐含层再到输出层,层与层之间都是全连接或部分连接的,但是层与层之间的节点是无连接的。如果想要预测一个句子的下一个单词是什么,一般需要知道当前单词和它前面的单词是什么,因为句子中前后单词都不是独立存在的。举个例子,假如当前单词是“很”,它前面的单词是“天空”,那么他后面的一个单词是“蓝”的概率将会比较大。而RNN的作用就是为了刻画一个序列当前的输出与其之前信息之间的关系。在网络结构上来看,RNN可以记忆以前的信息,并利用这些信息对后面结点的输出产生影响。也就是说,RNN隐藏层之间的结点是有连接的,RNN隐藏层的输入不只包括输入层的输出,还包括上一时刻隐藏层的输出。16 第3章神经网络模型与关键技术输出层yty0y1y2yt隐藏层ht=h0h1h2h3输入层xtx0x1x2…xt图3.1循环神经网络结构示意图如图3.1所示,RNN具有循环的网络结构。将RNN展开后类似于一个有一系列输入x、隐藏层h和输出y的串联普通神经网络,上一层的网络会传递信息给下一层,其中输入x代表当前时刻的输入特征,它们可以是字特征的独热编码表示,密集特征向量,或者稀疏特征。输入层的向量维度同特征维度值大小相同。输出层y表示在t时刻上的标签的概率分布,它的维度同标签数相同。我们可以通过以下的公式计算RNN隐藏层和输出层的值:htfUWxtht1,(3.1)ytgVht,(3.2)其中U,V和W表示在训练过程中参与计算的权重矩阵;fz和gz分别表示sigmoid和softmax激活函数,计算公式如下所示:1fz,(3.3)z1eezmgzmz。(3.4)ekkRNN这种串联网络结构非常适合处理和预测序列数据,可以解决传统机器学习算法非常依赖人工提取特征的缺点。它的巧妙之处在于其展开后的每一个层级的神经网络的参数都是相同的,因此我们仅仅需要训练一层RNN的参数而不用训练成百上千层神经网络的参数,大大减少了模型训练的工作量,提高了效率。美中不足的是,随着神经网络层数的增加,在参数训练的过程中很可能会造成梯度消失或梯度爆炸的问题,从而导致长距离信息的损失。虽然RNN的结构可以用于处理整个时间序列的信息,其记忆最深的仍然是被最后输入的那些信息,而越早输入的信息强度则越底,最后几乎被忽略不计。这样的缺陷导致了RNN只能处理一些只需要最后输入的少量时序信息即可解决的问题,而当遇到一些上下文情况比较复杂,需要考虑时间序列更早甚至是开头输入的信息的问题时,由于间隔距离太远,RNN难以记忆,因此在实际应用中,RNN能够利用的有效历史信息是十分有限的。17 西安邮电大学硕士学位论文3.3LSTM神经网络模型3.3.1LSTM神经网络模型长短时记忆网络(LongShortTermMemory,LSTM)是由Hochreiter和[36]Schmidhuber教授于1997年提出的一种特殊形式的RNN。LSTM神经网络是专门为了解决长程依赖而设计的,不需要特别复杂的调试超参数就可以默认记住远距离的信息,并且可以减轻因数据量过大而造成的梯度膨胀或消失的问题。不同于传统RNN网络,LSTM的内部结构更复杂,它将RNN中普通神经元替换为内部拥有少量记忆的LSTM细胞单元,每个单元存在4个以特殊方式互相影响的神经网络层,网络模块示意图如图3.2所示。ht-1htht+1×+×+×+tanhtanhtanh××××××σσtanhσσσtanhσσσtanhσxt-1xtxt+1图3.2LSTM神经网络结构示意图LSTM神经网络的关键部分就是记忆单元(如图3.3所示),它通过精心设计的[37]门(gates)结构来决定何时去除或者增加信息到记忆单元中。调节增删细胞状态信息的门结构实质上就是一种可以让信息选择性通过的方法,一般是由一个sigmoid神经网络层和一个逐点乘法组合而成。这种结构之所以被称之为“门”,是因为其中被用于做激活函数的sigmoid全连接神经网络层会输出一个0到1之间的数值,描述每个部分有多少信息量可以通过。可以看出这个结构就类似于一扇门,当门关闭时(sigmoid神经网络层输出为0),代表不允许任何信息通过;当门关闭时(sigmoid神经网络层输出值为1时),就指允许任意信息通过。18 第3章神经网络模型与关键技术htht-1OtxtCtCtCt-1ht-1ftCt-1xtht-1itCt-1xtht-1xt图3.3LSTM记忆单元结构示意图LSTM用来保护和控制记忆单元的门结构一共有三种,分别是“遗忘门”(forgetgates)、“输入门”(inputgates)和“输出门”(outputgates)。其中“输入门”和“遗忘门”非常重要,是LSTM网络的核心结构,共同使LSTM神经网络能够更有效的保存长期记忆。如图5中LSTM单元结构图所示,“遗忘门”ft的作用是让循环神经网络“忘记”之前记忆单元中的那些不重要的信息。它会根据当前时刻的输入信息xt、上一时刻的输出ht-1以及上一时刻的状态Ct-1共同决定去“遗忘”哪一部分的记忆。在循环神经网络忘记了记忆单元中那部分不重要的历史信息后,还需要从当前“输入门”it的输入信息中补充最新的记忆。此时,“输入门”同样会依据当前的输入数据xt、上一时刻的输出ht-1以及上一时刻的状态Ct-1来决定将哪些信息输入到当前时刻的状态Ct中去。通过“遗忘门”和“输入门”的作用,LSTM神经网络有效地决定了被遗忘和被更新的信息,最后“输出门”ot根据LSTM结构计算出来的最新状态Ct、上一时刻的输出ht-1和当前时刻的输入xt来决定该时刻的输出ht。LSTM神经网络单元就是凭借着上述三类门结构对状态信息的储存和修改,来实现长距离记忆的。在t时刻LSTM记忆单元中的信息具体更新方式可以通过以下的几个公式来表示:f=σ(W[h,x+b])(3.5)tft-1tfi=σ(Wh,x+b[])(3.6)tit-1tiCttanhWCht1,xtbC(3.7)19 西安邮电大学硕士学位论文CfCiC(3.8)ttttt1otσWoh,x+bt-1to(3.9)htottanhCt(3.10)其中,表示sigmoid逻辑激活函数;W和b分别表示权重矩阵和偏移向量,下标则代表其相应的所属门类,例如Wf和bf分别表示“遗忘门”结构中的权重矩阵和偏移向量。3.3.2双向LSTM神经网络在经典的循环神经网络中,状态都是从前往后单向传输的。然而,在诸如序列预测、机器翻译等需要上下文环境的情况中,当前时刻的输出不仅仅与之前时刻的状态有关系,还和该时刻之后的状态也相关。当我们处理这类问题时,就需要使用到双向循环神经网络(BidirectionalRecurrentNeuralNetworks,Bi-RNN)。例如,在预测一个语句中所缺失的单词时,我们不仅需要依据上文信息来做出判断,同时也需要考虑下文中的内容来做出合理的预测,这里就体现了双向循环神经网络所具有的优势。[38]Bi-RNN最早是由Schuster和Paliwal提出的,和LSTM在同一年被提出,其主要目的就是为了增加RNN可利用的信息数据,解决其无法利用某个历史输入的未来信息的问题。Bi-RNN网络结构的核心是将两个普通的单向RNN上下叠加在一起组成的,这两个RNN其中一个是随时序正向的,而另一个则是逆着时序的方向反向的,最终的输出是由这两个RNN的状态共同决定的。图3.4给出了Bi-RNN的结构示意图。这样当前时间节点的输出表可以同时充分利用正反两个方向的信息,而不需要像普通RNN那样等到后面的时间节点才能获得到未来的信息。但是这两个不同方向的RNN之间不会共用state,即正向和反向RNN的输出只会传输给相应的RNN,两者之间并不会直接连接。如图3.4所示,每一个时刻的输入会同时分别传递给正向和反向RNN中它们各自根据自己的状态产生输出,最后这两份输出会一起连接到Bi-RNN的输出节点上,共同合成最终的输出结果。由此我们可以看出,虽然Bi-RNN中两个方向的RNN几乎没有交集,但它们共同合成了Bi-RNN的输出结果,因此它们对当前时间节点的输出贡献便可以在训练过程中被计算出来,并通过梯度将它们参数优化到一个合适的值。20 第3章神经网络模型与关键技术y0y1y2yiBackwardstatesForwardstatesx0x1x2…xi图3.4双向循环神经网络结构示意图双向循环神经网络的每个RNN单元可以是传统的RNN,也可以是LSTM单元,思路是一致的。当我们将RNN单元替换为LSTM单元后,就构成了一个双向LSTM神经网络(BidirectionalLongShortTermMemory,Bi-LSTM),这样Bi-LSTM网络结构就同时拥有双向循环神经网络和LSTM网络的优点,大大提高了网络结构的性能。3.3.3深层LSTM神经网络深层LSTM神经网络是LSTM神经网络的另外一种变体,其网络结构示意图如图3.5所示。深层LSTM神经网络是为了进一步增强模型的表达能力而将每一个时刻上的LSTM单元循环体重复了多次构成的。即我们可以在一层Bi-LSTM上再叠加了多层Bi-LSTM,并使上一层Bi-LSTM的输出作为下一层Bi-LSTM的输入,以此类推,这样便可以进一步抽象提炼特征。其中每一层循环体中的参数一致,而不同层中的参数可以不同。当将这种神经网络模型用于分类任务时,我们可以在最后一层Bi-LSTM的输出序列连接到一个全连接层,最后通过Softmax层进行分类输出。y0y1y2yt…x0x1x2…xt图3.5深层循环神经网络的结构示意图21 西安邮电大学硕士学位论文3.4条件随机场模型条件随机场模型(ConditionalRandomFields,CRF)是机器学习领域中的一种用于序列标记的无向图判别模型,最早由JohnLafferty提出,主要用于NLP技术领域的分词、文本标注和命名实体识别等应用场景。CRF模型是基于词的概念来解决分词问题,将分词问题转化为分类问题。通过定义每个字的词中的信息(每个字在单词中的位置)来确定序列的预测结果。图3.6为链式CRF的结构示意图。yt-1ytyt+1xt-1xtxt+1图3.6链式CRF结构图对于一般链式结构的CRF,当给定观察序列x=(x1,x2,…xn)时,那么其对应的标注序列y=(y1,y2,…yn)的概率可以定义为:N1py|x=expψy,ytt+1fyt(3.11)Zt=1其中ψy,y表示观察序列y的标记位置t与t+1之间的转移特征函数,而y为tt+1t观察序列y在位置t上的状态特征函数。表3.1词位标注集的定义标注集标记定义2词位B,N开始,其他4词位B,M,E,S开始,中间,结束,单字词6词位B,B1,B2,M,E,S开始,第二字符,第三字符,中间,结束,单字词通常CRF使用的词位标注类型主要有三种,分别为2词位、4词位及6词位,在表3.1中列出了三种标注集的定义。一般来说,标记的数量越多,得到的语义规则也就越全面。使用4词位可以总结出哪些字是单字组成的词,哪些字经常被用作一个词的开始,哪些字经常作为一个词的结尾。但是当仅仅用2词位表示时,我们只能总结出哪些字是经常用作词首的字,从使用的角度看,这样的总结的是不够全面额。而6词位标注集比较适合用来分割较长的词,它可以在4词位标注集的基础上同时归纳出哪些词经常作为词的第二个字符或者第三个字符出现,但是在实际应用中似乎并没22 第3章神经网络模型与关键技术有固定作为一个词第二或第三字符的字。因此,本文使用的是4词位标注集,即使用标签“B”,“M”,“E”和“S”分别表示一个词的开始,中间,结束以及单字词。3.5本章小结本章节主要对几种建立基于深度学习中文自动分词模型所需要的一些关键技术和神经网络模型进行了介绍。主要介绍了循环神经网络的基本原理及其应用,并分析了RNN的优势和弊端。接着3.3节中介绍了基于RNN的网络变体LSTM神经网络,可以在一定程度上解决RNN在序列预测过程中的缺陷问题。并对词向量表示方法和条件随机场模型进行了简单的说明介绍。23 西安邮电大学硕士学位论文24 第4章系统架构与实现第4章系统架构与实现4.1系统整体框架基于神经网络的中文分词系统通常由三大部分组成。其中,第一部分为字嵌入层,中间部分为一系列的神经网络层,最后一部分为标签推理层。图4.1描述了中文分词系统模型的整体框架。该分词系统的主要工作流程如下:首先,将原始文本语料集处理成无标注文本,并将每个字之间用空格隔开;其次,在字嵌入层将预处理后的中文[39]字符使用深度学习词向量训练工具Word2Vec进行训练,得到每个字符的语义表示向量;然后,再根据输入的文本语料从查询表中提取出各个字的语义向量并输入给LSTM神经网络层,计算获得其上下文关系表示向量;最后,再将这些上下文关系表示向量作为特征通过CRF标签推理层判断预测得出最终的标签分类结果。LSTMhi-2hi-1hihi+1hi+2LSTMhi-2hi-1hihi+1hi+2hi-2hi-1hihi+1hi+2yt=W*ht+bCRFSSBME图4.1系统整体框架25 西安邮电大学硕士学位论文在神经网络的训练过程中,为了防止过拟合的发生,我们在将字向量输入到[40]LSTM神经网络之前应用了一个dropout层。Dropout是Srivastava等在2014年提出的一种防止神经网络模型过拟合的技术。Dropout是指在深度学习网络的训练过程中,按照一定的概率从神经网络中暂时丢弃一部分神经网络单元,当测试时再将在网络中所有的节点恢复,其训练和测试过程如图4.2所示。在训练过程中,我们以概率p的形式将每一个隐藏层神经元都进行激活,而等到测试时,所有的隐藏层神经元都将被激活,但每一个神经元的输出都要乘以概率p。这样可以确保对于任何隐藏单元,其预期的输出(在训练时用于减少神经元的分布)与测试时的实际输出相同。经过交叉验证,当dropout率等于0.5的时候dropout随机生成的网络结构最多,此时的效果最好。文中实验所采用的dropout率即为0.5。wpw出现概始终率为p出现(a)训练过程(b)测试过程图4.2dropout示意图4.2Bi-LSTM+CRF模型通过第三章中对双向LSTM神经网络的描述和介绍,我们可以推测出Bi-LSTM神经网络比较擅长从嘈杂的文本中识别模式。但神经网络本身并不能将序列标注视为结构化预测问题,它们通常是孤立地预测每个单词的标签,而不是将其作为序列的一部分来预测。尽管这种方法在一些简单的标记问题上取得了成功,但在处理输出标签之间有强烈关系的数据时,效果还是有限的。在实际的序列标注任务中,数据量的大小和质量也会严重影响模型训练的效果。而CRF模型却可以联合预测相邻的标签序列,但它需要专门的手工特征来提高预测的准确率。因此,我们在Bi-LSTM神经网络层之后添加一个CRF推断层构成了Bi-LSTM与CRF相结合的模型,模型结构如图4.3所示。该模型中的Bi-LSTM神经网络层有效地解决了输入序列的特征提取的问题,可以识别输入序列的特征模式;同时CRF层通过一个状态转移矩阵作为参数,可以充分利用相邻标签之间的依赖关系来预测当前的标签,实验表明添加CRF层后的模型性能更好。26 第4章系统架构与实现SSBMEBackwardForward图4.3Bi-LSTM+CRF模型结构示意图对于一个给定的包含n个字的句子X=x1,x2,…xn,每个字都用一个d维向量来表示。使用一个正向的LSTM神经网络可以计算出句子X在t时刻以前的历史信息的特征表示向量h,同理,当我们同时使用一个反向的LSTM神经网络逆序读这个句子Xt时,便可以计算出句子X在t时刻后的未来信息的特征表示向量h。通过3.3.2节的t介绍可知,Bi-LSTM神经网络实际上就是由一个正向和一个反向LSTM神经网络上下叠加在一起组成的,其输出结果则是由这两个循环神经网络的输出状态共同决定的。因此,句子X完整的特征表示向量可以表示为:h=[h;h]。h向量既包含了ttttt时刻过去的信息,同时也包含了t时刻将来的信息,这将有效提高神经网络推测出正确的标签结果的准确率。实验过程中,我们用P来表示Bi-LSTM神经网络学习出来的打分矩阵,矩阵大小为n×m,其中m代表标记类型种类数,P指的是在一个输入句子中,第i个词在i,j第j个tag标记上的可能性(打分)。除此之外,Bi-LSMT与CRF的混合模型还需要一个标记之间的状态转移过渡矩阵作为CRF层的参数,我们用字母A来表示,A表i,j示从标记i转移到标记j的可能性。最终预测标签序列Y=y1,y2,…yn的概率定义如下:sX,YepY|X=,(4.1)sX,yy∈YeX其中s(X,Y)为标签序列Y的打分:0nsX,YAy,y+Pi,y,(4.2)ii+1ii=0i=0在训练过程中,我们将正确的标签序列的对数概率最大化:sXy(,)logpYX|sXY,logeyYX,(4.3)sXY,logaddsXY,.yYX27 西安邮电大学硕士学位论文其中,YX表示句子X中所有可能的tag标记集合。显然,从上面的公式可以看出,我们促使我们的神经网络产生一个更有效的输出标签序列。在解码时,我们通过下面的公式找到得分最高的y*即为最终预测得到的输出序列*y=argmaxpY|X()。(4.4)yYX4.3双层Bi-LSTM+CRF我们在一层Bi-LSTM神经网络上又叠加了一层Bi-LSTM网络,并使上一层Bi-LSTM网络层的输出作为下一层Bi-LSTM网络层的输入,这样便构成了一个双层Bi-LSTM神经网络模型。同Bi-LSTM+CRF自动分词模型类似,我们将生成的双层Bi-LSTM+CRF网络模型与CRF模型前后连接组成了双层Bi-LSTM+CRF网络分词模型,该模型的结构如图4.4所示。通过将两层Bi-LSTM神经网络层上下叠加,可以提升神经网络的表征性能,即更有利于从有限的输入信息中抽象并提炼出更多的有用特征,从而便可以进一步提升模型自动分词的性能。但是随着神经网络层数的逐渐叠加,隐藏层中的参数个数也将随之成倍数增加,因此将会在一定程度上加大神经网络的训练难度,同时训练时间也将会大大增长。SSBMEBackwardForwardBackwardForward图4.4双向Bi-LSTM+CRF模型结构图28 第4章系统架构与实现4.4本章小结本章节主要介绍了基于LSTM神经网络与CRF相结合的自动模型的结构。首先,对本文提出的中文自动分词系统的整体框架做了详细的描述说明。然后,详细介绍了该自动分词系统中的核心部分——Bi-LSTM+CRF模型和双层Bi-LSTM+CRF模型,并分别分析说明了两者优势与不足。29 西安邮电大学硕士学位论文30 第5章实验结果与分析第5章实验结果与分析5.1实验数据本文采用了2014年《人民日报》语料作为实验数据集。在实验过程中,先将语料中不足5个字组成的句子丢弃,在剩余的语料集中随机抽取了10%作为测试语料,剩下的90%作为训练语料。此外,本文还采用了第四届自然语言处理与中文计算会议(NLPCC2015)提供的微博评测语料以同样的训练方式进行了对比实验。5.2实验环境本论文的分词系统是基于开源深度学习框架TensorFlow1.0开发的。由于实验所用的语料库数据量比较大,并且在训练语言模型的过程中计算非常复杂,为了加快模型的训练速度,本课题的所有试验均是在一台装有NvidiaTeslaK80显卡的GPU机器上进行的。5.3实验评测标准本文在进行中文分词性能评估的实验过程中,采用的评价指标为准确率(precision,P),召回率(recall,R)和综合评价指标F值。下面的公式分别给出了P,R和分词F值的具体计算方法:分词模型正确识别的词语总数P100%(5.1)分词模型识别出的词语总数分词模型正确识别的词语总数R100%(5.2)测试语料中的词语总数2PRF100%(5.3)PR5.4实验结果分析本文以单层Bi-LSTM和CRF的混合模型作为基础模型,从不同角度讨论了影响LSTM神经网络与CRF混合模型中文分词结果的多种因素。5.4.1字向量维度及隐藏层层数对分词结果的影响在基于单层Bi-LSTM神经网络和CRF混合模型的基础上,我们探讨了通过31 西安邮电大学硕士学位论文Word2Vec训练得到不同维度的字嵌入向量以及线性隐藏层层数不同的情况下对分词结果的影响,实验结果如图5.1所示,图中以分词结果F值作为比较依据。99.300%99.000%98.700%98.400%98.100%h=10097.800%值h=200F97.500%h=30097.200%h=40096.900%96.600%h=50096.300%96.000%50100200300400字嵌入向量维度图5.1字嵌入维度及隐藏层数对分词结果的影响(《人民日报》语料)通过观察图5.1中的曲线可以看出,随着字嵌入向量维度d值的增大,分词结果F值也呈增长趋势,并且在隐藏层层数h=100时尤为明显;当d≥200时,随维度的持续增大,F值的增长率开始逐渐减缓,基本维持在一条水平线上。同时,我们不难发现,通过增加线性隐藏层层数h也可以使分词结果F值有所提升;然而,当h值增长到一定程度时,F值会基本上趋于收敛。但是随着字嵌入维度和隐藏层层数的增加,神经网络的训练难度却会成倍数增大,一方面训练时间加倍,另一方面可能会使得模型过拟合于训练语料,从而减弱泛化能力。5.4.2不同语料库下模型分词性能的对比在相同的实验环境下,我们在NLPCC2015中文微博文本语料集上对基础模型的分词性能做了测试,并与在2014年《人民日报》语料下的分词结果进行了对比,实验结果如图5.2所示。32 第5章实验结果与分析99.50%99.07%99.02%99.04%99.00%98.50%98.00%97.50%97.27%97.15%97.21%97.00%96.50%96.00%准确率召回率F值Bi-LSTM+CRF(人民日报)Bi-LSTM+CRF(NLPCC)图5.2不同语料集上模型性能比较从图5.2的实验结果中可以看出,Bi-LSTM神经网络与CRF的混合模型在2014年《人民日报》语料上性能较好,分词结果F值最高能达到99.04%。然而,由于微博文本与传统文本不同,存在很多的自身特点,比如存在着一些新型网络用词和口语化词汇,并且经常会使用很多缩略的表达方式,同时还包含很多网址、昵称、话题或表情等由符号组成的信息,这些非结构化的数据大大增加了微博语料中文分词的难度。因此,该模型在NLPCC2015中文微博文本语料的分词性能比《人民日报》语料降低了约1.83个百分点。[41]尽管如此,我们的Bi-LSTM+CRF分词模型性能仍然比传统机器学习表示方法好的多,分词结果F值比其高出了约1.43个百分点。并且我们分词模型性能以0.45[42]个百分点的优势战胜了NLPCC2015微博分词任务比赛中的冠军BocenNLP。表5.1中列出了在基于NLPCC2015中文微博语料集上,Bi-LSTM+CRF分词模型的性能,传统机器学习表示方法分词性能以及BocenNLP分词系统性能的对比结果。表5.1不同分词方法实验结果对比分词模型P(%)R(%)F(%)Bi-LSTM+CRF97.1597.0597.10表示学习95.4895.8695.67BocenNLP96.5696.7596.65由表中结果可以看出本文的分词模型性能更好,说明了LSTM神经网络能够自动抽取出比简易特征工程更好的交互特征,并在不同数据集上都能取得较好的分词效果,具有一定通用性。5.4.3有无CRF层对分词结果的影响实验过程中,为了研究CRF层对模型分词性能产生的影响,我们还单独使用33 西安邮电大学硕士学位论文LSTM神经网络模型对人民日报及NLPCC2015微博语料集进行了分词实验,并与添加了CRF层的分词系统的分词结果进行了对比。从表5.2中列出的对比结果我们不难看出,当给分词系统模型最后加入CRF标签推理层后,可以在一定程度上提高该分词模型的分词准确率。通过对实验结果的分析我们发现产生这个现象的原因是由于LSTM神经网络输出的是每个字可能的标签分数,再通过softmax函数选择出得分最高的标签作为该字的最终输出标签。但是这样可能会导致分词标签分类错误,例如在标签“B”的后面又输出一个“B”标签。而这种错误在加入了CRF层之是有希望可以避免的,因为CRF的特征函数会对给定序列观察学习各种特征,这些特征就是在限定窗口下的各种词之间的约束关系,有了这些约束关系,上述类型的错误便不会出现,从而大大提高模型的分词性能。表5.2CRF层对模型分词结果的影响分词模型人民日报NLPCCBi-LSTM96.90%96.06%Bi-LSTM+CRF98.87%96.72%5.4.4神经网络结构对分词的影响本文设计了多种不同的网络结构模型研究了字符上下文信息以及使用深层LSTM神经网络对中文分词结果F值的影响。网络结构模型分别为:单层正向LSTM+CRF模型;双层正向LSTM+CRF模型;单层反向LSTM+CRF模型;双层反向LSTM+CRF模型;单层双向LSTM+CRF模型;双层双向LSTM+CRF模型。实验结果如表5.3所示,表中所列字嵌入向量维度是以d=200时的数据作参考,线性隐藏层层数以h=400时的数据作为参考。表5.3不同网络结构模型在测试集上的对比结果人民日报NLPCC模型类别P(%)R(%)F(%)P(%)R(%)F(%)单层正向LSTM+CRF96.3895.5595.9695.6695.6295.64双层正向LSTM+CRF97.4797.0297.2496.4396.4996.46单层反向LSTM+CRF98.2298.2898.2595.9895.7195.85双层反向LSTM+CRF98.4098.4698.4396.4196.2196.31单层双向LSTM+CRF98.8898.8698.8796.6896.7596.72双层双向LSTM+CRF99.0298.9798.9997.0597.0297.04从表5.3的对比结果可以看出,单独使用反向LSTM神经网络比正向LSTM神经网络在中文分词系统中起到了更好的作用,而使用双向LSTM神经网络与CRF的相结合的分词模型分词精度更高。也就是说,当同时将字符过去和将来的信息输入神经网络时,对分词结果F值有所明显的提升,这意味着整个句子的语义信息在一定程度34 第5章实验结果与分析上影响着中文分词的结果。从另一个角度观察表中的结果,我们发现,在多加了一个LSTM神经网络层后,双层LSTM神经网络能够进一步提取出字符之间更深层次的交互特征,因此相对于使用了单层LSTM网络模型的分词系统的精度有一定程度上的提高。5.5本章小结本章节主要对基于神经网络的中文自动分词模型的实验结果进行了介绍和分析。首先,介绍了本文实验过程中所使用的实验语料库和实验中对中文分词结果的评测标准。然后,在5.4小节中分别从字向量维度、语料库类型、神经网络结构等多个角度,分析和讨论了影响LSTM神经网络与CRF混合模型中文自动分词结果的因素。35 西安邮电大学硕士学位论文36 第6章结论与展望第6章结论与展望6.1工作总结自然语言处理技术是一个信息时代最重要的技术之一,简言之,就是一种让可以计算机理解人类语言的技术。而中文自动分词技术是自然语言处理中的一个比较基础的模块,也是其他中文信息处理(如问答系统、情感分析、自动文本摘要等)前期文本处理的关键环节,其性能好坏直接影响着后续信息处理的结果。然而由于中文自身的复杂性,字与字之间没有像英文词语之间的固定的自然分界符,因此中文分词技术一直以来也是中文信息处理任务的难题。本文详细介绍了一些中文自动分词的基础知识,包括目前国内外的研究现状,中文分词的研究背景和意义,中文分词的难点分析以及常用的几类中文自动分词方法,并介绍了几种已经存在的经典的自动分词系统,如:北航提出的CDWS书面汉语自动分词系统和CASS汉语自动分词系统、山西大学计算机系研制出一种ABWS自动分词系统、清华大学研究出的SEG和SEGTAG分词系统和中科院计算所研发出的ICTClAS分词系统等。此外,本文对实验所用的相关技术和神经网络模型进行了介绍。主要介绍了循环神经网络模型RNN以及RNN的变体LSTM、双向LSTM和深层LSTM网络模型,和CRF条件判别模型。RNN的出现,基本解决了传统机器学习算法非常依赖人工提取特征的缺点,而LSTM的提出,解决了RNN无法实现的长程依赖问题,并且在一定程度上减轻了因数据量过大而造成的梯度膨胀或消失的问题。在网络模型的最后加入CRF判别层,可以使得每个词的标签不再是孤立地预测,而不是作为序列的一部分来预测,提高了分词系统的精度。最后,本文通过对分词系统的实验结果进行了分析和总结,主要得出了以下几点结论:(1)随着字嵌入向量维度值的增大,分词结果F值也呈增长趋势;通过增加线性隐藏层层数也可以使分词结果F值有所提升;但是当维度或层数增加到一定程度时,F值会基本上趋于收敛。(2)Bi-LSTM神经网络与CRF的混合模型在2014年《人民日报》语料上比NLPCC2015微博语料的性能更好,但是该模型在NLPCC语料上的性能仍然好过NLPCC2015微博分词任务比赛中的冠军BocenNLP。(3)添加了CRF判别层的模型中更有利于学习出给定序列的各种特征,即提取出限定窗口下的各种词之间的约束关系,有了这些约束关系,可以大大提高模型的分37 西安邮电大学硕士学位论文词性能。(4)当LSTM神经网络层数增加时,双层LSTM网络能够提进一步取字符之间更深层次的交互特征,因此相对于单层LSTM模型的性能有一定的提高。6.2工作展望实验结果表明将LSTM神经网络与CRF模型相结合实现中文自动分词系统的方法是可行的,并且取得了比较好的结果。但是仍然存在需要改进的地方,未来的工作主要将尝试以下几个方面:(1)字嵌入向量作为分词模型最基础的一步,对整个分词系统的性能具有重要的影响,如果在一个更大规模且具有一般性的语料集上训练获取更优的字嵌入向量可能会进一步提升分词模型的性能。(2)尝试将其他深度学习神经网络模型用于中文自动分词系统,如卷积神经网络(ConvolutionalNeuralNetwork,CNN)和注意力模型(AttentionModel)等。已[43][44]有实验正明AttentionModel在文本分类中已经取得了成效。(3)尝试使用深度学习的方法,在特征提取层面构造出一个可以同时处理分词、命名实体、词性标注的任务的多任务模型,通过在模型中对它们的关联性进行建模,从而获得更好的性能。38 参考文献参考文献[1]鲁骁.基于条件随机场的中文分词技术的研究与实现[D].华中科技大学,2011.[2]梁南元.书面汉语的自动分词与一个自动分词系统—CDWS[J].北京航空学院学报,1984(04):97-104.[3]揭春雨,刘源,梁南元.汉语自动分词实用系统CASS的设计和实现[J].中文信息学报,1991,5(4):27-34.[4]白振田.基于向量空间模型与规则匹配相结合的文本层次分类系统的研究[D].南京农业大学,2006.[5]朱世猛.中文分词算法的研究与实现[D].电子科技大学,2011.[6]文庭孝.汉语自动分词研究进展[J].图书与情报,2005(5):54-63.[7]刘群,张华平,俞鸿魁,等.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429.[8]张华平,刘群.基于N-最短路径方法的中文词语粗分模型[J].中文信息学报,2002,16(5):1-7.[9]国家技术监督局.(GB12200.190)6.汉语信息处理词汇01部分:基本术语[S].北京:中国标准出版社,1991.[10]]徐冰.汉语分词在机器翻译评价中的影响[A].哈尔滨工业大学计算机科学与技术学院、清华大学智能技术与系统国家重点实验室.语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C].哈尔滨工业大学计算机科学与技术学院、清华大学智能技术与系统国家重点实验室:,2003:6.[11]王连喜.自动摘要研究中的若干问题[J].图书情报工作,2014,58(20):13-22.[12]井晓阳,罗飞,王亚棋.汉语语音合成技术综述[J].计算机科学,2012,39(S3):386-390.[13]KüblerS,McdonaldR,NivreJ.Synthesislecturesonhumanlanguagetechnologies[J].2008.[14]于根.基于信息抽取问答系统的研究与实现[D].西安邮电大学,2016.[15]揭春雨.“信息处理用现代汉语分词规范”的若干问题探讨[J].中文信息学报,1989,3(4):33-41.[16]刘,开瑛.中文文本自动分词和标注[M].商务印书馆,2000.[17]侯敏,孙建军.汉语自动分词中的歧义问题[J].语言文字应用,1996(1):68-72.[18]宗成庆.统计自然语言处理[M].北京:清华大学出版社,2008.[19]马玉春,宋瀚涛.Web中文文本分词技术研究[J].计算机应用,2004,24(04):134-135.[20]莫建文,郑阳,首照宇,张顺岚.改进的基于词典的中文分词方法[J].计算机工程与设计,2013,34(05):1802-1807.[21]吴应良,韦岗,李海洲.一种基于N—gram模型和机器学习的汉语分词算法[J].电子与信息39 西安邮电大学硕士学位论文学报,2001,23(11):1148-1153.[22]杜丽萍,李晓戈,于根,等.基于互信息改进算法的新词发现对中文分词系统改进[J].北京大学学报(自然科学版),2016,52(1):35-40.[23]于江德,樊孝忠,尹继豪.隐马尔可夫模型在自然语言处理中的应用[J].计算机工程与设计,2007,(22):5514-5516.[2017-08-06].DOI:10.16208/j.issn1000-7024.2007.22.019[24]XUEN.Chinesewordsegmentationascharactertagging[J].ComputationalLinguisticsChineseLanguageProcessing,2003,8(1):29-48.[25]陈莉,古丽拉·阿东别克.基于HMM的柯尔克孜语词性标注的研究[J].计算机工程与应用,2014,50(15):120-124..[26]朱艳辉,刘璟,徐叶强,田海龙,马进.基于条件随机场的中文领域分词研究[J/OL].计算机工程与应用,2016,52(15):97-100.(2016-04-14)[2017-08-06].[27]罗彦彦,黄德根.基于CRFs边缘概率的中文分词[J].中文信息学报,2009,23(05):3-8.[28]ZhengX,ChenH,XuT.DeeplearningforChinesewordsegmentationandPOStagging[C]//ProcofConferenceonEmpiricalMethodsinNaturalLanguageProcessing.2013:647-657.[29]CollobertR,WestonJ,BottouL,etal.Naturallanguageprocessing(almost)fromscratch[J].JournalofMachineLearningResearch,2011,12:2493-2537.[30]WordEmbedding[CP/OL]https://en.wikipedia.org/wiki/Word_embedding/.[31]LandauerTK,FoltzPW,LahamD.Anintroductiontolatentsemanticanalysis[J].Discourseprocesses,1998,25(2-3):259-284.[32]HintonGE.LearningDistributedRepresentationsofConcepts//Procofthe8thAnnualConferenceoftheognitiveScienceSociety.Amherst,USA,1986:1-12.[33]BengioY,SchwenkH,SenécalJS,etal.Neuralprobabilisticlanguagemodels[M]//InnovationsinMachineLearning.Berlin:Springer,2006:137-186.[34]MikolovT,ChenK,CorradoG,etal.EfficientEstimationofWordRepresentationsinVectorSpace[J].ComputerScience,2013.[35]SathasivamS.LogicLearninginHopfieldNetworks[J].ModernAppliedScience,2008,2(3):57.[36]CollobertR,WestonJ,BottouL,etal.Naturallanguageprocessing(almost)fromscratch[J].JournalofMachineLearningResearch,2011,12:2493-2537.[37]Longsshort-termmemory[CP/OL].https://en.wikipedia.org/wiki/Long_short-term_memory/.[38]SchusterM,PaliwalKK.Bidirectionalrecurrentneuralnetworks[M].IEEEPress,1997.[39]word2vec[CP/OL].https://code.google.com/p/word2vec/.[40]SRIVASTAVAN,HINTONG,KRIZHEVSKYA,etal.Dropout:asimplewaytopreventneuralnetworksfromoverfitting[J].TheJournalofMachineLearningResearch,2014,15(1):1929-1958.[41]刘春丽,李晓戈,刘睿等.基于表示学习的中文分词[J].计算机应用,2016,36(10):2794-2798.40 参考文献[2017-08-16].[42]MinK,MaC,ZhaoT,etal.BosonNLP:AnEnsembleApproachforWordSegmentationandPOSTagging[M]//NaturalLanguageProcessingandChineseComputing.SpringerInternationalPublishing,2015:520-526.[43]YangZ,YangD,DyerC,etal.HierarchicalAttentionNetworksforDocumentClassification[C]//ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics:HumanLanguageTechnologies.2017:1480-1489.[44]PappasN,Popescu-BelisA.MultilingualHierarchicalAttentionNetworksforDocumentClassification[J].2017.41 西安邮电大学硕士学位论文42 攻读学位期间公开发表的论文攻读学位期间公开发表的论文[1]MenggeWang,XiaogeLi,ZhengWei,ShutingZhi,andHaoyueWang.2018.ChineseWordSegmentationBasedonDeepLearning.[C]//InProceedingsofthe201810thInternationalConferenceonMachineLearningandComputing(ICMLC2018).ACM,NewYork,NY,USA,16-20.DOI:https://doi.org/10.1145/3195106.319513543 西安邮电大学硕士学位论文44 致谢致谢论文写到致谢,也就意味着我的三年硕士研究生生涯已然接近尾声。而此时的我坐在电脑前,回首在西安邮电大学度过的这三年求学经历,各种酸甜苦辣的往事仍旧历历在目,百感交集汇于一心,但心中充盈最多的还是感激之情。感激每一位在我身边指引我、鼓励我、帮助我、陪伴我度过这三年时光的每一位老师、同学、朋友和亲人,是他们给了我不畏困难,砥砺前行的勇气。我还要感谢我的母校——西安邮电大学。感谢她给了我再一次迈入校园的机会,感谢她给我提供了如此广阔的学习平台,感谢她让我可以不断地充实自己,提升自己的能力。我要特别感谢我的研究生导师李晓戈教授。在导师名单刚刚公布之时,我曾通过邮件与李老师联系,尚未谋面,就从李老师回复的邮件中感受到了李老师对待工作的认真和对学生负责的态度。初入实验室时,由于不是科班出身,对计算机理论基础掌握的不够扎实,对自己未来的研究方向更是一窍不通,是李老师亲自为我挑选了学习资料和参考文献,将我带入了门。在后期的学习过程中,他仍然会为我们提供最有价值的学习材料。在对待学术方面,李老师始终保持着严谨的态度。无论是在实验上还是在论文的撰写上,他都给了我许多具有建设性的意见,并在我有所困惑的时候一遍遍耐心的为我答疑解惑。三年来我所取得的进步与收获都离不开李老师的教导与鞭策。而在对待生活上,李老师既乐观又幽默。他的这种生活态度潜移默化的感染着实验室里的每一个人,时常让实验室中充满欢乐,让我们可以在轻松愉悦的环境下读书学习。接着,我要感谢实验室里的每一个人,我的师兄、师姐、师弟、师妹和同门。是他们让我快速融入了FZ116这个大家庭,是他们让我慢慢适应了研究生的生活。当我在实验过程中碰到难题时,是他们毫不犹豫的帮我,直到问题被解决为止,并且不求回报。也是他们,在我失落失意时,给我精神上的鼓励与支持。他们就像亲人一样围绕在我身边,让我感到十分温暖。感谢和我朝夕相处的舍友,十分怀念曾经和你们一起上课、一起逛街、一起旅行的日子。感谢你们对我的陪伴,伤心时为我分担忧愁,得意时和我分享快乐,让我的研究生生活更加丰富多彩。我还要感谢我的父母。感谢他们把我带到这个世界上来,并含辛茹苦的把我抚养长大。感谢他们一直以来对我的支持与鼓励,并尊重我的选择,从来不会勉强我做不喜欢的事。他们是我最强大的后盾,是我精神上的支柱,帮助我度过了一个又一个的难关,不断前行。最后,真诚的感谢每一位评审论文的专家!45
此文档下载收益归作者所有