浅论基于统计的开放式汉语自动分词

浅论基于统计的开放式汉语自动分词

ID:34826748

大小:1.17 MB

页数:44页

时间:2019-03-11

浅论基于统计的开放式汉语自动分词_第1页
浅论基于统计的开放式汉语自动分词_第2页
浅论基于统计的开放式汉语自动分词_第3页
浅论基于统计的开放式汉语自动分词_第4页
浅论基于统计的开放式汉语自动分词_第5页
资源描述:

《浅论基于统计的开放式汉语自动分词》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、大连理工大学硕士学位论文基于统计的开放式汉语自动分词姓名:关宏超申请学位级别:硕士专业:计算机应用技术指导教师:黄德根20020301摘要汉语自动分词是中文信息处理中的重要环节。基于统计的汉语自动分词方法存在训练数据稀疏的问题,而人工标注工作量过大又制约着语料库规模的进一步扩大。本文在基于统计的汉语自动分词的基础上,引入开放学习机制,通过有监督和无监督相结合的学习方法,建立包含可信度修正和部分三元语法信息的多元分词模型。然后讨论了切分算法和人机交互等几个实现中的具体问题。通过实验确定模型参数和阈值。实验结果表明,引入开放学习机制的分词模型,闭式

2、分词正确率达到99.07%和开式分词正确率达到98.08%,同时增强了分词系统的适应性和消歧能力。关键词自然语言处理:汉语分词;语料库;语法模型;开放学习AbstractTheChiFleseautomatiowordsegmentationisanimportantpartintheChineseinformatiOllprocessing.Themethodbasedonstatisticshastheproblemoftrainingdata’srarefaetion.andwhatrestrictsthemoreprogressofco

3、rpusisthetoolargeworklpad02manualtagglng.RefertoChineseautomaticwordsegmentationbasedonstatistics,thispaperimportsthemechanismofopenlearning,andusesthemethodofsupervisedanduilsupervisedlearning.Thewordsegmentationmodelincludescredibi[ityrevisingandpartialtri—graminformation.

4、Thenitdiscussesseveralproblemssuchassegmentationalgorithmandhuman—computerinterfaceduringsystemimplementing.Theargumentsandthresholdsofthemodelaredeterminedthroughtheexperiments.Thetestresultshowsthat,withtheopenlearningmodel,theclosesegmentationaccuracycanreach99.07%whileth

5、eopenone98.08%,andthereisagoodadaptabilityanddisambiguationabilityofthesystem.KeyWordsNaturalLanguageOorpus:GrammarModeI:OpenProcessing:ehineseSegmentalionLearning基于统计的开放式汉语自动分词0.引言0.1.问题的提出自然语言处理是当前计算机领域的一个研究热点。语言作为交流工具,在人类活动中有着举足轻重的作用,因此,人们在大量应用计算机来替代自己的工作的同时,也期待计算机在自然语言的处

6、理上能接近甚至达到人的水平。自然语言处理(NLP)的目标是使计算机在各种各样的自然语言交流中成为流利的对象。显然,如果没有足够深刻的领域知识。计算机不可能满足人类的要求。自然语言处理作为人工智能的一个分支,在自然语言人机接口、机器翻译、文摘生成等等方面有很多的工作都正在进行。111汉语自动分词是中文信息处理中的重要环节。汉语是以字而不是词作为语言的基本构造单位,尤其是在书面汉语中,词与词之间完全缺乏形态上的晃限。汉语自动分词在中文信息处理的以下方面都有很重要的意义:1同音字的据音辨字;2多音字的据字辨音:3汉字的简一繁体转换;4信息检索和信息摘

7、录;5文本分类和自动文摘:6汉字的侦错与纠错:7词语的计詹分析:8自然语言理解。【21自然语言理解是语言处理的最终目标,而汉语分词处于词法、句法、语义等语言层次的最低层,是中文信息处理中是基本也是很重要的基础环节。汉语口语中的音节变化,对词的界定有一定的帮助,但由于涉及语音处理等问题,我们暂不做研究。本文讨论的汉语自动分词问题仅指书面汉语领域的研究。0.2.汉语自动分词的发展自80年代初提出汉语自动分词以来,在语言学家和计算机学家的共同努力下,在书面汉语的自动分词方面已经取得了缀大进展,并且已经有~些很有实用价值的自动分词系统出现。汉语自动分词

8、方面的工作主要有词的判定、分词算法、知识获取和系统实现等诸多内容。词的判定方面,主要研究分词规范的制定、词典的构造以及构词规则等方面的内容。分词标准也

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。