欢迎来到天天文库
浏览记录
ID:34826748
大小:1.17 MB
页数:44页
时间:2019-03-11
《浅论基于统计的开放式汉语自动分词》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、大连理工大学硕士学位论文基于统计的开放式汉语自动分词姓名:关宏超申请学位级别:硕士专业:计算机应用技术指导教师:黄德根20020301摘要汉语自动分词是中文信息处理中的重要环节。基于统计的汉语自动分词方法存在训练数据稀疏的问题,而人工标注工作量过大又制约着语料库规模的进一步扩大。本文在基于统计的汉语自动分词的基础上,引入开放学习机制,通过有监督和无监督相结合的学习方法,建立包含可信度修正和部分三元语法信息的多元分词模型。然后讨论了切分算法和人机交互等几个实现中的具体问题。通过实验确定模型参数和阈值。实验结果表明,引入开放学习机制的分词模型,闭式
2、分词正确率达到99.07%和开式分词正确率达到98.08%,同时增强了分词系统的适应性和消歧能力。关键词自然语言处理:汉语分词;语料库;语法模型;开放学习AbstractTheChiFleseautomatiowordsegmentationisanimportantpartintheChineseinformatiOllprocessing.Themethodbasedonstatisticshastheproblemoftrainingdata’srarefaetion.andwhatrestrictsthemoreprogressofco
3、rpusisthetoolargeworklpad02manualtagglng.RefertoChineseautomaticwordsegmentationbasedonstatistics,thispaperimportsthemechanismofopenlearning,andusesthemethodofsupervisedanduilsupervisedlearning.Thewordsegmentationmodelincludescredibi[ityrevisingandpartialtri—graminformation.
4、Thenitdiscussesseveralproblemssuchassegmentationalgorithmandhuman—computerinterfaceduringsystemimplementing.Theargumentsandthresholdsofthemodelaredeterminedthroughtheexperiments.Thetestresultshowsthat,withtheopenlearningmodel,theclosesegmentationaccuracycanreach99.07%whileth
5、eopenone98.08%,andthereisagoodadaptabilityanddisambiguationabilityofthesystem.KeyWordsNaturalLanguageOorpus:GrammarModeI:OpenProcessing:ehineseSegmentalionLearning基于统计的开放式汉语自动分词0.引言0.1.问题的提出自然语言处理是当前计算机领域的一个研究热点。语言作为交流工具,在人类活动中有着举足轻重的作用,因此,人们在大量应用计算机来替代自己的工作的同时,也期待计算机在自然语言的处
6、理上能接近甚至达到人的水平。自然语言处理(NLP)的目标是使计算机在各种各样的自然语言交流中成为流利的对象。显然,如果没有足够深刻的领域知识。计算机不可能满足人类的要求。自然语言处理作为人工智能的一个分支,在自然语言人机接口、机器翻译、文摘生成等等方面有很多的工作都正在进行。111汉语自动分词是中文信息处理中的重要环节。汉语是以字而不是词作为语言的基本构造单位,尤其是在书面汉语中,词与词之间完全缺乏形态上的晃限。汉语自动分词在中文信息处理的以下方面都有很重要的意义:1同音字的据音辨字;2多音字的据字辨音:3汉字的简一繁体转换;4信息检索和信息摘
7、录;5文本分类和自动文摘:6汉字的侦错与纠错:7词语的计詹分析:8自然语言理解。【21自然语言理解是语言处理的最终目标,而汉语分词处于词法、句法、语义等语言层次的最低层,是中文信息处理中是基本也是很重要的基础环节。汉语口语中的音节变化,对词的界定有一定的帮助,但由于涉及语音处理等问题,我们暂不做研究。本文讨论的汉语自动分词问题仅指书面汉语领域的研究。0.2.汉语自动分词的发展自80年代初提出汉语自动分词以来,在语言学家和计算机学家的共同努力下,在书面汉语的自动分词方面已经取得了缀大进展,并且已经有~些很有实用价值的自动分词系统出现。汉语自动分词
8、方面的工作主要有词的判定、分词算法、知识获取和系统实现等诸多内容。词的判定方面,主要研究分词规范的制定、词典的构造以及构词规则等方面的内容。分词标准也
此文档下载收益归作者所有