欢迎来到天天文库
浏览记录
ID:33991626
大小:3.04 MB
页数:57页
时间:2019-03-03
《基于文本的语言识别方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、1411028{#『J#—三—iL分类号:—!堕!L单位代日—卫堡!!一g%:——.专J名椰鹰Z碧硕士学位论文论文题目:基于文本的语言识别方法研究学生学指导学科研究姓名号教师专业方向陈伯勇硕051134郑彦副教授盐蔓塑塾堂皇型堡数据仓库与决策支持系统论文提交日期二0o!!主堕旦南京邮电大学硕士研究生学位论文中文摘要本文的研究工作是针对因特网上的文本数据进行语言识别,包括网页和电子邮件内容等,以构建实时、高效的语言识别模块为目标,设计了一种复合方法来实现多语种文本的语言识别。本文首先介绍了区域编码方案和Uni
2、code并存的现状,指出语言识别在计算机自然语言处理领域中的广泛应用,分析了语言识别方法的研究现状。然后,具体研究了目前主要的基于文本的语言识别方法,包括基于编码非重叠区的、采用字频分布统计的、利用马尔可夫模型建立语言模型的以及采用部分匹配预测压缩算法的语言识别方法,这些技术将被用到文中提出的语言识别模块设计方案中。之后,本文设计了一种语言识别的方法,即融合了基于编码非重叠区的识别方法和语言统计模型识别方法的复合识别方法。在对真实数据进行实验和分析的基础上,设计了语言字符分布律统计模型和可信度计算模型,保证
3、了准确和高效地实现语言识别。本文设计和实现的语言识别模块能够对目前因特网上广泛使用的主要语言字符集进行识别,包括Unicode字符集,多字节和单字节编码方式的字符集,满足电子邮件转发和过滤引擎、网页编码识别等实时系统的应用需要,并且该模块已经在国家某部委的应用工程中得到了应用,获得了很好的评价。关键词:语言识别,语言模型,字符集,基于文本AbstractThethesisfocusesontext—basedlanguageidentificationfromInternetdata,includingwe
4、bpagesande-mailcontent,etc.Tocreatehighlyefficientandreal—timelanguageidentificationmodule,acompositemethodisused,whichc柚recognizemultilingualtext.Firstly,thecoexistencestatusofUnieodeandregionalcodingschemesisintroduced.Thenitpointsouthowwidelylanguageide
5、ntificationisusedinnaturallanguageprocessingandreviewsthemainlyresearcheshasbeendoneinthefield.Itintroducesrepresentativemethodsoftext-basedlanguageidentification,suchasthroughnon—overlappingcoding,commonwordsapproach,MarkovLanguageModelapproach,N—gramappr
6、oach,compressionbasedapproachwithPPM(predictionbypartialmatching).Thetechnologiesusedinthosemethodsarepartlychosentobuildalanguageidentificationmodule.Thealgorithmfocusesonhowtousenon。overlappingcodingofcharactersandstatisticallanguagemodeltoensureaccuracy
7、andefficiencyinlanguageidentification.Itproposedmethodstocreatelanguagedistributionmodelandconfidencemodel.AlanguageidentificationmoduleisbuilttoidentifymostcharactersetsusingonInteract,includingUnicode,single-b礼eandmulti·bytecharactersets.Themoduleisquali
8、fiedtobeusedinreal-timesystemapplications,suchase—mailforwardingandfilteringengine.webpagesencodingidentification,etc.Keywords:LanguageIdentification,LanguageModel,CharacterSet,Text.basedⅡ南京邮电大学硕士研究生学位论文图表清单图
此文档下载收益归作者所有