基于文本的语言识别方法研究

基于文本的语言识别方法研究

ID:33991626

大小:3.04 MB

页数:57页

时间:2019-03-03

基于文本的语言识别方法研究_第1页
基于文本的语言识别方法研究_第2页
基于文本的语言识别方法研究_第3页
基于文本的语言识别方法研究_第4页
基于文本的语言识别方法研究_第5页
资源描述:

《基于文本的语言识别方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、1411028{#『J#—三—iL分类号:—!堕!L单位代日—卫堡!!一g%:——.专J名椰鹰Z碧硕士学位论文论文题目:基于文本的语言识别方法研究学生学指导学科研究姓名号教师专业方向陈伯勇硕051134郑彦副教授盐蔓塑塾堂皇型堡数据仓库与决策支持系统论文提交日期二0o!!主堕旦南京邮电大学硕士研究生学位论文中文摘要本文的研究工作是针对因特网上的文本数据进行语言识别,包括网页和电子邮件内容等,以构建实时、高效的语言识别模块为目标,设计了一种复合方法来实现多语种文本的语言识别。本文首先介绍了区域编码方案和Uni

2、code并存的现状,指出语言识别在计算机自然语言处理领域中的广泛应用,分析了语言识别方法的研究现状。然后,具体研究了目前主要的基于文本的语言识别方法,包括基于编码非重叠区的、采用字频分布统计的、利用马尔可夫模型建立语言模型的以及采用部分匹配预测压缩算法的语言识别方法,这些技术将被用到文中提出的语言识别模块设计方案中。之后,本文设计了一种语言识别的方法,即融合了基于编码非重叠区的识别方法和语言统计模型识别方法的复合识别方法。在对真实数据进行实验和分析的基础上,设计了语言字符分布律统计模型和可信度计算模型,保证

3、了准确和高效地实现语言识别。本文设计和实现的语言识别模块能够对目前因特网上广泛使用的主要语言字符集进行识别,包括Unicode字符集,多字节和单字节编码方式的字符集,满足电子邮件转发和过滤引擎、网页编码识别等实时系统的应用需要,并且该模块已经在国家某部委的应用工程中得到了应用,获得了很好的评价。关键词:语言识别,语言模型,字符集,基于文本AbstractThethesisfocusesontext—basedlanguageidentificationfromInternetdata,includingwe

4、bpagesande-mailcontent,etc.Tocreatehighlyefficientandreal—timelanguageidentificationmodule,acompositemethodisused,whichc柚recognizemultilingualtext.Firstly,thecoexistencestatusofUnieodeandregionalcodingschemesisintroduced.Thenitpointsouthowwidelylanguageide

5、ntificationisusedinnaturallanguageprocessingandreviewsthemainlyresearcheshasbeendoneinthefield.Itintroducesrepresentativemethodsoftext-basedlanguageidentification,suchasthroughnon—overlappingcoding,commonwordsapproach,MarkovLanguageModelapproach,N—gramappr

6、oach,compressionbasedapproachwithPPM(predictionbypartialmatching).Thetechnologiesusedinthosemethodsarepartlychosentobuildalanguageidentificationmodule.Thealgorithmfocusesonhowtousenon。overlappingcodingofcharactersandstatisticallanguagemodeltoensureaccuracy

7、andefficiencyinlanguageidentification.Itproposedmethodstocreatelanguagedistributionmodelandconfidencemodel.AlanguageidentificationmoduleisbuilttoidentifymostcharactersetsusingonInteract,includingUnicode,single-b礼eandmulti·bytecharactersets.Themoduleisquali

8、fiedtobeusedinreal-timesystemapplications,suchase—mailforwardingandfilteringengine.webpagesencodingidentification,etc.Keywords:LanguageIdentification,LanguageModel,CharacterSet,Text.basedⅡ南京邮电大学硕士研究生学位论文图表清单图

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。