汉语分词技术研究---毕业论文.doc

汉语分词技术研究---毕业论文.doc

ID:11605239

大小:675.50 KB

页数:48页

时间:2018-07-12

汉语分词技术研究---毕业论文.doc_第1页
汉语分词技术研究---毕业论文.doc_第2页
汉语分词技术研究---毕业论文.doc_第3页
汉语分词技术研究---毕业论文.doc_第4页
汉语分词技术研究---毕业论文.doc_第5页
资源描述:

《汉语分词技术研究---毕业论文.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、Abstract本 科 毕 业 论 文汉语分词技术研究StudyofChineseWordSegmentationTechnology姓  名:学  号:学  院:软件学院系:软件工程年级:指导教师:          年月Abstract摘 要中文分词技术是中文信息处理的一项基础性工作,也是一项关键性工作。它是我国计算机科学研究领域的重要课题。信息检索是当前中文分词系统的主要应用领域。面向信息检索的中文分词技术是中文分词技术研究中的一个重要方向。面向信息检索的中文分词系统首先要有较高的分词速度,对于中文分词中存在的两大难

2、点:歧义字段处理和未登录词识别也要有较完善的解决方案。本文从理论上比较和分析中文分词的三类主要方法:基于字符串匹配的方法,基于统计的方法,基于理解的方法。并对其技术特点进行阐述,在此基础上提出了各方法存在的问题。基于字符串匹配的方法速度快,具有一定的歧义处理能力,但对于未登录词的识别存在明显的缺陷;基于统计的方法在有大型语料库的支持下可以具备很高的准确度,但是速度不易提高;基于理解的方法目前还处于初级阶段,难以实用化。针对信息检索领域和上述算法的特点,本文提出了基于字符串匹配和基于语言统计模型相结合的思想,利用语言统计模型

3、在识别未登录词和歧义处理上的优势,来弥补基于字符串匹配方法的不足,同时发挥其速度快的优势。基于上述思想,本文设计并开发出了基于Java平台的中文分词基础工具包和分词系统。该工具包实现了基本的分词算法及本人提出的改进算法,能够满足通用中文分词的基本需求。工具包预留了接口,具有较好的可扩展性。此外,它也能与Lucene全文检索引擎协同工作,用于满足信息检索的需求。最后,本文对系统进行了测评,在中文分词的三项指标:分词速度、准确率、召回率上,系统都达到了不错的效果。其较出色的分词速度决定其较适合于信息检索领域使用。根据测评结果,

4、本文提出了系统存在的不足,对课题进行了总结,并提出了进一步研究的方向。关键词:中文分词;信息检索;最大匹配法AbstractAbstractChinesewordsegmentationisthefoundationofNLP(NaturalLanguageProcessing),andisalsoakeytechnologyintheareaofChineseNLP.Itisaimportanttaskatthepresenttime.Informationretrievalisthemainapplicationare

5、aofChinesewordsegmentation.SoChineseWordsegmentationforinformationretrievalisanimportantdirection.Thesystemshouldbefastandcapableofidentificationofambiguitiesandunlistedword,whicharedifficultinChinesewordsegmentation.Therearethreemainmethodsofthewordsegmentation.T

6、hemechanicalwordsegmentationbasedonmatching,Themethodbasedonstatisticallanguagemodel,Themethodbasedonartificialintelligent.Theauthoranalysesandcomparesthemtheoretically,describethetechnicalfeaturesofthem,andpointoutthatthemethodbasedonmatchingisfast,andisabletoide

7、ntificationofambiguitiesinsomeway,however,itcan'tresolvetheunlistedwordproblem;themethodbasedonstatisticallanguagemodelhasahighprecisionwhenithasalargeofnaturallanguageresource,butitisdifficulttoimproveitsspeed;themethodbasedonartificialintelligentisnotpracticalat

8、thepresenttime.Theauthoraimsattheseproblemsandthefeaturesofinformationretrieval,andmakesuseofadvantagesofthemethodbasedonstatisticallanguagemodelforreme

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。