自然语言检索中的中文分词技术研究进展及应用

自然语言检索中的中文分词技术研究进展及应用

ID:34480321

大小:510.89 KB

页数:7页

时间:2019-03-06

自然语言检索中的中文分词技术研究进展及应用_第1页
自然语言检索中的中文分词技术研究进展及应用_第2页
自然语言检索中的中文分词技术研究进展及应用_第3页
自然语言检索中的中文分词技术研究进展及应用_第4页
自然语言检索中的中文分词技术研究进展及应用_第5页
资源描述:

《自然语言检索中的中文分词技术研究进展及应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、万方数据第26卷第5期2008年5月情报科学V01.26,No.5May,2008自然语言检索中的中文分词技术研究进展及应用何莘1,王琬芜2(1.西安石油大学机械工程学院,陕西西安710065;2.浙江大学信息科学与工程学院,浙江杭州310058)摘要:中文分词技术是实现自然语言检索的重要基础,是信息检索领域研究的关键课题,无论是专业信息检索系统还是搜索引擎都依赖于分词技术的研究成果。本文通过在国内外著名数据库中进行相关检索,分析了研究中文分词技术及其在著名搜索引擎中的应用。关键词:中文分词;自动分词;分词算法中图分类号:TP391,G354文献标识码:A文章编号:1007—7634

2、(2008)05—0787—05ResearchandAplicationofChinese1l№rdSequmentationTechnicalBasedonNaturalLanguageInformationRetrievalHEXinl,WANGWan一伽2(1.Sdu,olofMechanimlEngineering,瓜锄Shiyou‰妙,Xi"art710065,‰;2.SchooloflaJbmua/on8der掰an,tEng/neer/ng,乃慨Un/terdty,凰哪西化310058,‰)Ahstract:Chinesewoxdsegmentationtechniq

3、ueistheiII甲0栅Itfoundationthatm池thenatural]/1119,uagere—trieval,alsoisthekeytopicoftheresearchininformationretrievaldomain.Professionalinfonnatlonretrievalsys—temandsearchal百I圮bothdependORtheresearchachievementsofwordsegmentationtechnique.Thispflperin-dexesinthed啊剃candinternationalfamousdatabase

4、,thenChinesewordsegmentationtechniquehasbeen锄-l沪硝infamoussearchal阳issuIilmsi'i捌.Keywords:Chinesewontsegmentation;automaticwordsegmentation;wontsegmentation蛔Ⅱlm1分词及分词算法从中文自然语言句子中划分出有独立意义词的过程被称为分词。众所周知,英文是以词为单位的。词和词之间是靠空格隔开,而中文是以字为单位。由于中文词与词之间没有明确的边界,因此,中文分词技术中文信息处理的基础是机器翻译、分类、搜索引擎以及信息检索。中文分词技术属于

5、自然语言处理技术的范畴,是语义理解过程中最初的一个环节,它将组成语句的核心词提炼出来供语义分析模块使用,在分词的过程中,如何能够恰当地提供足够的词来供分析程序处理,计算机如何完成这一过程?其处理过程就称为分词算法。现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。1.1基于宇符串匹配的分词方法这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可

6、以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。(1)正向最大匹配法(MM法)。其基本思想收稿日期"2007—10—23作者简介:何莘(1968一),女,河北保定人。工程师,从事信息存储与检索技术、敷字资源管理、搜索引擎技术等研究.万方数据788情报科学26卷为:设D为词典,MAX表示D中的最大词长。str为待切分的字串,胁法是每次从sir中取长度为MAX长度的子串与D中的词进行匹配,若成功,则该子串为词,指针后移MAX个汉字后继续匹配,否则子串逐次减一进行匹配。(2)逆向最大匹配法(RMM法)。RMM法的

7、基本原理与MM法相同,不同的是分词的扫描方向,它是从右至左取子串进行匹配。统计结果表明,单纯使用正向最大匹配的错误率为l,169,单纯使用逆向最大匹配的错误率为11245,显然,m似法在切分的准确率上比MM法有很大提高。(3)最少切分。可以将上述各种方法相互组合,例如:可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。