中文信息检索引擎中的分词与检索技术

中文信息检索引擎中的分词与检索技术

ID:31730543

大小:49.53 KB

页数:4页

时间:2019-01-17

中文信息检索引擎中的分词与检索技术_第1页
中文信息检索引擎中的分词与检索技术_第2页
中文信息检索引擎中的分词与检索技术_第3页
中文信息检索引擎中的分词与检索技术_第4页
资源描述:

《中文信息检索引擎中的分词与检索技术》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、第24卷第7期2004年7月计算机应用ConputerApplications文章编号:1001・9081(2004)07・0128-04中文信息检索引擎中的分词与检索技术吴栋,滕育平(南开大学组合数学研究中心核心数学与组合数学教育部重点实验室,天津300071)(tcngyuping@notionsoft・com)摘要:文中论述了在开发中文信息检索系统中所涉及到的两项关键技术,即中文分词技术和检索技术。针对中文分词技术,介绍了一种改进的正向最大匹配切分算法,以及为消除歧义引入的校正策略,并在此基础上结合统计方法处理未登录词。针对检索技术,综述了几种最常用的检索模型的

2、原理,并对每种模型的优缺点进行了简要分析。最后对给出的分词算法进行了测试,测试结果表明该分词算法准确度和效率能够满足实用的要求。矢键词:信息检索;搜索引擎;分词技术;检索技术中图分类号:TP317.2文献标识码:AWordSegmentandSearchTechniquesforChineseInformationSearchEnginesWUDong,TENGYiQ?ing(Lalx)ratory(fPureMathematicsandCombinatorics,CenterforCombinatorics,NankaiUniverity,Tianjin300071

3、,China)Abstract:keytechniquesinthedevelopmentofChineseInformationRetrievalSystemarcdiscussedinthispaper,i・c..Chinesewordsegmentationandsearchtechnique・ForChinesewordsegmentation,thepaperpresentsaninpiuvedMMsegmentationalgorithm,therevisestrategyfordisambiguation,andthestatiSticmethodfor

4、unkix)wnwordsrecognitionbasedorthepreviousmetliods・R)rsearchtechnique,thepapersummarizestheprincipleofseveralkindsofsearchmodels,andanalyze、theadvantagesanddisadvantagesofeachmodelsinply・Atlast,thegivensegmentationalgorithmisevaluated,andtheresult5revealthattheveracityandefficiencyofthe

5、algorithmcansatisfytheappliedrequest.Keywords:infonnationretrieval;searchengine;wordsegmentation;searchtechnique关査网用户査询农达式授序愴入泗分词位*1位蜃2in)2••••••何3••••••图1中文信息处理和检索过程收稿日期:2003-12•02:修订日期:2004-06-12作者简介:吴栋(1980-),男,上海人,博士研究生,主要研究方向:组合数学;滕育平(1980-),男,湖北孝感人,硕士研究生,主要研究方向:组合数学、计算机软件.0引言随着社会的

6、不断进步,特别是在互联网迅猛发展的今天,人们在不断地接触形形色色的信息,同时也耍对这些信息进行过滤,从而提取出对自己真正有用的内容°为了达到这个日的、人们开发出了众多的检索引擎,有针对Web进行搜索的Cboglc、百度等,也有针对各行业开发的专题检索系统。目前国内的每个行业、领域都在飞速发展,这屮间产生了大量的咔文信息资源,为了能够及时准确的获取最新的信总冲文检嗪引擎是必然的产物。中文检索引擎与西文检索引擎在实现的机制和丿京理上基本一致,但由于汉语本身的特点,必须引入对于中文语言的处理技术,而中文分词技术就是其中很关键的部分O1中文检索引擎的基本原理常见的中文检索引擎

7、主要完成两方面的任务:1)信总的规范化。将搜集來的信息按照一定的方式进行组织管理,使之成为可以高效检索的信息库。2)信息的检索和表达。以索引好的信息库作为信息宜础,利用信息库已被索引的特点,实施快速检索,同时根据用户的需求将检索结果进行输出。信息的规范化包括分词和索弓1(以及资料的搜集和罄理)、更新(维护)两部分;信息的检索包括搜索、结果输岀说部分。整个信息处理和检索过程如图1所示。2中文分词技术2.1汉语的特点词是故小的、能独立活动的、有意义的语言成分。因此,通常的检索引擎都是以每一个独立的词为单位建立索引,在查询时按照检索词出现的位置和频率对文档

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。