中文信息检索引擎中的若干技术

ID：18776510

大小：183.50 KB

页数：6页

时间：2018-09-22

资源描述：

《中文信息检索引擎中的若干技术》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、中文信息检索引擎中的若干技术吴栋滕育平(南开大学组合数学研究中心核心数学与组合数学教育部重点实验室,天津300071)摘要本文论述了在开发中文信息检索系统中所涉及到的两项关键技术，即中文分词技术和检索技术。对中文分词技术，本文介绍了一种改进的正向最大匹配切分算法，以及为消除歧义引入的校正策略，并在此基础上结合统计方法处理未登录词。针对检索技术，本文综述了几种最常用的检索模型的原理，并对每种模型的优缺点进行了简要分析。最后对给出的分词算法进行了测试，测试表明本文给出的分词算法准确度和效率能够满足实用的要求。关键

2、词信息检索搜索引擎分词技术检索技术1引言随着社会的不断进步，特别是在互联网迅猛发展的今天，人们在不断地接触形形色色的信息，同时也要对这些信息进行过滤，从而提取出对自己真正有用的内容。为了达到这个目的，人们开发出了众多的检索引擎，有针对Web进行搜索的Goolge、百度等，也有针对各行业开发的专题检索系统。目前，国内的每个行业、领域都在飞速发展，这中间产生了大量的中文信息资源，为了能够及时准确的获取最新的信息，中文检索引擎是必然的产物。中文检索引擎与西文检索引擎在实现的机制和原理上大致雷同，但由于汉语本身的特点

3、，必须引入对于中文语言的处理技术，而中文分词技术就是其中很关键的部分。2中文检索引擎的基本原理常见的中文检索引擎主要完成两方面的任务：1．信息的规范化。将搜集来的信息按照一定的方式进行组织管理，使之成为可以高效检索的信息库。2．信息的检索和表达。以索引好的信息库作为信息基础，利用信息库已被索引的特点，实施快速检索，同时根据用户的需求将检索结果进行输出。其中，信息的规范化包括分词和索引（以及资料的搜集和整理）、更新（维护）两部分；信息的检索包括搜索、结果输出两部分。整个信息处理和检索过程如图1所示：3中文分词技

4、术http://www.tao17ba.comhttp://www.52bajian.comhttp://www.topjewelrysstore.com3.1汉语的特点词是最小的、能独立活动的、有意义的语言成分。因此，通常的检索引擎都是以每一个独立的词为单位建立索引，在查询时按照检索词出现的位置和频率对文档进行输出。英语文本是小字符集上的已充分分隔开的词串,而汉语文本是大字符集上的连续字串，并且在词与词之间并没有明显的分割标记。故而存在一个对汉语中的词加以识别的问题，即中文检索引擎首先必须对原文进行切分词。

5、如果不切词（按字检索）,可能检索的结果与用户的查询要求会大相径庭，例如当检索德国货币单位"马克"时,就会把"马克思"检索出来,而检索"华人"时会把"中华人民共和国"检索出来。因而进行切词,可以大大提高检索的准确率。中国的汉字是示意文字，总数有几万个，在由国家标准总局颁布的《信息交换用汉字编码字符集--基本集》（即GB2312-80）中共收录了一级和二级常用汉字共6763个，而在Unicode编码中更是收录多达20902个汉字。据统计，在常用汉语中，90%以上使用的是二字词和三字词，也有使用四字词和五字词。知道

6、这些汉字的特点，对于我们选择合理的切分算法是有益的。3.2一般的分词技术由于书面汉语是字的序列，词与词之间没有间隔标记，使得词的界定往往模糊不清。即使这样，在过去的时间里，人们在汉语的自动分词技术的研究上还是做了很多工作，设计了许多实用、高效的算法。通常的方法主要分为两类[1]：第一类主要基于字典、词库的匹配和词的频度统计，这类方法实用、具体，比较容易实现；第二类方法主要基于句法、语法分析，并结合语义分析，通过对上下文内容所提供信息的分析对词进行定界，这类方法试图让机器具有人类的理解能力，其原理较为晦涩，一般

7、不易实现。常用的切词算法如下：1)最大正向匹配法(MaximumMatchingMethod)通常简称为MM法。其基本思想为：设D为词典，MAX表示D中的最大词长，str为待切分的字串。MM法是每次从str中取长度为MAX的子串与D中的词进行匹配。若成功，则该子串为词，指针后移MAX个汉字后继续匹配，否则子串逐次减一进行匹配。2)逆向最大匹配法(ReverseMaximumMatcingMethod)通常简称为RMM法。RMM法的基本原理与MM法相同，不同的是分词的扫描方向，它是从右至左取子串进行匹配。统计结

8、果表明，单纯使用正向最大匹配的错误率为1/169，单纯使用逆向最大匹配的错误率为1/245，RMM法在切分的准确率上比MM法有很大提高。3)基于词频的统计方法统计方法一般不依赖于词典，而是将原文中任意前后紧邻的两个字作为一个词进行出现频率的统计，出现的次数越高，成为一个词的可能性也就越大。在频率超过某个预先设定得阈值时，就将其作为一个词进行索引。这种方法能够有效地提取出未登录词。3.3一种改进的MM

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 6



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

中文信息检索引擎中的若干技术

中文信息检索引擎中的若干技术

相关文章

相关标签