欢迎来到天天文库
浏览记录
ID:360420
大小:139.00 KB
页数:10页
时间:2017-07-27
《信息检索的概率模型-》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、信息检索的概率模型一、综述一、信息检索技术由于以因特网为主体的信息高速公路的不断普及和发展,信息技术已经渗透到我们社会生活的各个角落,正以前所未有的速度和能力改变着我们的生活的工作方式,我们真正处于一个“信息爆炸”的时代。一方面,因特网上面蕴含的海量信息远远超过人们的想象;另一方面,面对信息的汪洋大海,人们往往感到束手无策,无所适从,出现所谓的“信息过载”和“信息迷向”的现象。于是一个极富挑战性的课题:如何帮助人们有效地选择和利用所感兴趣的信息,尽量剔除不相关的信息。同时保证人们在信息选择方面的个人隐私权利?成为学术界和企业界所十分关注的焦点。随着在线文本的
2、日益增多,其中包括新闻、电子杂志、电子邮件、技术报告、文档以及网上图书馆。如此众多的信息,仅仅依靠大脑来收集和整理所需要的信息显然是不够的。所以,自动收集和整理所需要的各类信息成为信息产业面临新的挑战和新的发展契机。根据不同的应用背景和不同的使用目的,信息处理技术已经演化信息检索、信息过滤、信息分类、问题回答等方向。由于目前网上信息的表现形式大多数为文本,而且文本也是广大用户所习惯接收的形式。因此我们在下面主要讨论中文文本检索和相关的评价方案。1、信息检索技术的发展信息检索(InformationRetrieval)是指信息按一定的方式组织起来,并根据信息用
3、户的需要找出有关的信息的过程和技术。狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程。信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务项目。1945年,VannevarBush的论文《就像我们可能会想的……》第一次提出了设计自动的,在大规模的存储数据中进行查找的机器的构想。这被认为是现在信息检索技术的开山之作。进入50年代后,研究者们开始为逐步的实现这些设想而努力。在50年代中期,在利用电脑10对文本数据进行检索的研究上,研究者取得了一些成
4、果。其中最有代表性的是Luhn在IBM公司的工作,他提出了利用词对文档构建索引并利用检索与文档中词的匹配程度进行检索的方法,这种方法就是目前常用的倒排文档技术的雏形。在著名的国际文本检索会议(TextRetrievalConference,TREC)上,有两个最重要的研究方向:RoutingTask和AdHocTask。其热点问题包括从早期的文本检索、文本过滤到当前的问题回答。文本信息检索就是根据用户提出的具体查询,在大量相对稳定的文本源中,检索出符合用户查询条件的文本,并按其满足查询的程度排序列出。文本检索技术的发展已经有四十多年的历史,取得了很大的成就,
5、产生了大批实用的检索系统,积累了很多成熟的技术。1992年,NIST(美国国家标准和技术研究所)与DARPA联合赞助了每年一次的TREC,对于文本检索和文本过滤和问题回答等专题倾注了极大的热忱。目前随着因特网的迅速发展,需求的不断增加,文本检索以及相关技术方面取得了长足的进展,成为信息产业新的增长点。2、信息检索技术的简介信息检索系统流程大致如下图所示:总体上,系统可分为四个部分:数据预处理,索引生成,查询处理,检索。下面我们分别对各个部分采用的技术加以介绍。 1.数据预处理目前检索系统的主要数据来源是Web,格式包括网页、WORD文档、PDF文档等,这些格
6、式的数据除了正文内容之外,还有大量的标记信息,因此从多种格式的数据中提取正文和其他所需的信息就成为数据预处理的主要任务。此外,众所周知,中文字符存在多种编码,比如GB2312、BIG5、Unicode(CJK10区),而原始数据集往往包含多种编码,因此要正确地检索到结果必须进行统一编码转换。研究者们对预处理部分要提取哪些信息并没有共识,这与后续处理所需的信息密切相关,一般来说,正文、锚文本和链接地址都是要提取出来的。 2.索引生成 对原始数据建索引是为了快速定位查询词所在的位置,为了达到这个目的,索引的结构非常关键。目前主流的方法是以词为单位构造倒排文档表,
7、其结构大致如下图所示: 每个文档都由一串词组成,而用户输入的查询条件通常是若干关键词,因此如果预先记录这些词出现的位置,那么只要在索引文件中找到这些词,也就找到了包含它们的文档。为了进一步提高查询的速度,在组织索引时还可以采用一些更复杂的方法,比如B树、TRIE树、哈希表等。这个阶段还需要对预处理之后的文档进行词法分析,这是因为很多语言的文本都不宜直接把正文中的字符串用于建立索引。例如,中文里的词与词之间不存在分隔符,因此必须先进行分词,而英文中的词存在很多变形,比如“compute”就存在“computes”、“computing”、“computed”
8、等多种变形,应先进行词根还原。此外,有些词虽然出现频
此文档下载收益归作者所有