欢迎来到天天文库
浏览记录
ID:34359560
大小:799.33 KB
页数:82页
时间:2019-03-05
《索引构建与搜索算法的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号UDC注1密级学位论文索引构建与搜索算法的研究与实现(题名和副题名)胡朝义(作者姓名)指导教师姓名唐雪飞电子科技大学副教授成都(职务、职称、学位、单位名称及地址)申请专业学位级别硕士专业名称软件工程论文提交日期2011.3论文答辩日期2011.5学位授予单位和日期电子科技大学答辩委员会主席评阅人万方数据2011年注1:注明《国际十进分类法UDC》的类号。月日独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或
2、撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签名:日期:年月日论文使用授权本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定)签名:导师签名:日期:年月日万方数据摘摘
3、要要随着因特网的飞速发展,网络上面的信息资源海量增长,用户在获取信息的同时也面临一个重大的问题:如何在互联网上面的海量数据中快速准确查询到自己所感兴趣的相关信息呢?而信息检索系统正是解决用户在因特网上面进行快速信息查询的一个有效方式。信息检索是按照一定的策略对特定的信息的收集,如用网络爬虫对互联网上面的网页、doc格式文档、pdf格式文档等一系列资源进行爬取,对收集回来的信息进行处理和组织后为用户提供信息查询服务。信息检索克服了数据库查询当中存在的一些不足之处,为数据的检索提供了更为方便快捷的方式,因此现在越来越多的领域和部门开始涉及到信息检索领域
4、。另外,信息检索系统不仅可以部署在网络环境中,而且在个人PC机上也能够得到比较广泛地应用。目前,对信息检索的各种研究以及理论上的探讨都在蓬勃地开展。信息检索是以用户为中心的一个快速检索服务系统,主要是为用户提供快速准确的信息查询服务。在这一过程当中,高准确度及低响应时间是用户最为关心的系统功能,也会是衡量系统优秀与否的最重要标识。而信息检索当中的索引构建与搜索又是信息检索系统当中的两个重要的组成部分,如何去设计高性能的索引构建、信息搜索算法就变得越发的重要。本论文详细地讨论了文本的全文检索的索引构建与搜索过程,并对一些性能较高的索引构建、信息搜索算法
5、原理进行了研究并进行了一些改进实现。一般信息检索系统当中的字典文件都是采用的B树,但是字典文件当中的词汇Term是需要频繁变动的,若采用B树,其树节点的变化会引起一系列的判断(如判断是否需要裂解树,是否需要合并树等一系列的操作,这些都需要消耗一定的系统资源),本论文在构建字典文件的时候采用了二层文件结构,既能够满足一定的词汇量规模,又能达到高效定位相关信息的双重需求。关键词:信息检索,索引构建,搜索,评分I万方数据ABSTRACTABSTRACTWiththerapiddevelopmentoftheInternet,thousandsofmilli
6、onsofinformationappearsonthenetwork.However,Usersinaccesstoinformationarealsofacingamajorissue:Howtoinquiretheinterestedandrelevantinformationinalargeamountsofresourcesontheinternetrapidlyandaccurately?Whiletheinformationretrievalsystemisjustanefficientwaywhichcanhelptheusersac
7、quiretheinformationrapidlyontheInternet.Informationretrievalisacollectionofspecificinformationwhichaccordingtocertainstrategies.Forexample,thewebcrawlerscancrawlSeriesofresourcesfromWebpages,docformatdocumentation,pdfdocumentsandsoon,AndthenprovidesInformationqueryservicetouser
8、safterprocessingandorganizingthecollectedinformation.I
此文档下载收益归作者所有