欢迎来到天天文库
浏览记录
ID:5377202
大小:502.68 KB
页数:29页
时间:2017-12-08
《数据检索服务的设计以及全文检索系统的初步实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、InfoMall数据检索服务的设计以及全文检索系统的初步实现InfoMallDataRetrievalServiceanditsFullTextRetrievalSystem姓名:杨志丰学号:00108094院系:信息科学技术学院专业:计算机科学与技术指导教师:闫宏飞2005年6月论文评定导师评语为历史存档的网页信息提供全文信息检索,是更好展示和挖掘网页历史信息必不可少的手段。为历史存档网页建立索引提供检索服务,不同于搜索引擎,通常其数据量更大,并且具有自己的特性。杨志丰同学的毕业论文工作,是对这一部分内容有益的探索。论文所涉及的工作是在中国Web信息博物馆(InfoMall)的基础上完成的
2、。通过对InfoMall网页信息博物馆的数据需求的分析,利用基于时间、空间、内容的网页数据三维模型,设计了InfoMall数据检索服务,并规约了服务原语,设计了系统组成。该文进一步设计和实现了InfoMall数据检索服务的系统组成中的主要模块——全文索引系统。主要针对InfoMall数据的特点和数据检索服务的需求,在空间利用率和系统灵活性两个方面做了探讨和优化。论文内容丰富,所涉及的工作量大,且有较强的系统性,是一篇很有价值的论文。在毕业设计工作的过程中,该同学态度端正,积极努力,表现出很强的进取精神和踏实的工作作风,为InfoMall的发展做出了贡献。成绩___优______指导教师签字_
3、_闫宏飞________2005_年_6_月_9_日-i-摘要中国Web信息博物馆是北京大学网络实验室研究和开发的中国万维网(WorldWideWeb)历史信息的存储和展示系统。但现有系统提供的服务不能满足用户对宝贵的历史网页数据的信息需求,因而限制了它的广泛使用。本文试图从实际出发,探讨和尝试如何利用保存下来历史网页数据提供公共信息服务。本文通过对InfoMall网页信息博物馆的数据需求的分析,利用基于时间、空间、内容的网页数据三维模型,设计了InfoMall数据检索服务,并规约了服务原语,设计了系统组成。例如,利用我们提供的服务,用户可以查询“1997年2月到2005年2月期间内蒙古自治
4、区范围内所有*.gov.cn域名下内容包含‘民主’的网页文档的全文”。本文设计和实现了InfoMall数据检索服务的系统组成中的主要模块――全文索引系统。我们主要针对InfoMall数据的特点和数据检索服务的需求,在空间利用率和系统灵活性两个方面做了探讨和优化。关键词InfoMall,历史网页,信息检索,倒排文件,索引-ii-AbstractWebInfoMallisadigitallibrarytostorewebpagesofChineseWorldWideWebperiodicallyandexhibitthemtopeopleonline,whichisdesignedanddeve
5、lopedbyComputerNetworkandDistributedSystemsLaboratoryofPekingUniversity.Howevercurrentavailableservicesaretoolimitedtomeetuser’sinformationneedsandpreventitfrombeingwidelyused.Thatisagreatwasteofthevaluablearchaicwebpages.Inthisarticle,wepresentourideasofhowtousethesearchaicwebpagestoprovideinforma
6、tionservicetopublic.Inthisarticle,weanalyzedtheuser’sinformationneedsanddesignedapowerfulservicecalledInfoMallDataRetrievalService,usingathree-dimensionalmodelbasedontime,spaceandcontent.Wespecifiedthesyntaxofqueryanddesignedthecomponentofthesystem.Inaddition,wedesignedandimplementthefulltextretrie
7、valsystemthatisakeycomponentofInfoMallDataRetrievalService,whichisdesignedtobebothflexibilityandspacialeffective.KeywordsInfoMall,archaicwebpages,informationretrieval,invertedfile,index-iii-目录论文评定..........
此文档下载收益归作者所有