欢迎来到天天文库
浏览记录
ID:23283384
大小:3.14 MB
页数:57页
时间:2018-11-06
《垂直搜索引擎架构和实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、人连理1:人学专业学何硕十学位论文摘要‘旺联网l:的信息每天都在不断的增长,面对如此浩瀚的资源,搜索引擎为所有网上冲浪的用户捉供了一个入口,毫不夸张地说,所有的用户都可以从搜索引擎出发到达自己想去的网I:任何一个地方。因此它也成为除了电子邮件以外最多人使用的网上服务。但是,随着信息多元化的增长,千篇一律的给所有用户提供同一个入口显然已经不能满足特定川户更深入的查询需求。同时,这样的通用搜索引擎在目前的硬件条件下,要及时更新以得到互联网上较全面的信息是不太可能的。针对这种情况,我们需要一个面向主题的、对硬件要求低、数据全面深入、更新及时的垂直搜索引擎。近几年来,垂直搜索引擎已经被应用到
2、某些专业的领域(如化学、科技文献)。本文从理论和实践两个方面探讨了网络信息检索技术以及检索技术在搜索引擎系统【fl的应用,采刖基j-内,容和基于链接的搜索技术相结合的思想,设计实现了一个垂直搜索系统。垂£f搜索系统巧妙地利用元搜索引擎来实现确定初始站点集合,提高了初始站点集合的精度。在进行超链分析中,系统采取了基二r内容和基于链接相结俞的方法,充分考虑了』l彳j.潜在引航性质的信息,如锚、引用计数,结合网页本身与主题的十
3、j关度,计算网页的权值,达到优先选择与主题最相关的网页进行搜索,有效地提高了搜索的效率。论文首先阐述了网络信息发展的现状和搜索引擎发展的不足,指出了垂直搜索引擎的概
4、念和研究的必要性。然后对垂直搜索引擎进行理论性的分析,介绍了系统涉及的术语和关键技术,具体介绍了网络蜘蛛(spider)的设计规则和法则、超链分析以及垂商搜索的相关算:法。最后是系统的设计和实现部分,在上述理论分析的基础上提出了系统的设计思想,采用基于链接和基于内容相结合的方法,并介绍了系统的结构和具体实现技术。关键词:垂直搜索引擎;超链分析;网络蜘蛛人连理l:人学专业学位硕十学位论文VerticalsearchenginesonthestructureandachieveAbstractInformationontheInternetgrowsexplosivelyeveryday
5、.Searchengineprovidesallthesurfersonitwithallentrance,fromwhichtheycanreachnearlyeverynodesoftheW曲.Therefore,searchenginebecomesthemostpopularInternetservicebesidesemail.Withinformationexplodinginalldirections,however,somespecifickindsofusersarenotsatisfiedwithcommonsearchengine.Inthemeanwhile,
6、duetocurrenthardwarelimitations,itisnotlikelytoretrieveenoughinformationfromtheInternet.Thereforeaverticalsearchengineisneeded,whichiswellclassified,requestinglowerhardwareconfiguration,containingprofoundandsufficientinformation,andbeingupdatedintime.Inrecentyears,manyverticalsearchtoolshavebee
7、ndevelopedtoservetheinformationrequirementofspecificfields,suchaschemistryandscienceliterature.AfterdiscussingthetechnologyofWebinformationretrievalbothontheoryandapplication,affameworkforaverticalsearchsystemisputforward.Thissystemcombinescontent—basedanalysiswithlink—basedanalysis.Thispaperex
8、patiatesthestructureanditstheory.thesystemmakesuseofsearchengineofyuantorealizeconfirmingthattheinitialwebsitegathersingeniously,haveimprovedtheprecisionthattheinitialwebsiteassembles.Inanalysingtheultrachain,themethodtocombinetog
此文档下载收益归作者所有