欢迎来到天天文库
浏览记录
ID:32349959
大小:4.55 MB
页数:62页
时间:2019-02-03
《一种专题式搜索引擎spider设计与实现论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、摘要一种专题式搜索引擎Spider的设计与实现随着互联网(Intemet)的高速发展,人们的信息来源得到了极大的丰富,信息获取方式也随之而改变。这为人类带来机遇的同时也带来了挑战。在W.eb信息呈现几何级数增长的情况下,如何能够快速而准确地获取所需信息成为研究的热点之一。专题式搜索引擎(或专业搜索引擎)就是在这样的背景下孕育而生。搜索引擎包含多个模块,其中网络蜘蛛Spider主要负责为搜索引擎提供数据来源。作为专业搜索引擎的Spider程序,对所处理的页面与专业的相关性有特殊要求。本论文从专业搜索引擎的特殊要求出发,提出以下创新点:(1)借鉴操作系统
2、中CPU时间片轮换策略的思想,提出站点深度优先搜索模型,对同站点页面进行集中抓取;(2)提出页面和站点加权算法,以权值的形式表征页面、站点与专业的相关性,使Spider对相关度高的站点重点抓取;(3)提出二维矢量工作队列数据结构,保证站点深度优先搜索以及权值对站点处理时间的影响。最后,使用化工专业词库,通过实验对系统进行测试和运行,验证系统的可行性,并对实验的结果进行进一步的分析。讨论了本专用搜索引擎Spider程序向通用搜索引擎Spider的转换。关键词:搜索引擎,网络蜘蛛,工作队列,加权算法,站点深度优先搜索摘要DESIGNANDIMPLEMEN
3、TATIoNOFASPIDERFoRToPIC.SPECIFICSEARCHENGINEABSTRACTWithhigh出welopmentoftheIntemet,peoplecaIlaCcesstremendousinfomation,andwaysofgaininginformationhavealsochaIlged.ItbringsbothopportunitiesaIldChallengestohumanbeing.AstheW
4、ebresourCegrowsexponentiallMhowtoobtaininf-omationrapid
5、lyandaccuratelybecomesanat缸.actiVeissue.T10pic—specificsearChengines(orspecificinfomationsearchengines)areintroducedontmsbacl【ground.Asearchengineincludesseveralmodules:oneofthemiscalledSpid%whiChprovidesdatasourCeforsearChengines.HoweVer,勰aSpiderofatopic—specificsearChengine,t
6、hedemandofprocessingspecificinfomationneedstobemet.Inthisp印er,westudyanddevelopaSpideronfollowingcoreconc印ts:(1)todrawontheexperienceofthetime—switchstrategyofCPU,webringuptheSite—d印th—firstSearchingModel.ItallowstheSpidertograbwebpagesconcentratiVely;(2)In仃oducethePage—siteW.e
7、ightedAlgorithmtodownloadhighlyrelatedsitesfirstbyusingaweightedValuetor印resenttherelatiVitybetweenpagesorsitesandthespecificinformation;(3)Introduceadatas缸1lctllI.eofTWo.dimensionalV.ectorWbfkloadtoensur.eI北京‘匕i大学硕士学位论文Site—depm-firstSearchingModelandthetimecontrolofsitesproce
8、ssingwithwei曲tedValues.A“邪t,weconductanintegratedmnllingtestt0Veri矽thefeasibilityofthesystembyusingaChe血st巧-specificdictionaⅨandma:kea缸恤钟analysiswiththeresults.Then,wediscussthetransfonnation行omatopic—speCificSpidertoanu11iVersalse鲫chengineSpider.KEYWoImS:searchengine,Spider'wo
9、moad,weightedalgorit№,Site-d印th-firstsearchⅡ北京化工大学位论文原
此文档下载收益归作者所有