欢迎来到天天文库
浏览记录
ID:35123125
大小:4.58 MB
页数:65页
时间:2019-03-19
《试论一种专题式搜索引擎spider的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、北京化工大学硕士学位论文一种专题式搜索引擎Spider的设计与实现姓名:沈坚申请学位级别:硕士专业:计算机应用技术指导教师:赵恒永20080602摘要一种专题式搜索引擎Spider的设计与实现随着互联网(Intemet)的高速发展,人们的信息来源得到了极大的丰富,信息获取方式也随之而改变。这为人类带来机遇的同时也带来了挑战。在W.eb信息呈现几何级数增长的情况下,如何能够快速而准确地获取所需信息成为研究的热点之一。专题式搜索引擎(或专业搜索引擎)就是在这样的背景下孕育而生。搜索引擎包含多个模块,其中网络蜘蛛
2、Spider主要负责为搜索引擎提供数据来源。作为专业搜索引擎的Spider程序,对所处理的页面与专业的相关性有特殊要求。本论文从专业搜索引擎的特殊要求出发,提出以下创新点:(1)借鉴操作系统中CPU时间片轮换策略的思想,提出站点深度优先搜索模型,对同站点页面进行集中抓取;(2)提出页面和站点加权算法,以权值的形式表征页面、站点与专业的相关性,使Spider对相关度高的站点重点抓取;(3)提出二维矢量工作队列数据结构,保证站点深度优先搜索以及权值对站点处理时间的影响。最后,使用化工专业词库,通过实验对系统进行
3、测试和运行,验证系统的可行性,并对实验的结果进行进一步的分析。讨论了本专用搜索引擎Spider程序向通用搜索引擎Spider的转换。关键词:搜索引擎,网络蜘蛛,工作队列,加权算法,站点深度优先搜索摘要DESIGNANDIMPLEMENTATIoNOFASPIDERFoRToPIC.SPECIFICSEARCHENGINEABSTRACTWithhigh出welopmentoftheIntemet,peoplecaIlaCcesstremendousinfomation,andwaysofgaininginf
4、ormationhavealsochaIlged.ItbringsbothopportunitiesaIldChallengestohumanbeing.AstheW
5、ebresourCegrowsexponentiallMhowtoobtaininf-omationrapidlyandaccuratelybecomesanat缸.actiVeissue.T10pic—specificsearChengines(orspecificinfomationsearchengines)areintroducedo
6、ntmsbacl【ground.Asearchengineincludesseveralmodules:oneofthemiscalledSpid%whiChprovidesdatasourCeforsearChengines.HoweVer,勰aSpiderofatopic—specificsearChengine,thedemandofprocessingspecificinfomationneedstobemet.Inthisp印er,westudyanddevelopaSpideronfollowi
7、ngcoreconc印ts:(1)todrawontheexperienceofthetime—switchstrategyofCPU,webringuptheSite—d印th—firstSearchingModel.ItallowstheSpidertograbwebpagesconcentratiVely;(2)In仃oducethePage—siteW.eightedAlgorithmtodownloadhighlyrelatedsitesfirstbyusingaweightedValuetor印
8、resenttherelatiVitybetweenpagesorsitesandthespecificinformation;(3)Introduceadatas缸1lctllI.eofTWo.dimensionalV.ectorWbfkloadtoensur.eI北京‘匕i大学硕士学位论文Site—depm-firstSearchingModelandthetimecontrolofsitesprocessingwithwei曲tedValues.A“邪t,weconductanintegratedmn
9、llingtestt0Veri矽thefeasibilityofthesystembyusingaChe血st巧-specificdictionaⅨandma:kea缸恤钟analysiswiththeresults.Then,wediscussthetransfonnation行omatopic—speCificSpidertoanu11iVersalse鲫chengineSpider.KEYWoImS:sea
此文档下载收益归作者所有