一种专题式搜索引擎spider设计与实现论文

一种专题式搜索引擎spider设计与实现论文

ID:32349959

大小:4.55 MB

页数:62页

时间:2019-02-03

一种专题式搜索引擎spider设计与实现论文_第1页
一种专题式搜索引擎spider设计与实现论文_第2页
一种专题式搜索引擎spider设计与实现论文_第3页
一种专题式搜索引擎spider设计与实现论文_第4页
一种专题式搜索引擎spider设计与实现论文_第5页
资源描述:

《一种专题式搜索引擎spider设计与实现论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要一种专题式搜索引擎Spider的设计与实现随着互联网(Intemet)的高速发展,人们的信息来源得到了极大的丰富,信息获取方式也随之而改变。这为人类带来机遇的同时也带来了挑战。在W.eb信息呈现几何级数增长的情况下,如何能够快速而准确地获取所需信息成为研究的热点之一。专题式搜索引擎(或专业搜索引擎)就是在这样的背景下孕育而生。搜索引擎包含多个模块,其中网络蜘蛛Spider主要负责为搜索引擎提供数据来源。作为专业搜索引擎的Spider程序,对所处理的页面与专业的相关性有特殊要求。本论文从专业搜索引擎的特殊要求出发,提出以下创新点:(1)借鉴操作系统

2、中CPU时间片轮换策略的思想,提出站点深度优先搜索模型,对同站点页面进行集中抓取;(2)提出页面和站点加权算法,以权值的形式表征页面、站点与专业的相关性,使Spider对相关度高的站点重点抓取;(3)提出二维矢量工作队列数据结构,保证站点深度优先搜索以及权值对站点处理时间的影响。最后,使用化工专业词库,通过实验对系统进行测试和运行,验证系统的可行性,并对实验的结果进行进一步的分析。讨论了本专用搜索引擎Spider程序向通用搜索引擎Spider的转换。关键词:搜索引擎,网络蜘蛛,工作队列,加权算法,站点深度优先搜索摘要DESIGNANDIMPLEMEN

3、TATIoNOFASPIDERFoRToPIC.SPECIFICSEARCHENGINEABSTRACTWithhigh出welopmentoftheIntemet,peoplecaIlaCcesstremendousinfomation,andwaysofgaininginformationhavealsochaIlged.ItbringsbothopportunitiesaIldChallengestohumanbeing.AstheW

4、ebresourCegrowsexponentiallMhowtoobtaininf-omationrapid

5、lyandaccuratelybecomesanat缸.actiVeissue.T10pic—specificsearChengines(orspecificinfomationsearchengines)areintroducedontmsbacl【ground.Asearchengineincludesseveralmodules:oneofthemiscalledSpid%whiChprovidesdatasourCeforsearChengines.HoweVer,勰aSpiderofatopic—specificsearChengine,t

6、hedemandofprocessingspecificinfomationneedstobemet.Inthisp印er,westudyanddevelopaSpideronfollowingcoreconc印ts:(1)todrawontheexperienceofthetime—switchstrategyofCPU,webringuptheSite—d印th—firstSearchingModel.ItallowstheSpidertograbwebpagesconcentratiVely;(2)In仃oducethePage—siteW.e

7、ightedAlgorithmtodownloadhighlyrelatedsitesfirstbyusingaweightedValuetor印resenttherelatiVitybetweenpagesorsitesandthespecificinformation;(3)Introduceadatas缸1lctllI.eofTWo.dimensionalV.ectorWbfkloadtoensur.eI北京‘匕i大学硕士学位论文Site—depm-firstSearchingModelandthetimecontrolofsitesproce

8、ssingwithwei曲tedValues.A“邪t,weconductanintegratedmnllingtestt0Veri矽thefeasibilityofthesystembyusingaChe血st巧-specificdictionaⅨandma:kea缸恤钟analysiswiththeresults.Then,wediscussthetransfonnation行omatopic—speCificSpidertoanu11iVersalse鲫chengineSpider.KEYWoImS:searchengine,Spider'wo

9、moad,weightedalgorit№,Site-d印th-firstsearchⅡ北京化工大学位论文原

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。