试论一种专题式搜索引擎spider的设计与实现

试论一种专题式搜索引擎spider的设计与实现

ID:35123125

大小:4.58 MB

页数:65页

时间:2019-03-19

试论一种专题式搜索引擎spider的设计与实现_第1页
试论一种专题式搜索引擎spider的设计与实现_第2页
试论一种专题式搜索引擎spider的设计与实现_第3页
试论一种专题式搜索引擎spider的设计与实现_第4页
试论一种专题式搜索引擎spider的设计与实现_第5页
资源描述:

《试论一种专题式搜索引擎spider的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、北京化工大学硕士学位论文一种专题式搜索引擎Spider的设计与实现姓名:沈坚申请学位级别:硕士专业:计算机应用技术指导教师:赵恒永20080602摘要一种专题式搜索引擎Spider的设计与实现随着互联网(Intemet)的高速发展,人们的信息来源得到了极大的丰富,信息获取方式也随之而改变。这为人类带来机遇的同时也带来了挑战。在W.eb信息呈现几何级数增长的情况下,如何能够快速而准确地获取所需信息成为研究的热点之一。专题式搜索引擎(或专业搜索引擎)就是在这样的背景下孕育而生。搜索引擎包含多个模块,其中网络蜘蛛

2、Spider主要负责为搜索引擎提供数据来源。作为专业搜索引擎的Spider程序,对所处理的页面与专业的相关性有特殊要求。本论文从专业搜索引擎的特殊要求出发,提出以下创新点:(1)借鉴操作系统中CPU时间片轮换策略的思想,提出站点深度优先搜索模型,对同站点页面进行集中抓取;(2)提出页面和站点加权算法,以权值的形式表征页面、站点与专业的相关性,使Spider对相关度高的站点重点抓取;(3)提出二维矢量工作队列数据结构,保证站点深度优先搜索以及权值对站点处理时间的影响。最后,使用化工专业词库,通过实验对系统进行

3、测试和运行,验证系统的可行性,并对实验的结果进行进一步的分析。讨论了本专用搜索引擎Spider程序向通用搜索引擎Spider的转换。关键词:搜索引擎,网络蜘蛛,工作队列,加权算法,站点深度优先搜索摘要DESIGNANDIMPLEMENTATIoNOFASPIDERFoRToPIC.SPECIFICSEARCHENGINEABSTRACTWithhigh出welopmentoftheIntemet,peoplecaIlaCcesstremendousinfomation,andwaysofgaininginf

4、ormationhavealsochaIlged.ItbringsbothopportunitiesaIldChallengestohumanbeing.AstheW

5、ebresourCegrowsexponentiallMhowtoobtaininf-omationrapidlyandaccuratelybecomesanat缸.actiVeissue.T10pic—specificsearChengines(orspecificinfomationsearchengines)areintroducedo

6、ntmsbacl【ground.Asearchengineincludesseveralmodules:oneofthemiscalledSpid%whiChprovidesdatasourCeforsearChengines.HoweVer,勰aSpiderofatopic—specificsearChengine,thedemandofprocessingspecificinfomationneedstobemet.Inthisp印er,westudyanddevelopaSpideronfollowi

7、ngcoreconc印ts:(1)todrawontheexperienceofthetime—switchstrategyofCPU,webringuptheSite—d印th—firstSearchingModel.ItallowstheSpidertograbwebpagesconcentratiVely;(2)In仃oducethePage—siteW.eightedAlgorithmtodownloadhighlyrelatedsitesfirstbyusingaweightedValuetor印

8、resenttherelatiVitybetweenpagesorsitesandthespecificinformation;(3)Introduceadatas缸1lctllI.eofTWo.dimensionalV.ectorWbfkloadtoensur.eI北京‘匕i大学硕士学位论文Site—depm-firstSearchingModelandthetimecontrolofsitesprocessingwithwei曲tedValues.A“邪t,weconductanintegratedmn

9、llingtestt0Veri矽thefeasibilityofthesystembyusingaChe血st巧-specificdictionaⅨandma:kea缸恤钟analysiswiththeresults.Then,wediscussthetransfonnation行omatopic—speCificSpidertoanu11iVersalse鲫chengineSpider.KEYWoImS:sea

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。