欢迎来到天天文库
浏览记录
ID:36790597
大小:3.25 MB
页数:102页
时间:2019-05-15
《基于专业搜索引擎网络蜘蛛搜索策略研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号UDC注l密级学位论文基于专业搜索引擎网络蜘蛛搜索策略研究(题名和副题名)冯月(作者姓名)指导教师姓名筮遁新熬攫(职务、职称、学位、单位名称及地址)申请专业学位级别硕士专业名称软件工程论文提交日期2QQ2:垒论文答辩日期2QQ2:5学位授予单位和日期电壬抖拉太堂答辩委2007mob月Z日注1:注明《国际十进分类法UDC))的类号。摘要基于专业搜索引擎网络蜘蛛(Spider)的设计主要包括结构体系设计和搜索策略的设计。关于专业搜索引擎体系结构方面的研究和设计,研究大多从负载平衡和搜索空间划分上给予分析。没有发现从网络蜘蛛的采集对象⋯.网络资源的分布
2、特点上进行分析研究。对于规模相对较小的专业搜索引擎,其网络资源采集器网络蜘蛛(Spider)一般也不可能拥有很大采集规模。因此专业搜索引擎搜索的专业资源的分布情况是Spider体系结构设计必须考虑的问题。对于搜索策略,通用搜索引擎一般使用基于IP地址穷尽式搜索和基于图遍历的广度或深度优先的搜索策略。上述策略既浪费了系统资源又达不到专业资源的搜索目的,显然不能适应专业搜索引擎的搜索需要。目前,相关研究中已经有基于启发式的搜索策略被提出,基于Web结构挖掘和基于内容相似度的计算都被用于专业搜索引擎的搜索策略的设计中。如何用较小的代价来实现搜索策略的优化?这
3、都是专业搜索引擎搜索策略研究需要解决的问题。作为一个理论与实践相结合的研究课题,本文作者主要工作和研究成果包括:1、首先研究了网络蜘蛛搜索算法,归纳总结出目前搜索策略的主要分类,选择了目前国内外典型的搜索算法进行比较,通过大量的实验结果图表展示了几种策略算法各自的优缺点。2、提出采用加入专业领域因素的Page.Rank算法⋯引进入链分类评价、链接所在网站专业相关度加权的综合链接价值评价策略,作为后面原型系统⋯分布式智能Spider的策略算法。3、设计实现了基于分布式的智能Spider系统。4、负责编码实现了原型系统中关键的一个子模块⋯.资源采集子模块。
4、关键词:搜索引擎,智能网络蜘蛛,搜索策略ABSTRACTThedesignofSpiderbasedonprofessionalsearchengineincludesthedesignofthesystem’Sstructureandthedesignofsearchstrategy.Ontheprofessionalsearchenginearchitectureresearchanddesign,moststudiesfoCUSontheloadbalanceandthesearchspacedefinedforanalysis.So栅.itiS
5、notfoundonethatfocusontheobjectcollectingbySpider-·-·-··thedistributionofnetworkresources.Fortherelativelysmallsizeoftheprofessionalsearchengine,Spidercannothaveahugescale.Thereforethedistributionofprofessionalresourcesmusebeconsideredwhenwedesignthesystemarchitecture.Forsearchs
6、trategy,generalsearchenginesusethestrategybasedIPaddressexhaustivesearchandbasedonthetraverseofthegraphbydepth··firstorwidth.firstsearchstrategy.However,thisstrategywouldbeawasteofthesystemresourcesanditisdifficulttogetourgoalsandmeetprofessionalsearchengineneeds.Currently,thest
7、rategybasedonaheuristicsearchwasproposedandWeb—basedstructureandcontent-baseminingsimilaritycalculationhasbeenusedforprofessionalsearchenginestrategydesign.Asaresearchtopiccombiningtheoryandpractice,therearethemainworkandachievementoftheauthor:1.TostudytheSpidersearchalgorithman
8、dsummarizethemainclassificationofthecurrentsear
此文档下载收益归作者所有