欢迎来到天天文库
浏览记录
ID:34555988
大小:2.66 MB
页数:49页
时间:2019-03-07
《主题web搜索引擎优化与实现研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、合肥工业大学硕士学位论文主题WEB搜索引擎优化与实现研究姓名:刘兵申请学位级别:硕士专业:计算机技术指导教师:胡学钢;黄玉春20090901主题WEB搜索引擎优化与实现研究摘要随着Internet的快速发展,特别是WWW技术的飞速进步,互联网己经成了全球最大的分布式信息数据库。一方面网络的信息量迅速猛增,为资源的共建共享提供了良好的平台,另一方面又使有用信息的索取和查询变得越来越困难。用户获得的信息往往不及时,不准确,并且有大量的冗余无关信息。因此在20世纪90年代开始,产生了搜索引擎技术,并随着需要,逐渐向专题型,个性化方向发展。如何加强主题搜索引擎技
2、术的研究,实现更有效的信息获取,是当前搜索引擎发展的一个重要方向。本文在对搜索引擎技术讨论的基础上,对Web主题搜索引擎技术的优化和实现进行了研究。主要工作如下:(1)概述了通用搜索引擎的发展、分类以及它的结构和工作原理。(2)分析了主题Web搜索的发展现状、研究背景,主题搜索引擎和通用搜索引擎的差异;对主题Web搜索的关键技术和主题网络蜘蛛进行了讨论。(3)分析了网络蜘蛛的Best-First搜索算法,并对算法进行了优化;分析了页面中存在着的动态链接和静态链接等多种链接情况,讨论了在网页中通过对动态链接的解析,更全面的抓取页面中存在的网络链接。(4)基
3、于上述研究,实现了一个主题WEB挖掘系统(TWMS,TopicWebMiningSystem)。给出了系统设计结构图,系统实现的关键技术和方法,并对系统进行了测试。关键词:搜索引擎;Best—First算法;动态链接ResearchOnTheOptimizesandRealizeOfTopicWebSearchEngineABSTRACTWiththerapiddevelopmentoftheInternet,especiallywiththeastonishionlyrapiddevelopmentoftheWorldWideWebtechnology
4、,theInternethasbecomethelargestdistributedinformationandknowledgedatabaseintheworld.Ontheonehand,therapidsurgeintheamountofinformationnetworksprovidesagoodplatformforasharedresource,ontheotherhandtoobtainusefulinformationandinquirieshavebecomeincreasinglydifficult.Receivingtheinf
5、ormationforusersisoftennottimely,inaccurate,andhasalotofredundantinformation.SOfrom1990’S,thesearchenginehavecomeintobeing,andgraduallydeveloptothesubjecttype,individuationfortheneed.HowtoenhancetheresearchofTopicsearchenginetechnologyinordertoachievemoreefficentinformation,isani
6、mportantdirectionforthecurrentsearchenginesdevelopment.Inthisdissertation,basedonthediscussionsofthesearchenginetechnology,theoptimizesandrealizeoftopicwebsearchenginearestudied.Themainresultsarefollowing:(1)Thedevelopmentofgeneralsearchengines,classification,itsstructureandworki
7、ngprinciplearedescribed.(2)Thedevelopmentoftopicwebsearchengine,researchbackground,thedifferentoftopicsearchengineandgeneralsearchengine,areanalyzed.Thekeytechnologiesoftopicwebsearchandtopicwebspiderarediscussed.(3)Thewebspider’SBest—Firstsearchalgorithmisanalyzed,andthealgorith
8、misoptimized.Atthesametime,thedynamicpag
此文档下载收益归作者所有