欢迎来到天天文库
浏览记录
ID:4245850
大小:2.97 MB
页数:56页
时间:2017-11-30
《基于net搜索引擎设计与实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、大连理工大学硕士学位论文基于ASP.NET搜索引擎设计与实现姓名:苏晓宇申请学位级别:硕士专业:软件工程指导教师:覃振权20091216大连理工大学专业学位硕士学位论文摘要互联网的快速发展使得网络中的信息量越来越大,普通用户对信息的检索越来越困难。搜索引擎的出现大大的改善了这种情况,互联网的快速发展也使搜索引擎不断的发展着,而搜索引擎逐渐转向商业化运行,使得搜索引擎的技术细节越来越隐蔽。本文以搜索引擎的三个基本功能:网页爬取、网页处理、提供搜索服务为出发点,并按这三个功能将系统进行功能模块划分,以
2、ASP.NET作为技术基础,实现了一个搜索引擎。网页中存在着大量链接的同时也具有众多的冗余信息一例如,导航信息条、广告栏、版权信息等,这些冗余信息大大限制了网页的可用性,因此在本文中网页爬取的重点就是如何快速的提取这些链接,而网页处理的重点则是去除网页中的冗余信息。本文利用正则表达式的灵活性实现了对网页中链接地址的提取和网页中冗余信息的剔除。在获取链接地址进行网页爬取的同时对网页信息进行提取,同时基于最大化匹配算法实现中文分词算法,并利用DotLucene提供的接口成功实现对提取网页信息的索引,经
3、过网页信息的提取和分词预处理,检索过程建立的索引更小,检索的效率和结果更加理想,并基于此索引为用户的查询请求提供服务。基于互联网个性化的发展思路,本文为用户设计了建议网站功能,用户向搜索引擎共享自己的网站,管理员审查后将用户建议网站添加至爬取开始列表,实现用户参与搜索引擎工作。通过系统实现可以看到,系统可以稳定的运行,基本符合搜索索引擎原理的探索和系统实现具有一定的意义。关键词:搜索引擎;网页爬取;最大匹配分词基于ASP.NET搜索引擎设计与实现DesignandRealizationofSear
4、chEngineBasedonASP.NETAbstractWiththerapiddevelopmentoftheIntemet,ithasbecomethelargestinformationsourceinourlife.Informationsearchandretrievalforordinaryusersbecomemoreandmoredifficult.1heemergenceofsearchenginesgreatlyimprovesthissituation.Searcheng
5、inehasmadeaconstantdevelopmentwimthedevelopmentoftheInternet,butitsgraduallyshiftingtocommercialoperationmakesthetechnicaldetailsofsearchenginemoreandmorehidden.WiththestartpointofthreebasicrequirementsofsearchenginesasWebSpider,Pages’ProcessingandPro
6、vidingServices,thispaperdividesthesystemintothreefunctionalmodules,andbasedonASP.NET,thispaperexplorestheprincipleandrealizesonesearchengines.Inwebpages,therearealargenumberoflinks,howtofetchouttheselinksfastiSthekeypointoftheWebSpiderinthispaper.Atth
7、esanletime,webpagescontaina10tofredundantinformation,navigationtools,advertisingfields,copyrightinformationandsoon,nleseredundantinformationlimittheavailabilityofinformation.Sohowtoremovetheredundantinformationisthefocusofthepageprocessing.Asregularex
8、pressions’flexibility,thispaperusesregularexpressionstoachievetheextractionoflinksandremoveredundantinformationinwebpages.Extractionofpages’informationisdoingwhileWebSpiderisfetchingpages.Afterthat,thispaperrealizesChineseWordSegmentationbased
此文档下载收益归作者所有