欢迎来到天天文库
浏览记录
ID:15379772
大小:255.09 KB
页数:30页
时间:2018-08-03
《基于.net搜索引擎》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、基于ASP.Net搜索引擎的设计与实现目录摘要3ABSTRACT4第一章绪论51.1搜索引擎的背景及意义51.2搜索引擎的现状6第二章搜索引擎概述82.1搜索引擎的概念82.2搜索引擎的发展82.3搜索引擎的工作原理92.4.NET简介10第三章搜索引擎的设计113.1网页搜集113.1.1网络爬虫的介绍113.1.2网络爬虫设计123.1.3网络蜘蛛的实现143.1.4数据库设计163.2网页的信息处理163.2.1倒排索引163.2.2Lucene.Net介绍173.2.3索引结构193.2.4中文分词技术213.3查询信息243.3.1查询实现253.3.2word文档
2、查询263.3.3关键字高亮显示27第四章用户接口设计284.1用户注册、登陆284.2查询扩展284.3个性化查询294.4系统数据库设计30第五章测试与评价315.1查询测试315.2评价32第六章结论和展望33参考文献35致谢36附录37摘要互联网的快速发展使得网络中的信息量越来越大,普通用户对信息的检索越来越困难。搜索引擎的出现大大的该少了这种情况,互联网的快速发展也使搜索引擎的不断的发展着,而搜索引擎的逐渐转向商业化运行,使得搜索引擎的技术细节越来越隐蔽。本文以搜索引擎的三个基本功能:网页爬取、网页处理、查询服务为出发点,并按这三个功能将系统进行功能模块划分,以AS
3、P.NET技术作为基础,实现了一个搜索引擎。网页中存在着大量链接的同时也具有众多的冗余信息,例如,导航信息条、广告栏、版权信息等,这些冗余信息大大限制了网页的可用性,因此在本文中网页爬取的重点就是如何快速的提取这些链接,而网页处理的重点则是去除网页中的冗余信息。本文利用正则表达式的灵活性实现了对网页中链接地址的提取和网页中冗余信息的剔除。在获取链接地址进行网页爬取的同时对网页信息进行提取,同时基于最大化匹配算法实现中文分词算法,并利用DotLucne提供的接口功能成功实现对提取网页信息的索引,经过网页信息的提取和分词预处理,检索过程建立的索引更小,检索的效率和结果更加理想,并
4、基于此索引为用户的查询请求提供服务。关键词:搜索引擎;网页爬取;ASP.net;中文分词;AbstractWiththerapiddevelopnebtoftheInternet,ithasbecomethelargestinformationsourceinourlife.Informationsearchanretrievalforordinaryusersbecomemoreandmoredifficult.Theemergenceofsearchenginesgreatlyimprovesthissituation.Searchenginehasmadeaconsta
5、ntdevelopmentwiththedevelopmentoftheInternet,bututsgraduallyshiftingtoconmmercialoperationmakesthetechnicaldetailsofsearchenginemoreandmorehidden.WiththestartpointofthreebasicrequirmentsofsearchenginesasWebSpider,Pages’ProcessingandProvidingServives,thispaperdividesthesystemintothreefunctio
6、nalmodules,andbasedonASP.NET,thispaperexplorestheprincipleandrealizesonesearchengines.Inwebpages,threearealargenumberoflinks,howtofetchouttheselinksfastisthekeypointoftheWebSpiderinthesepaper.Atthesametime,webpagescontainalotofredundantinformationg,navigationtools,advertisingfields,copyrigh
7、tinformationandsoon,theseredundantinformationlimittheavailabilityofinformation.Sohowtoremovetheredundantinformationisfocusofthepageprocessing.Asregularexpressiongs’flexibility,thispaperusesregularexpressionstoachievetheextractionoflinksandremoveredundant
此文档下载收益归作者所有