资源描述:
《web搜索引擎.net实现技术研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、WEB搜索引擎.NET实现技术研究第24卷第10期2007年10月计算机应用与软件ComputerApplicationsandSoftwareVo1.24No.100ct.20o7WEB搜索引擎.NET实现技术研究蒋志刚叶勇(中国科学技术大学计算机科学与技术系安徽合肥230027)摘要随着网络信息量的爆炸式增长,人们查找信息越来越难.Web搜索引擎的出现在一定程度上解决了这种矛盾.讲述了搜索引擎的现状及发展趋势,并基于.net对搜索引擎的关键技术提出了实现方法.关键词搜索引擎采集器正则表达式全文索TECHNO
2、LOGYOFTHEREALIZATIONOFWEBSEARCHENGINEBASEDON.NETJiangZhigangYeYong(DepartmentofComputerScienceandTechnology,UniversityofScienceandTechnologyofChina,Hefei230027,Anhui,China)AbstractWiththeexplosiveincreaseofthenetworkinformation,itbecomesmoreandmoredifficult.
3、forpeopletofindtheinformationtheyneeded.Theoccurrenceofwebsearchenginesolvesthisproblemtoadegree,Thecurrentstateandthetrendofthesearchengineayedis-cussed,andbasedon,net,amethodfortherealizationofthekeytechniqueofsearchengineisproposed.KeywordsSearchengineSpi
4、derRegularexpressionFulltextindex0引言随着Internet/lntranet的迅速发展,网络正深刻地改变着我们的生活.而在网上发展最为迅猛的www技术,以其直观,方便的使用方式和丰富的表达能力,已逐渐成为Internet上最重要的信息发布和传输方式,Web上的信息也如雨后春笋般迅速增长起来.然而,Web信息的急速膨胀,在给人们提供丰富信息的同时,又使人们在对它们的有效使用方面面临一个巨大的挑战.一方面网上的信息多种多样,丰富多彩,而另一方面用户却找不到他们所需要的信息.因而基于
5、www的网上信息的采集,发布和相关的信息处理日益成为人们关注的焦点.Web搜索引擎正是其中的一项核心技术.搜索引擎现状及发展趋势搜索引擎通常指的是基于因特网的搜索引擎,它们收集因特网上几千万到几亿个网页,并且每一个网页上的每一个词都被搜索引擎所收录,也就是我们所说的全文检索.典型的因特网搜索引擎包括FirstSearch,Google,HotBot,Infoseek,Northernlight,百度等.现在大多数的搜索引擎以搜索文字信息为主,并基于关键字的匹配为用户提供检索服务.随着网络带宽的不断加大,多媒体信
6、息在网上迅速增加.这就对多媒体信息的检索提出了要求.新一代的搜索引擎应该在自然语言处理,数据挖掘和机器学习技术,基于内容的多媒体查询技术,多通道用户界面(语音,自然语言,多媒体)方面有所突破.有人指出基于关键字的查询很难表达很多复杂的概念,而且常常得到太多不相关的结果(浪费时间和精力).随着语音识别技术和多媒体技术的发展,未来的搜索引擎应该可以利用语音作为输入,由于人们各自感兴趣的领域不同,各自对词意的理解也不尽相同,不同的用户对同一个检索请求得到的检索结果有不同的评价.一个理想的搜索引擎应该对不同的用户在相同
7、的检索请求下有不同的检索结果,即对用户具有自适应能力.2搜索引擎工作原理搜索引擎通常使用一个或多个采集器从Internet上收集各种数据(如www,丌P,Email,News),然后在本地服务器上为这些数据建立索引,当用户检索时根据用户提交的检索条件从索引库中迅速查找到所需的信息.Web信息采集器是搜索引擎的核心部分,它通过Web页面之间的链接关系,从Web上自动地获取页面信息,并且随着链接不断向所需要的Web页面扩展.传统Web信息采集的目标就是尽可能多地采集信息页面,甚至是整个Web上的资源,而在这一过程中
8、它并不太在意采集的顺序和被采集页面的相关主题.这样做的一个极大好处是能够集中精力在采集的速度和数量上,并且实现起来也相对简单,例如Google采集系统在并行4个采集器时的速度可以达到每秒100页,从而它配合信息检索服务给网络用户的通用信息查询带来了很大的便利.但是,这种传统的采集方法对服务器的要求是非常高的,并且因为其采集的信息过于广泛,对整个in-ternet的遍历周期过长,从而造成