欢迎来到天天文库
浏览记录
ID:28635459
大小:80.50 KB
页数:22页
时间:2018-12-12
《面向主题搜索引擎设计实现分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、-面向主题的搜索引擎的设计与实现由于互联网的飞速发展,普通搜索引擎无法满足人们的需要;早期的搜索引擎把因特网中的资源服务器的地址起来,根据其提供的资源类型的不同而分到不同的目录,再一层层地进行分类。人们要找自己想要的可按他们的分类一层层进入,就能最后到达目的地,找到自己想要的;但是这只适用于因特网不多的时候,但是如果一旦多起来,查找的时候所花费的时间就会变长;因此,在一个web文档数上亿的互联网中,需要更快速地找到所需要的,就需要建立一个高效的搜索系统。该课题总结了现有面向主题的搜索引擎的技术特点,实现一个能满足基本需求的主题搜索引擎;在该课题中叙述了面向主题搜索引擎的重要性、实
2、现方法、实现过程;主要是web文档抓取、特征提取、web文档分类技术;特征值应具有明显的特征,以此提高搜索引擎质量;在实现自动web文档分类时采用向量空间模型计算web文档间的相似度。1绪论1.1搜索引擎历史背景任何搜索引擎的祖先,是1990年由Montreal的McGillUniversity学生AlanEmtage、PeterDeutsch、BillWheelan发明的Archie。虽然当时WorldWideWeb还未出现,但网络中文档传输还是相当频繁的,由于大量的文档散布在各个分散的FTP主机中,查询起来很不便,因此AlanEmtage等想到了研发一个能够用文档名查找文档的
3、系统,于是便有了Archie。Archie是第一个自动索引互连网上匿名FTP网站文档的程式,但他还不是真正的搜索引擎。Archie是个可搜索的FTP文档名列表,用户必须输入精确的文档名搜索,然后Archie会告诉用户哪一个FTP地址能够该文档。由于Archie深受欢迎,受其启发,NevadaSystemComputingServices大学于1993年研发了一个Gopher搜索工具Veronica。Jughead是后来另一个Gopher搜索工作.Robot一词对编程者有特别的意义。ComputerRobot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程式。由于专门用于
4、检索的Robot程式象蜘蛛相同在网络间爬来爬去,因此,搜索引擎的Robot程式被称为spider程式。世界上第一个Spider程式,是MITMatthewGray的WorldwideWebWanderer,用于追踪互连网发展规模。刚开始他只用来统计互连网上的服务器数量,后来则发展为也能够捕获网址。.---和Wanderer相对应,1993年10月MartijnKoster创建了ALIWEB,他相当于Archie的HTTP版本。ALIWEB不使用网络搜寻Robot,假如网站主管们希望自己的web文档被ALIWEB收录,需要自己提交每一个web文档的简介索引,类似于后来大家熟知的Ya
5、hoo。随着互连网的迅速发展,使得检索任何新出现的web文档变得越来越困难,因此,在Wanderer基础上,一些编程者将传统的Spider程式工作原理作了些改进。其设想是,既然任何web文档都可能有连向其他网站的链接,那么从一个网站开始,跟踪任何web文档上的任何链接,就有可能检索整个互连网。到1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中最负盛名的三个是:Scotland的JumpStation、Colorado大学OliverMcBryan的TheWorldWideWebWorm、NASA的Repository-BasedSoftwareEngineeringspi
6、der。JumpStation和WWWWorm只是以搜索工具在数据库中找到匹配的先后次序排列搜索结果,因此毫无关联度可言。而RBSE是第一个索引Html文档正文的搜索引擎,也是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。1995年,一种新的搜索引擎形式出现了——元搜索引擎。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的单独搜索引擎,并将从各单独搜索引擎返回的任何查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是Washington大学硕士生EricSelberg和OrenEtzioni的Metacrawler。元搜索引擎概念上好听,但搜
7、索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。大约在1996年出现的第二代搜索引擎系统大多采用分布式方案来提高数据规模、响应速度和用户数量,它们一般都保持一个大约50,000,000web文档的索引数据库,每天能够响应10,000,000次用户检索请求。1997年11月,当时最先进的几个搜索引擎号称能建立从2,000,000到100,000,000的web文档索引。目前,搜索引擎的研究、开发十分活跃,各大搜索引擎公司都在投巨资研制搜索引擎系统,同时也不断地涌现出新的具有鲜
此文档下载收益归作者所有