资源描述:
《垂直搜索引擎关键技术综述new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、2011InternationalConferenceonManagementInnovation,InformationTechnologyandEconomicGrowthASurveyofVerticalSearchEnginesTechnology1,211XiaohuaWANG,YunSHA,FengLIANG1Dept.ofInformationandManagement,BeijingInstituteofPetrochemicalTechnology,Beijing,China,1026002SchoolofComputerScienceandTechnology,
2、BeijingInstituteofTechnology,Beijing,China,102600Email:wangxiaohua@bipt.edu.cnAbstract:WiththeWeb’srapidgrowth,fromwhichtoobtaincomprehensive,accurateandqualityinforma-tionbecomesmoredifficult.Verticalsearchenginesasapotentialsolutiontothelimitationsofgeneralsearchengines,withintelligent,perso
3、nalizedandprofessionalcharacteristics,becomeahotresearch.Inthispaper,researchonverticalsearchenginesinvolvedinkeytechnologyandmethodsarereviewed,andsomeoftheimportantalgorithmsaredescribedanddiscussedindetail.Keywords:verticalsearchengines;focusedcrawler;Webinformationextraction垂直搜索引擎关键技术综述1,2
4、11王晓华,沙芸,梁峰1北京石油化工学院信息管理系,北京,中国,1026002北京理工大学计算机科学与技术学院,北京,中国,100081Email:wangxiaohua@bipt.edu.cn摘要:随着Web的快速增长,从中获取全面、准确和高质量的信息变的越发困难。垂直搜索引擎作为解决通用搜索引擎局限性的一种潜在方案,有着智能化、专业化的特点,从而成为当前研究的热点。本文主要对垂直搜索引擎研究领域中涉及的关键技术和方法进行了综述,并对一些重要算法进行了详细介绍和讨论。关键词:垂直搜索引擎;主题爬虫;网页信息提取面高质的法律专业信息的效率大大提高。Elsevier的1引言Sciru
5、s系统是一种专为搜索高度相关的科学信息而设计随着网络的发展,尤其是Web2.0的兴起,通用搜的搜索引擎,是目前互联网上最全面、综合性最强的科索引擎的地位正遭到挑战。通用搜索引擎在应用中能够技文献门户网站之一,它只面向包含有科学内容的网站为用户提供大量的搜索结果,但是通用搜索引擎在追求[1]。WallStreetResearchNetwork是由美国WSRN公司开返回更多信息的同时,很难兼顾到搜索结果的准确度和发建立的经济与财经类的专业搜索引擎,专门检索经济相关度,对于行业用户信息需求相对集中、分类更加精研究、工商企业、市场新闻、共同基金、投资中介商和细的要求缺乏足够的导向作用。目前
6、随着人工智能技术经济研究出版物等各类信息[2]。的进一步成熟和信息服务的多样化,面向领域问题的垂垂直搜索引擎研究领域的关键技术主要包括了主直搜索引擎(verticalsearchengines)技术已成为搜索引擎题爬虫技术、Web信息提取技术、索引技术、标注技术研究领域的热点。垂直搜索是针对特定领域或行业的需等。本文将着重对主题爬虫技术和网页信息抽取技术进求提供有一定价值的信息和相关服务,需要对特定领域行详细介绍和讨论。文章主要内容按以下方式组织。第的内容进行深入分析挖掘、精细分类和过滤筛选。二部分介绍主题爬虫技术。第三部分介绍Web信息抽近年来国内外研究人员针对垂直搜索技术的研究
7、取。第四部分总结。已经进行了大量的工作,产生了一些效果较好的垂直搜2主题爬虫(Focusedcrawlers)技术索系统。LIBClient-IRISWeb系统是NorthCarolina大学计算机科学系和法学院联合开发研制的,可以用自然对于一个垂直搜索引擎来说,首先需要使用主题爬语言对网上的法律信息进行全文检索,使得用户获得全虫获取WWW上与特定领域(主题)相关的网页,并1141978-1-935068-70-9©2011SciRes.2011Internation