欢迎来到天天文库
浏览记录
ID:33933730
大小:326.95 KB
页数:4页
时间:2019-02-28
《基于遗传算法的专业元搜索引擎》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、万方数据第35卷’,01.3s第2l期No.2l计算机工程ComputerEngineering2009年11月November2009·人工智能及识别技术·文章编号tloom-3428(2009)2l卅192—03文献标识码:A中圈分类号ITP274+.2基于遗传算法的专业元搜索引擎赵大孵1,鱼滨2(1.西北大学信息科学与技术学院,西安710127;2.西安电子科技大学计算机学院,西安710071)攮耍:元搜索引擎返回的查询结果来自独立搜索引擎,要评价此类结果的专业相关性,必须挖掘其位置信息以外的其他信息。研究并实现面向培训领域的元
2、搜索引擎,在充分挖掘姗页文本信息的基础上,提取专业网页样本特征,结合遗传算法给出网页专业相关度算法。实验结果表明,该引擎具有较高的专业信息筛选和排序能JJ。关健词:元搜索引擎;专业搜索引擎;遗传算法;相关度模型ProfessionalMeta-searchEngineBasedonGeneticAlgorithmZHAODa—min91.YUBin‘(1.CollegeofInformationScienceandTechnology,NorthwestUniversity。Xi’an710127;2.CollegeofCompute
3、r,XidianUniversity,Xi’an710071)[Abstract]Thequeryresultreturnedbymeta—searchengineisfromtheind印endentsearchengine.Toevaluatetheprofessionalrelevanceoftheseresults,itmustexploitmoreinformationthanthelocationinformation.Thispaperstudiesandrealizesatrainingfieldorientedmet
4、a—searchengine.ItfullyminesthefileinformationofWebpage,extractsswatchcharacteristicsofprofessionalWebpageandgivesprofessionalrelevancedegreealgorithmforWebpage.Experimentalresultsshowthatthisenginehashighabilityofprofessionalinformationfiltrationandtaxis.[Keywords]meta—
5、searchengine;professionalsearchengine;GeneticAlgorithm(GA);relevancedegreemodel1概述信息搜索的覆盖率和精度是用户使用搜索引擎时最关心的2个指标。由于互联网上的信息量不断增加,使得单个搜索引擎不可能覆盖全部信息。据统计,在现有搜集引擎中,覆盖率最高的AltaVista只能覆盖约40%的相关信息。由于机制、算法不同,同一个检索请求在不同搜索引擎中的查询结果的重复率不足34%。因此,集成多个搜索引擎的元搜索引擎成为人们研究的重点。元搜索引擎通过调用多个搜索引擎有
6、效提高了信息覆盖率。如何从多个搜索引擎返回的信息中挑选出精度高的信息,成为元搜索引擎需要解决的关键问题之一。元搜索引擎自身没有数据库,它在多个独立搜索引擎的基础上处理数据,因此,其响应速度低于独立搜索引擎。普通的元搜索引擎无法很好地满足用户要求,对于某些专业领域的用户,使用普通元搜索引擎检索信息时,得到的多数网页是没有用的。因此,有必要研究并实现面向专业领域的专业型搜索引擎。本文出于对教育培训领域用户的信息检索需求的考虑,在研究独立搜索引擎、元搜索引擎和专业搜索引擎各自特点的基础上,实现一个面向培训领域的元搜索引擎系统。2相关概念2.
7、1元搜索引擎和专业搜索引擎元搜索引擎通过向多个成员引擎发送请求,调用成员搜索引擎返回的搜索结果,无须自己建屯和维护庞大的索弓l数据库。当一个查询到来时,元搜索引擎自身并不处理,而是按各个成员引擎的查询格式做相应转换后分发到各个成员引擎,有关成员引擎的参数信息可以帮助元搜索引擎进行引擎的选择和协调,各个成员引擎返网结果后,元搜索引擎进行结果合并形成全局按权霞排序的序列输出给用户。一192一专业型搜索引擎是一种以面向某一专业或科学领域的信息服务为t-I的的搜索引擎,它能满足用户对某一专业信息的需求,通过在一定范围内搜索互联网信息,智能地识
8、别专业信息,为用户提供比通用搜索引擎更多、更精准的专业信息。2.2遗传算法遗传算法(GeneticAlgorithms,GA)是一种模仿生物进化过程的随机方法,由J.Hoolland于20世纪60年代提出。它体现r适者生
此文档下载收益归作者所有