基于Fishsearch算法的垂直搜索引擎研究与设计

基于Fishsearch算法的垂直搜索引擎研究与设计

ID:36500591

大小:2.01 MB

页数:59页

时间:2019-05-11

基于Fishsearch算法的垂直搜索引擎研究与设计_第1页
基于Fishsearch算法的垂直搜索引擎研究与设计_第2页
基于Fishsearch算法的垂直搜索引擎研究与设计_第3页
基于Fishsearch算法的垂直搜索引擎研究与设计_第4页
基于Fishsearch算法的垂直搜索引擎研究与设计_第5页
资源描述:

《基于Fishsearch算法的垂直搜索引擎研究与设计》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、万方数据中图分类号:学科分类号:婴3窆三52Q:鱼Q论文编号安徽理工大学硕士学位论文基于Fish—search算法的垂直搜索引擎研究与设计作者姓名:堑盔专业名称:让簋担撞盔研究方向:塑芏丝堑出撞苤导师姓名:一汤塞基.导师单位:让簋扭型堂皇工猩堂瞳答辩委员会主席:堡毅论文答辩日期:2014年6月1日安徽理工大学研究生处2014年6月日万方数据ADissertationin娅一一彀㈣必ResearchandDesignofverticalsearchenginebasedonFish—searchalgor

2、ithmCandidate:ShuBenSupervisor:TangWenbingSchoolofComputerScienceandEngineeringAnHuiUniversityofScienceandTechnologyNo.168,ShungengRoad,Huaman,232001,P.R.CHINA万方数据独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知:除了文中特别加以标注和致谢的地方以外,论文中不包含其他人已经发表或撰写过的研究成果,也不

3、包含为获得塞邀堡王太堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:盘垄日期:迎丝年j月一日学位论文版权使用授权书本学位论文作者完全了解塞邀翌三太堂有保留、使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属于塞徵垄三太堂。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权安徽理工大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或

4、扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名:导师签名:舒耷签字魄加僻厶日色乏纵字日期:汐件)年/月日万方数据目录摘要互联网的高速发展使得网络信息资源急剧的增长,通用搜索引擎在信息的检索方面已经无法满足用户的需求,如今信息检索追求的是准确性,同时信息检索应具有一定的深度。通用搜索引擎返回给用户的信息虽然多,但并不是用户所需要的信息,所以通用搜索引擎检索的结果虽然覆盖全面,但是在检索的结果准确性方面还是差了一些。针对这种问题的出现,专业化的垂直搜索引擎也被提了出

5、来。垂直搜索引擎就是一种针对特定领域或者特定主题的搜索引擎,在搜索结果的准确性方面有了很大的提高,一定程度上满足了用户检索的需求。论文中主要研究的就是垂直搜索引擎的设计,垂直搜索引擎的核心模块就是主题爬虫。主题爬虫就是抓取与主题相关的网页,并下载该网页。所以重点就在于如何判断主题与网页的相关度,论文中采用了改进的布尔模型进行网页与主题相关度的计算,相关度不但决定了当前网页是否需要存储,同时也是待爬链接列表中链接优先级的参考值,而且还是最后检索结果排序的主要依据;另外主题爬虫的爬行策略采用的是改进的Fis

6、h—search算法。网页下载后还需要提取其中的重要内容作为检索的条件以及网页的信息描述,网页信息抽取方式采用的是正则表达式进行相关信息的匹配并提取出『E确匹配的信息。用户检索需要的信息时根据输入的关键词推荐一些与关键词相关的搜索词或者短句,为用户提供更友好的检索界面。论文最终完成了垂直搜索引擎的设计,与通用搜索引擎相比较,在检索特定的主题关键词时,本文设计的垂直搜索引擎检索的结果要比通用搜索引擎检索的结果准确得多,而且本文设计的搜索引擎检索的结果页面大多与主题具有很好的相关性。所以在特定领域,本文设计

7、的垂直搜索引擎在检索结果的准确性方面有很大的提高,基本上达到了论文研究的目的。图[10】表[3】参数【6】关键词:搜索引擎;相关度;主题爬虫;Fish.search算法分类号:TP393万方数据目录Abs仃actTherapiddevelopmentofIntemetleadstOtherapidgrowthofnetworkinformationresource,generalsearchenginehasbeenunabletomeettheneedsofusersintheaspectofinfo

8、rmationretrieval.,today,informationretrievalisthepursuitofaccuracy,atthesametimeinformationretrievalshouldhavesomedepth.ThoughinformationwhichisreturnedtOuserisenough,itisnottheinformationwhatuserwants,sothoughthegeneralse

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。