面向领域的垂直搜索引擎的研究与实现.pdf

面向领域的垂直搜索引擎的研究与实现.pdf

ID:57746990

大小:2.53 MB

页数:76页

时间:2020-03-27

面向领域的垂直搜索引擎的研究与实现.pdf_第1页
面向领域的垂直搜索引擎的研究与实现.pdf_第2页
面向领域的垂直搜索引擎的研究与实现.pdf_第3页
面向领域的垂直搜索引擎的研究与实现.pdf_第4页
面向领域的垂直搜索引擎的研究与实现.pdf_第5页
资源描述:

《面向领域的垂直搜索引擎的研究与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、指导教师曹妍职称教授学位授予单位大连海事大学申请学位级别工学硕士学科与专业管理科学与工程论文完成日期2011年5月论文答辩日期2011年6月25日答辩委员会主席毫最ResearchandImplementationoftheDomain--DependentVerticalSearchSystemAthesisSubmittedtoDalianMaritimeUniversityInpartialfulfillmentoftherequirementsforthedegreeofMasterofEngi

2、neeringbyQiuWeilin(ManagementScienceandEngineering)ThesisSupervisor:ProfessorCaoYanMay2011t’㈣6附4删4㈣6帅9㈣8"¨他⋯●■_哪Y●大连海事大学学位论文原创性声明和使用授权说明原创性声明本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果,撰写成硕士学位论文==亘囱塑燮的垂直塑塞曼!墼的硒塞墨塞现:,o除论文中已经注明引用的内容外,对论文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。

3、本论文中不包含任何未加明确注明的其他个人或集体已经公开发表或未公开发表的成果。本声明的法律责任由本人承担。学位论文作者签名:鲤垒捧学位论文版权使用授权书本学位论文作者及指导教师完全了解大连海事大学有关保留、使用研究生学位论文的规定,即:大连海事大学有权保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。同意将本学位论文收录到《中国优秀博硕士学位论文全

4、文数据库》(中国学术期刊(光盘版)电子杂志社)、《中国学位论文全文数据库》(中国科学技术信息研究所)等数据库中,并以电子出版物形式出版发行和提供信息服务。保密的论文在解密后遵守此规定。本学位论文属于:保密口在——年解密后适用本授权书。不保密d(请在以上方框内打“4”)敝储签名舣导师躲%日期:2-or/年莎月上7日中文摘要摘要伴随着Web2.0的疯狂普及,网络信息资源的膨胀速度也呈指数增长,海量的数据资源已经远远超出搜索引擎所能覆盖的范围,要想使用传统的搜索引擎技术快速、准确地查找所需信息变得越来越困难。

5、数据量惊人的递增速度使得通用搜索引擎难以及时地更新索引数据库;庞大的网页资源也使得通用搜索引擎深入地抓取信息变得更加困难。针对这些缺点,新一代搜索技术——垂直搜索引擎应运而生。垂直搜索引擎是通用搜索引擎的细分和延伸,它只针对某一个行业或主题,为特定人群提供有价值的信息和相关服务。主题爬行和检索服务作为两个重要环节在很大程度上影响着垂直搜索引擎查询的准确率和检索效率。如何快速高效地判断并预测主题相关网页,以及如何带给用户清晰、准确的检索反馈成为制约垂直搜索引擎发展的两大难题。因此,如何改善这两个环节成为本

6、文工作的出发点。本文提出了基于分类法的目录式主题描述法,并以此实现了新的主题爬行策略。使得主题爬虫不再盲目的预测主题相关网页的方向,而是通过赋予在ODP中不同层次位置的主题结点不同的权重值,更加准确地指导主题爬虫的爬行。在搜索结果呈现方面,本文采用聚类搜索引擎的优点,通过基于主题短语的方法,对文档特征项进行更加准确的提取,并以此指导聚类工作,用聚类呈现的方式给予用户更加方便的查询体验。最后本文通过设计对比试验来验证二者的有效性。关键词:垂直搜索;主题爬虫;主题描述:聚类英文摘要ABSTRACTWitht

7、hecrazypopularityofWeb2.0,theexpansionspeedofnetworkinformationresourcesisalsogrowingexponentially,massivedataresourcesfarbeyondthescopeofthesearchenginecailcover,inordertousethetraditionalsearchenginetechnologyquicklyandaccuratelyfindtherequiredinformat

8、ionbecomesincreasinglydifficult.Alarmingrateofincreaseoftheamountofdatamakesthegeneralsearchengineisdifficulttopromptlyupdatetheindexdatabase;vastwebresourcestomakethegeneralsearchenginescrawl-depthinformationbecomesmoredi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。