毕业设计(论文)-面向丝绸领域的垂直搜索引擎关键算法研究

毕业设计(论文)-面向丝绸领域的垂直搜索引擎关键算法研究

ID:35582557

大小:1.03 MB

页数:59页

时间:2019-03-30

毕业设计(论文)-面向丝绸领域的垂直搜索引擎关键算法研究_第1页
毕业设计(论文)-面向丝绸领域的垂直搜索引擎关键算法研究_第2页
毕业设计(论文)-面向丝绸领域的垂直搜索引擎关键算法研究_第3页
毕业设计(论文)-面向丝绸领域的垂直搜索引擎关键算法研究_第4页
毕业设计(论文)-面向丝绸领域的垂直搜索引擎关键算法研究_第5页
资源描述:

《毕业设计(论文)-面向丝绸领域的垂直搜索引擎关键算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、面向丝绸领域的垂直搜索引擎关键算法研究摘要摘要垂直搜索引擎是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后以某种形式返回给用户。垂直搜索引擎与传统的网页搜索引擎最大的区别就是将网页中的信息进行结构化的抽取。使得信息在抽取的时候就建立了分类,更好的适应查询需求。近几年来,垂直搜索引擎已经被应用到某些专业的领域(如化学、科技文献)。本文从研究和设计的角度对垂直搜索引擎的相关技术作了详细的分析和讨论,论述了目前搜索引擎的国内外发展现状和趋势。分析了搜索引擎的工作原理及其各部分主要功能,抓住如何评价页面的主题相

2、关性和设计高效的爬行策略这两个关键问题,提出一个基于丝绸信息的定题搜索器,它是垂直搜索引擎的核心。在文章的主体部分,以搜索引擎的设计流程为主线,重点论述垂直搜索引擎设计与实现时一些独特的信息识别方法,包括pagerank和HITS算法。从HTML页面解析的一般概念入手,结合网页之间的超链接分析,按照搜索引擎系统的要求,采用深度优先的搜索策略设计具有垂直搜索引擎功能的丝绸信息网站。并按照软件工程的方法,研究了丝绸信息搜索引擎的总体设计过程和实现过程,设计过程重点论述了需求分析、网站的功能规划和总体结构、数据库设计等内容,并通过编码实现设计阶段的各种算法和具体

3、功能。最后的软件功能测试表明,此搜索引擎算法准确、确定、不会引起本地资源耗尽;它支持按指定站点搜索,按给定URL范围进行搜索的搜索策略。可以完成指定信息的自动搜索和下载。关键词:垂直搜索引擎网页信息抽取抽取规则索引库作者:张小莉指导老师:姚建民―I―面向丝绸领域的垂直搜索引擎关键算法研究摘要AbstractTheVerticalSearchingEngineisatypicaltypeofsearchingengine,whichcanclassifyinformationincertainfieldfromthosewebsites,Directiona

4、lmarkofsyllabletakesoutthedataneedingcarryingouttreatmentandanalyzethosedata,thenreturnthemtousers.ThemajordifferencebetweenVerticalSearchingEngineandtraditionalsearchingengineisthtattheverticaloneselectinformationfromwebsiteinastructuralway—classifytheinformationwhileselectingitt

5、obebettersatisfythesearchingrequirements.InthispaperitdoesdetailedlysomeanalyinganddiscussingthetechnologyoftheVerticalSearchingEnginefromthestudyinganddesigningangle,hasdiscussedhomeandabroadpresentsituationandtrendsearchingforanengineatpresent.Theoperatingprinciplehavinganalysed

6、searchingengineandtheireverymainpartfunction,graspthetwokeyproblemsabouthowtoappraisingpage’ssubjectcorrelativityanddesigningthehigh-effectcrawllingtactics,SuggestadirectionalquestionSearchingmachinebasedonSilkInformation,itisthecoreofaVerticalSearchingEngine.Inthearticlemainbodyp

7、art,weregardedtheSerchingEngine’sdesigningflowasthemainclue,andfocusedondiscussingthedesigningandcarryingoutsometypicalinformation’sidentificationmethodaboutVerticalSerachingEngine,IncludingPageRank’sandHITS’salgorithm.StartingwiththeHTMLpageanalysis’saverageconcept,combinetheHype

8、rtextanalysisamongtheWebs,Accordi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。