欢迎来到天天文库
浏览记录
ID:35582557
大小:1.03 MB
页数:59页
时间:2019-03-30
《毕业设计(论文)-面向丝绸领域的垂直搜索引擎关键算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、面向丝绸领域的垂直搜索引擎关键算法研究摘要摘要垂直搜索引擎是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后以某种形式返回给用户。垂直搜索引擎与传统的网页搜索引擎最大的区别就是将网页中的信息进行结构化的抽取。使得信息在抽取的时候就建立了分类,更好的适应查询需求。近几年来,垂直搜索引擎已经被应用到某些专业的领域(如化学、科技文献)。本文从研究和设计的角度对垂直搜索引擎的相关技术作了详细的分析和讨论,论述了目前搜索引擎的国内外发展现状和趋势。分析了搜索引擎的工作原理及其各部分主要功能,抓住如何评价页面的主题相
2、关性和设计高效的爬行策略这两个关键问题,提出一个基于丝绸信息的定题搜索器,它是垂直搜索引擎的核心。在文章的主体部分,以搜索引擎的设计流程为主线,重点论述垂直搜索引擎设计与实现时一些独特的信息识别方法,包括pagerank和HITS算法。从HTML页面解析的一般概念入手,结合网页之间的超链接分析,按照搜索引擎系统的要求,采用深度优先的搜索策略设计具有垂直搜索引擎功能的丝绸信息网站。并按照软件工程的方法,研究了丝绸信息搜索引擎的总体设计过程和实现过程,设计过程重点论述了需求分析、网站的功能规划和总体结构、数据库设计等内容,并通过编码实现设计阶段的各种算法和具体
3、功能。最后的软件功能测试表明,此搜索引擎算法准确、确定、不会引起本地资源耗尽;它支持按指定站点搜索,按给定URL范围进行搜索的搜索策略。可以完成指定信息的自动搜索和下载。关键词:垂直搜索引擎网页信息抽取抽取规则索引库作者:张小莉指导老师:姚建民―I―面向丝绸领域的垂直搜索引擎关键算法研究摘要AbstractTheVerticalSearchingEngineisatypicaltypeofsearchingengine,whichcanclassifyinformationincertainfieldfromthosewebsites,Directiona
4、lmarkofsyllabletakesoutthedataneedingcarryingouttreatmentandanalyzethosedata,thenreturnthemtousers.ThemajordifferencebetweenVerticalSearchingEngineandtraditionalsearchingengineisthtattheverticaloneselectinformationfromwebsiteinastructuralway—classifytheinformationwhileselectingitt
5、obebettersatisfythesearchingrequirements.InthispaperitdoesdetailedlysomeanalyinganddiscussingthetechnologyoftheVerticalSearchingEnginefromthestudyinganddesigningangle,hasdiscussedhomeandabroadpresentsituationandtrendsearchingforanengineatpresent.Theoperatingprinciplehavinganalysed
6、searchingengineandtheireverymainpartfunction,graspthetwokeyproblemsabouthowtoappraisingpage’ssubjectcorrelativityanddesigningthehigh-effectcrawllingtactics,SuggestadirectionalquestionSearchingmachinebasedonSilkInformation,itisthecoreofaVerticalSearchingEngine.Inthearticlemainbodyp
7、art,weregardedtheSerchingEngine’sdesigningflowasthemainclue,andfocusedondiscussingthedesigningandcarryingoutsometypicalinformation’sidentificationmethodaboutVerticalSerachingEngine,IncludingPageRank’sandHITS’salgorithm.StartingwiththeHTMLpageanalysis’saverageconcept,combinetheHype
8、rtextanalysisamongtheWebs,Accordi
此文档下载收益归作者所有