欢迎来到天天文库
浏览记录
ID:32021731
大小:1.83 MB
页数:59页
时间:2019-01-30
《【硕士论文】_基于Nutch的垂直搜索引擎的分析与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、大连理工大学专业学位硕士学位论文摘要随着互联网技术应用范围的不断扩大,人们越来越多地关注如何快速有效地从海量的网络信息中,抽取出潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。搜索引擎技术解决了用户信息检索的困难,目前搜索引擎技术正成为计算机科学界和信息产业界争相研究、开发的对象。本文对比通用搜索引擎和垂直搜索引擎的优缺点,在研究了垂直搜索引擎和Nutch搜索内核的基础上设计了一种新的垂直搜索引擎系统——contentsmart,成功实现了信息抓取、信息格式化和信息比较的功能。ContentSmart系统
2、的工作原理分为信息搜集、预处理和查询服务三个方面。为了确保该系统信息抽取的准确率,在抽取过程中设计了更为简单和适用的索引网页库和中文自动分词等算法,节省了输入、输出的消耗量,大大满足了搜索引擎快速响应的要求,同时本文给出了信息搜集、预处理和查询服务三个过程的优化策略和具体算法,使算法的效率、长度的限制甚至歧义处理上得到很大的提高。本文所设计的ContentSmart系统提供用户自定义的信息源入口,它除了具有垂直搜索引擎的特点外,还加入了信息的格式化和信息的比较,大大提高信息搜索的效率和准确率。本文主要的研究内容是
3、信息抽取过程所需算法的优化和信息的格式化,对于研究垂直搜索引擎技术具有一定的价值。关键词;垂直搜索引擎;Nutch;信息格式化;信息比较基于Nutch的垂直搜索引擎的分析与实现AnalyzeandimplementationofverticalsearchengineBasedonNutchAbstractCeaselessnesse】(pandswiththefactthattheIutemettechnologyappliesrange’S,takesoutlatent,valuableinformation
4、,makesthatproduceamarkedeffecteffectivelyinadministrationandthedecision-makinginthenetworkinformationhowrapidlyeffectiveformoreandmorgmanyfromgreatforliquor.Searchforpeopleshowssolicitudecapacitytheenginetechnologyhavingresolvedconsunlerinformationretrievaldi
5、fficulty,searchfortheenginetechnologyatpresetbeingbecomingcomputerscientificcommunityandthescrambleforstudying,developmentmarriageparmerofinformationindus廿ialcircles.Valuethemainbodyofthearticleisstudiedbythefactthatthecontrastlaysstressonverticalsearch口lgine
6、comingthesearchenginebeingappliedoruseduniversallyandexcellentverticalsearchengineshortcoming,andhavedesignedonekindofnewverticalsearchenginesystemaccordingtotheresearchsearchingforacoretoverticalsearchenginebasedonNutch---ContentSmart,haverealizedinformation
7、extracting,informationretrieval,informationsuccessfullyFMTtoprgparetheparallelfunctionofinformation,andinformationtakesouttheprioritybeingthemainbodyofthearticlestudyanddesign.SystematicinformationofContentSmarttakesoutprocessbeinginformationsearch,thepretrea
8、maentandinquiryserve.AlgorithmssuchasWebpagewarehouseandChineseautomationparticiplehaxdngdesignedbesimpleandsuitableforuseindexintheprocessofextractingforaccuraterateensuringthatowingsyst
此文档下载收益归作者所有