【硕士论文】_基于Nutch的垂直搜索引擎的分析与实现.pdf

【硕士论文】_基于Nutch的垂直搜索引擎的分析与实现.pdf

ID:32021731

大小:1.83 MB

页数:59页

时间:2019-01-30

【硕士论文】_基于Nutch的垂直搜索引擎的分析与实现.pdf_第1页
【硕士论文】_基于Nutch的垂直搜索引擎的分析与实现.pdf_第2页
【硕士论文】_基于Nutch的垂直搜索引擎的分析与实现.pdf_第3页
【硕士论文】_基于Nutch的垂直搜索引擎的分析与实现.pdf_第4页
【硕士论文】_基于Nutch的垂直搜索引擎的分析与实现.pdf_第5页
资源描述:

《【硕士论文】_基于Nutch的垂直搜索引擎的分析与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、大连理工大学专业学位硕士学位论文摘要随着互联网技术应用范围的不断扩大,人们越来越多地关注如何快速有效地从海量的网络信息中,抽取出潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。搜索引擎技术解决了用户信息检索的困难,目前搜索引擎技术正成为计算机科学界和信息产业界争相研究、开发的对象。本文对比通用搜索引擎和垂直搜索引擎的优缺点,在研究了垂直搜索引擎和Nutch搜索内核的基础上设计了一种新的垂直搜索引擎系统——contentsmart,成功实现了信息抓取、信息格式化和信息比较的功能。ContentSmart系统

2、的工作原理分为信息搜集、预处理和查询服务三个方面。为了确保该系统信息抽取的准确率,在抽取过程中设计了更为简单和适用的索引网页库和中文自动分词等算法,节省了输入、输出的消耗量,大大满足了搜索引擎快速响应的要求,同时本文给出了信息搜集、预处理和查询服务三个过程的优化策略和具体算法,使算法的效率、长度的限制甚至歧义处理上得到很大的提高。本文所设计的ContentSmart系统提供用户自定义的信息源入口,它除了具有垂直搜索引擎的特点外,还加入了信息的格式化和信息的比较,大大提高信息搜索的效率和准确率。本文主要的研究内容是

3、信息抽取过程所需算法的优化和信息的格式化,对于研究垂直搜索引擎技术具有一定的价值。关键词;垂直搜索引擎;Nutch;信息格式化;信息比较基于Nutch的垂直搜索引擎的分析与实现AnalyzeandimplementationofverticalsearchengineBasedonNutchAbstractCeaselessnesse】(pandswiththefactthattheIutemettechnologyappliesrange’S,takesoutlatent,valuableinformation

4、,makesthatproduceamarkedeffecteffectivelyinadministrationandthedecision-makinginthenetworkinformationhowrapidlyeffectiveformoreandmorgmanyfromgreatforliquor.Searchforpeopleshowssolicitudecapacitytheenginetechnologyhavingresolvedconsunlerinformationretrievaldi

5、fficulty,searchfortheenginetechnologyatpresetbeingbecomingcomputerscientificcommunityandthescrambleforstudying,developmentmarriageparmerofinformationindus廿ialcircles.Valuethemainbodyofthearticleisstudiedbythefactthatthecontrastlaysstressonverticalsearch口lgine

6、comingthesearchenginebeingappliedoruseduniversallyandexcellentverticalsearchengineshortcoming,andhavedesignedonekindofnewverticalsearchenginesystemaccordingtotheresearchsearchingforacoretoverticalsearchenginebasedonNutch---ContentSmart,haverealizedinformation

7、extracting,informationretrieval,informationsuccessfullyFMTtoprgparetheparallelfunctionofinformation,andinformationtakesouttheprioritybeingthemainbodyofthearticlestudyanddesign.SystematicinformationofContentSmarttakesoutprocessbeinginformationsearch,thepretrea

8、maentandinquiryserve.AlgorithmssuchasWebpagewarehouseandChineseautomationparticiplehaxdngdesignedbesimpleandsuitableforuseindexintheprocessofextractingforaccuraterateensuringthatowingsyst

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。