欢迎来到天天文库
浏览记录
ID:32031899
大小:3.62 MB
页数:51页
时间:2019-01-30
《【硕士论文】基于Lucene和HTMLParser技术的搜索引擎的设计与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、摘要Intemet上的信息量不断的增长内容变的冗余复杂,在这种情况下搜索引擎成为人们在网上获取所需信息的必要工具。可是传统的搜索引擎检索到的信息量也是极为庞杂的,用户很难在短时间内查找出所需的东西,垂直搜索引擎技术专业化和深入化的特性弥补了这方面的不足。本文以“手机产品信息垂直搜索引擎"研究为背景,对以下三个关键问题进行了深入的研究。第一个是网页文本解析的问题,HTMLParser技术对网络机器人抓取后的网页内容进行高效率的解析,高效的完成信息进行再一次整合,很好的解决了垂直搜索引擎所需数据来源问题。第二个是数据库中数
2、据的索引、优化、和排序的问题,本系统基于Lucene技术对数据进行操作,同时建立了检索关键字的词库,解决了搜索引擎检索效率较低的问题。第三个是系统的框架问题,通过Spring框架来进行系统的后台管理,很好的实现了搜索引擎的功能。目前,该系统已经能够运行且效果良好达到了实践的目的。在一定的程度上达到了信息搜索优化的目的,与通用的搜索引擎相比信心检索的效率有了很大的提高。关键词:垂直搜索引擎搜索引擎网络机器人AbstractTheamountofinformationontheIntemetplaygrowth,andth
3、econtentsalsochangesofredundancyandcomplications,inthecasesearchenginetobecomemoreandmoretobepopularwitllpeopleandithasbecomeahndofnecessityoftooltoobtaintheinformationOilthenet.Howeverthetraditionallysearchengine’Sdataquantityisalsoextremelyhugeenormous,inorder
4、tosolvetheproblemtheprofessionalsearchenginedeveloponthebaseoftraditionallysearchenginetechnique.Based011‘'themobilephoneproductinformation—relatedsearchengine’’researchonthefollowingthreekeyissuesareexploredinthestudy.ThefirstHTMLParseruseofrobottechnologytocra
5、wlthroughthenetwork;websitetextofthehigh-efficiencyanalysis,theinformationonceagainintegration,targetedatfieldextractedtherequireddataprocessing,andthentoreturntosomeformusers.Thesecondistheindexofdata,optimization,andthesortofproblems.Theunitwordstockofinquiryk
6、eywordswhichcorrespondsbasedontheLucenetechnologyEstablished,tosolvetheslowpeedquestion.ThetllirdistheframeworkoftheSystemSpringthroughasystematicframeworkforthemanagementofthebackgroundtoensurethatthesearchenginesystemoperationalstability.Athasrunandtheresultis
7、present,thisprofessionalsearchenginesystemexcellent.ThisSystemhasreacheditsgoal.Toacertainextenttoachievethepurposeofsearchoptimization,improvedinformationretrievalefficiencycomparedtoGeneralsearchengines.NetRobotKeyword:TheprofessionalsearchengineSearchengiBe第一
8、章绪论第一章绪论王.1研究背景现今社会是一个不断商嚣高速发展的社会,科学技术在不断的提高。在信息高速公路提出的情况下,随着网络与通信技术的迅猛发展Web信息量飞速的增长,互联网已经成为一个巨大的海量信息空间。在这种情况下如何快速、准确、方便、有效的从庞大的信息库中获取自己需要的信息,是互联网用户当今所面临的一个极为重要问题。在这种
此文档下载收益归作者所有