欢迎来到天天文库
浏览记录
ID:34809667
大小:1.85 MB
页数:53页
时间:2019-03-11
《浅议基于本体的面向股票领域搜索引擎的实现技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、天津大学硕士学位论文基于本体的面向股票领域搜索引擎的实现技术研究姓名:黄堃申请学位级别:硕士专业:计算机软件与理论指导教师:何丕廉20070101中文摘要当今互联网搜索引擎主要分为通用搜索引擎和面向领域的搜索引擎(也称为垂直搜索引擎),而后者又成为搜索引擎技术发展的一大趋势。因为在某些用户有特定要求的领域,通用搜索引擎存在着许多弊端,比如索引内容无法覆盖某一特定领域,海量存储不利于索引内容的实时更新等等。这些都需要在面向领域的搜索引擎中加以解决。本文首先深入介绍了通用搜索引擎的基本原理,结构和工作机制。在此基础上阐释了目前面向领域的开源搜索引擎中比较流行
2、的Lucene技术,这项技术也是本文其他部分实现的基础。在数据采集方面针对通用搜索引擎网络爬行器(Crawler)在专业性数据采集上能力不强的弊端,设计实现了面向领域的聚焦网络爬行器(FocusCrawler),有效地改善了面向领域的搜索引擎的效率。然后介绍了网页数据抽取技术的基本原理并实现了基于统计的网页正文信息抽取方法。通过对若干股票类网站的网页分析,可以得出该方法在具有通用性的同时,保持了较高的准确性,其准确率可以达到90%以上,具有__定的实用性。再者,目前搜索引擎在检索时主要还是基于传统的“关键字匹配",而每个领域都有自己专用的词汇和用语,并且
3、同一个词在不同领域会有不同的含义,再加上用户进行Web信息检索时输入的关键词通常比较简单,从而导致通用搜索引擎的查询结果集膨胀,查准率低,用户必须在大量的与自己查询意图相关和不相关的结果集中寻找自己需要的东西。由于本体是知识表示模型中最有表达能力的一种模型,又具有其他知识表示模型的特征,因此利用本体所具有的知识表示和描述能力,可以提高用户提问和检索语言在语义上的一致性,从而获得预期的检索效果。本文详细介绍了本体论的相关原理,并在此基础上将本体技术应用于本检索框架中,设计实现了一套面向股票领域的检索系统框架。实验结果表明,该检索框架能够基本满足领域内知识的
4、检索需求,在检索时间,查准率和查全率上相对于大型通用搜索引擎也有了一定程度的提高。关键词:搜索引擎,Lucene技术,本体论,信息检索,网页分析ABSTRACTNowadaystheSearchEnginesontheIntcrnetalemainlydividedintotwokinds:generalsearchengineanddomain—specificsearchengine.Thelatterhasbecomethetrendofthedevelopmentofsearchengine,sincesomeUSerSwhohavespecia
5、ldemandscan’tsatisfywi也也eshortcomingofunprofessionalindexingcontent,theindexingrefreshmentproblemcausedbylargeamountofmemorycapacityandSOon.Alloftheseproblemsneedstobesolvedinthestudyofdomain—specificsearchenginesystem.Thispaperintroducestheprincipleofgeneralsearchenginefirst,the
6、nexplain‘'Lueene’’technology,whichisapopularopensourceprojectinsearchenginefieldrecently.TherestofthisPaperisalSObasedonthistechnology.Astheaspectofdatacollecting,forthereasonofunprofessionalprocessingmodeofgeneralcrawler,thispaperdesignedandrealizedakindofcrawlernamed‘‘FocusCraw
7、ler'’,whichcanraisetheefficiencyofdomain-specificsearchenginethroughourexperiment.ThenweintroducetheprincipleofdataextractingofwebpageandputforwardamethodWhichiSbasedonstatistics.Throughtheanalysisofseveralwebsites.wedrewaconclusionthatthismethodhasmadegoodprogressintheuniversali
8、tyandCanreach也eaccuratelevelabove90%.Fur
此文档下载收益归作者所有