【硕士论文】垂直搜索引擎的研究与实现(1).pdf

【硕士论文】垂直搜索引擎的研究与实现(1).pdf

ID:32025140

大小:1.59 MB

页数:46页

时间:2019-01-30

【硕士论文】垂直搜索引擎的研究与实现(1).pdf_第1页
【硕士论文】垂直搜索引擎的研究与实现(1).pdf_第2页
【硕士论文】垂直搜索引擎的研究与实现(1).pdf_第3页
【硕士论文】垂直搜索引擎的研究与实现(1).pdf_第4页
【硕士论文】垂直搜索引擎的研究与实现(1).pdf_第5页
资源描述:

《【硕士论文】垂直搜索引擎的研究与实现(1).pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、jb京交道太堂亟±堂僮j金塞虫室擅要中文摘要摘要:随着Intemet和WWW的迅速发展,Intemet上的资源日趋丰富,为了帮助人们在浩如烟海的互联网中得到有用的信息,基于Intemet的各类信息检索服务应运而生并得到了迅速发展。目前人们在互联网上搜索信息主要是通过Google,百度等通用搜索引擎。这类搜索引擎的功能已十分强大,在~般情况下是可以满足用户的需求的。然而当用户只想查询具体某专业或某行业,或某种主题的相关信息时,这类搜索引擎就会显得有些力不从心了。垂直搜索引擎的出现,就是专们为了解决这个问题的。本文首先论

2、述了垂直搜索的研究意义,接着详细介绍了搜索引擎的体系结构,并深入探讨了通用搜索引擎的核心技术,包括网页抓取技术,中文分词技术,网页排名技术等。然后又通过与通用搜索引擎的对比,介绍了构造垂直搜索引擎所需要的关键技术。在此基础上,本文提出了构造垂直搜索引擎时最重要的两个模块,即网页搜集模块和结构化信息抽取模块的架构设计及算法模型。在网页搜集模块中,对垂直搜索所要着力解决的“主题飘移”现象,提出了通过主题判定,主题预测和网页排序的手段束防止这种现象,并在各自的模块中提出了相应的算法模型。在结构化信息提取模块中,构造了一个基

3、于XML技术的信息抽取系统的原型。将搜索模块和信息提取模块进行合理的组合配置,形成了垂直搜索引擎的核心部分,为创建一个完整的垂直搜索引擎打下了良好的基础。关键词:垂直搜索引擎;专业爬虫;信息抽取;分类号:TP391.3aE哀交道太堂亟±堂僮i金窑缱S卫坠鲤ABSTRACTABSTRACT:WiththeofInternetandⅥ—mresourcesontherapiddevelopmentInternetareordertotogetusefulinformationinaincreasinglyrich。Inh

4、elppeoplebroadarrayofIntemetinformation,thevariousInteract—basedinformationretrievalservicescameintobeingandhasbeendevelopingrapidly.Currently,peoplesearchinformationontheInteractprimarilythroughGoogle,Baiduandothergeneralsearchengines.Thefunctionsofthesesearch

5、engineshaveaverystrong,undernormalcircumstancestomeettheuser’sneeds.However,whenusersjustwantaprofessionalorforaspecificindustry,orsomethemerelatedinformation,suchsearchengineswillbealittleinsufficient.Theofverticalsearchenginesisforsolvingemergencespecifically

6、thisproblem.Thispaperfirstdiscussesthesignificanceofverticalsearch,andthendescribedindetailthesearchenginearchitecture,andin-depthstudyofthegeneralsearchell【舀nescorewordsegmentationtechnology,technologies,includingspidertechnology,Chinesewebsiterankingtechnolog

7、y.ThenwiththegeneralsearchellIginescontrast,introducedaverticalsearchenginestructurerequiredcriticaltechnologies.Onthisbasis,thistwoofthemostimportantmodulestobuildverticalpaperpresentssearchengines,namelythewebpagecollectionmoduleandwebinformationextractionmod

8、ule,anditsframeworkdesignandalgorithmmodel.Intheofthemethodtopreventthe“themepartwebpagecollectionmodules,discussdrift'’phenomenonthattheverticalsearchenginemakeseffortstoso

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。