【硕士论文】面向领域的垂直搜索系统研究与实现.pdf

【硕士论文】面向领域的垂直搜索系统研究与实现.pdf

ID:32036131

大小:4.43 MB

页数:57页

时间:2019-01-30

【硕士论文】面向领域的垂直搜索系统研究与实现.pdf_第1页
【硕士论文】面向领域的垂直搜索系统研究与实现.pdf_第2页
【硕士论文】面向领域的垂直搜索系统研究与实现.pdf_第3页
【硕士论文】面向领域的垂直搜索系统研究与实现.pdf_第4页
【硕士论文】面向领域的垂直搜索系统研究与实现.pdf_第5页
资源描述:

《【硕士论文】面向领域的垂直搜索系统研究与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、大连理工大学硕士学位论文摘要目前互联网领域主要的搜索引擎服务商如Google、百度、Yahoo等,为用户提供的都是横向的海量信息搜索。这些通用搜索引擎在满足信息全面搜索的同时,却很难兼顾搜索的准确度与相关度的质量,而且存在网页覆盖率低、索引不及时等缺点,尤其对于信息需求相对集中、分类更加详细的行业用户缺乏导向。垂直搜索引擎作为搜索引擎技术发展的一个分支方向,通过对领域内信息的全面搜集、再组织整理,将会提供更专业化、个性化的行业信息服务,能够满足用户对专业领域信息的搜索需求。本文的研究工作主要分为两个部分,第一部

2、分主要研究了垂直搜索引擎中的网络蜘蛛技术和结构化信息抽取技术。在网络蜘蛛的研究中,重点解决了主题目标描述、对URL的搜索策略和主题相关度判定问题。其中通过领域专家选定初始种子URL,从主题网页库中自动提取特征关键词并辅助人工筛选的方式生成主题特征向量;在网络蜘蛛搜索过程中,采用最佳优先的搜索策略以保证高效地抓取主题资源;通过向量空间模型计算网页与主题特征向量之间的相似度,并考虑了关键词的位置权重。在Web信息抽取技术的研究中,对比分析了现有的Web信息抽取方法,采用了基于正则表达式的网页结构化信息抽取方法。第二

3、部分对搜索结果聚类进行了研究,通过分析现有聚类方法的不足及搜索结果聚类的特点,提出了一种适合于搜索结果动态聚类的新的后缀树聚类算法,其中后缀树的构建以中文汉字为基本单位,采取比较子串和父串短语类代表的文档数量策略有效地解决了基于二进制方法合并短语类后的类别描述问题,并利用短语类语义层面的相似性合并同义短语类,有效地改善了聚类结果的质量。实验结果表明:与传统的文档聚类算法相比,基于后缀树的算法在Web文档聚类的精度和效率方面具有较强的优越性。最后本文设计并实现了一个面向专利领域的垂直搜索系统,其中以Lucene开

4、源框架实现了索引和搜索功能,采用基于词典的正向最大匹配算法实现了中文切词,并运用信息可视化技术对搜索聚类结果进行展示。关键词:垂直搜索;网络蜘蛛;结构化信息抽取;后缀树聚类面向领域的垂直搜索系统研究与实现ResearchandDevelopmentoftheDomain-DependentVerticalSearthSystemAbstraotAtpresentthemainsearchenginesinInternetsuchasGoogle,Baidu,Yahooprovidethecustomerslar

5、genumberofinfornlationinhorizontalway.AlthoughthegeneralsearchengineCallsatisfytheuser’sneedformaSsiveinformation,itiSverydifficulttogiveconsiderationtotheaccuracyandtherelevantofsearchquality.AnditspurposeattemptstoindexthewholeWeb,resultinginthelowcoverage

6、oftheWebpagesandout—ofdateindexes.EspeciallythewhosedemandforgeneralsearchengineislackofdirectionfordomaincustomersinformationiSrelativelycentralizedandmoredetailed.AsabranchdirectionofthesearchverticalsearchenginecollectstheWebpageinformationfrommultipledif

7、ferentengine,theresourcesinaspecificdomain.andreorganizedthein_formationasstructuredd如,SOitCallprovidemoreprofessionalandindividualizedinformationserviceforspecializedcustomersandsatisfytheirrequestsfordomaindetailedinformation.nleresearchworkcanbedividedint

8、otwoparts.Firstly,thispapermainlystudiesthewebspidertechnologyandinformationextractiontechnology.TMspaperfocusesonsolving.aseriesOfproblemsforverticalspider,includingdefiningthedomaintopic,these

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。