垂直搜索引擎中的多元化信息融合检索研究

垂直搜索引擎中的多元化信息融合检索研究

ID:33099748

大小:8.21 MB

页数:72页

时间:2019-02-20

垂直搜索引擎中的多元化信息融合检索研究_第1页
垂直搜索引擎中的多元化信息融合检索研究_第2页
垂直搜索引擎中的多元化信息融合检索研究_第3页
垂直搜索引擎中的多元化信息融合检索研究_第4页
垂直搜索引擎中的多元化信息融合检索研究_第5页
资源描述:

《垂直搜索引擎中的多元化信息融合检索研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、浙江大学计算机科学技术与软件学院硕士学位论文垂直搜索引擎中的多元化信息融合检索研究姓名:宁登鹏申请学位级别:硕士专业:软件工程指导教师:陈刚;寿黎但20080601浙江大学硕上学位论义摘要传统搜索引擎由于对用户的查询无法模式化,因而大多数只限于关键字搜索。基于关键字的搜索常常导致搜索结果过多,用户无法准确定位其感兴趣信息。垂直搜索引擎区别于传统的搜索引擎,其数据倾向于结构化数据并包含大量元数据信息,因此可在文本检索、空间数据检索的基础上,结合结构化数据检索技术,提供垂直搜索技术的支持,改进检索结果质量。此外,现阶段互联网内容趋于广泛、网

2、页数据类型更加丰富,垂直搜索引擎还需提供多样数据(如结构化数据、文本数据、多媒体数据等)的融合检索技术,比如结合名称、描述、地理信息等信息进行组合检索。因而需要对基于多种索引方式的融合检索、不同数据索引类型的同步更新、如何提供方便简洁而又人性化的用户查询接口等内容进行深入的研究。本文的主要研究内容如下:1.在已有分布式垂直搜索平台的体系结构基础上,利用网页抽取数据及自动化数据分析挖掘结果;:‘’2.研究以文本检索、结构化检索、空间数据检索为一体的融合检索技术。关键字:搜索引擎,多元化信息,融合检索浙江人学硕士学位论义AbstractTh

3、ecunstomer’Squeriescannotbemodeledbytraditionalsearchengine,thusmostofthemarelimitedtokeywordsearch.KeywordsearchalwaysbringaboutredundantresultsSOitisdifficulttopositionusers’favourateitems.VerticalSearchEngineisdifferentfromtraditionalsearchwhichisassociatedwithstructu

4、reddataandcontainsplentyofmetadatainformation.Therefore,theusefulapproachtoimprovethequalityofsearchistotakeadvantageoftextsearch,Spatialsearchandverticalsearch.Nowadays,informationonthewebismassiveandpagetypesarerichinvariety.VerticalSearchEnginethusneedstosupportintegr

5、ationsearchtechnologyfrommulti.datasourcessuchasstructureddata,textdata,multimediadata.SOweneedfurtherstudyaboutavarietyindexwaybasedIntegrationSearch,synchronousupdateofdifferenttypesofdataindexingand‘howtoprovideuserqueryinterfacewhichisconvenient,simpleandhuman.Themai

6、ncontentofpaperincludes:1.Inthebasisofcurrentdistributedverticalsearcharchitecture,weusetheresultofwebdataminingandautomaticdataanalysisandmining;2.StudytheIntegrationSearchTechnologywhichisthecombinationoftextsearch,structuralsearchandspatialdatasearch.Keywords:SearchEn

7、gine,HybridInformation,VerticalSearchEngine浙江大学硕上学位论文图目录图2-1“多元检索”系统框架⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.25图3-1中文分词算法流程图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯33图3-2“多元检索”中的中文分词结果页面⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯34图3—3基于首字hash和二分查找的最大匹配分词算法效果页面⋯⋯⋯⋯36图4—1包含网页地理数据的网页截图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..39图4.2网页地理数据的空间位置识别:WebGIS组件中地理位置信息提取..4

8、1图4.3网页地理数据的空间位置识别:网页地理数据提取⋯⋯⋯⋯⋯⋯⋯43图4.4没有相关地图定位信息(GIS坐标)的地理位置信息⋯⋯⋯⋯⋯..44图4-5遍历网页地理数据集生成一颗地址索引树⋯⋯⋯⋯⋯⋯⋯⋯

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。