欢迎来到天天文库
浏览记录
ID:33099748
大小:8.21 MB
页数:72页
时间:2019-02-20
《垂直搜索引擎中的多元化信息融合检索研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、浙江大学计算机科学技术与软件学院硕士学位论文垂直搜索引擎中的多元化信息融合检索研究姓名:宁登鹏申请学位级别:硕士专业:软件工程指导教师:陈刚;寿黎但20080601浙江大学硕上学位论义摘要传统搜索引擎由于对用户的查询无法模式化,因而大多数只限于关键字搜索。基于关键字的搜索常常导致搜索结果过多,用户无法准确定位其感兴趣信息。垂直搜索引擎区别于传统的搜索引擎,其数据倾向于结构化数据并包含大量元数据信息,因此可在文本检索、空间数据检索的基础上,结合结构化数据检索技术,提供垂直搜索技术的支持,改进检索结果质量。此外,现阶段互联网内容趋于广泛、网
2、页数据类型更加丰富,垂直搜索引擎还需提供多样数据(如结构化数据、文本数据、多媒体数据等)的融合检索技术,比如结合名称、描述、地理信息等信息进行组合检索。因而需要对基于多种索引方式的融合检索、不同数据索引类型的同步更新、如何提供方便简洁而又人性化的用户查询接口等内容进行深入的研究。本文的主要研究内容如下:1.在已有分布式垂直搜索平台的体系结构基础上,利用网页抽取数据及自动化数据分析挖掘结果;:‘’2.研究以文本检索、结构化检索、空间数据检索为一体的融合检索技术。关键字:搜索引擎,多元化信息,融合检索浙江人学硕士学位论义AbstractTh
3、ecunstomer’Squeriescannotbemodeledbytraditionalsearchengine,thusmostofthemarelimitedtokeywordsearch.KeywordsearchalwaysbringaboutredundantresultsSOitisdifficulttopositionusers’favourateitems.VerticalSearchEngineisdifferentfromtraditionalsearchwhichisassociatedwithstructu
4、reddataandcontainsplentyofmetadatainformation.Therefore,theusefulapproachtoimprovethequalityofsearchistotakeadvantageoftextsearch,Spatialsearchandverticalsearch.Nowadays,informationonthewebismassiveandpagetypesarerichinvariety.VerticalSearchEnginethusneedstosupportintegr
5、ationsearchtechnologyfrommulti.datasourcessuchasstructureddata,textdata,multimediadata.SOweneedfurtherstudyaboutavarietyindexwaybasedIntegrationSearch,synchronousupdateofdifferenttypesofdataindexingand‘howtoprovideuserqueryinterfacewhichisconvenient,simpleandhuman.Themai
6、ncontentofpaperincludes:1.Inthebasisofcurrentdistributedverticalsearcharchitecture,weusetheresultofwebdataminingandautomaticdataanalysisandmining;2.StudytheIntegrationSearchTechnologywhichisthecombinationoftextsearch,structuralsearchandspatialdatasearch.Keywords:SearchEn
7、gine,HybridInformation,VerticalSearchEngine浙江大学硕上学位论文图目录图2-1“多元检索”系统框架⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.25图3-1中文分词算法流程图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯33图3-2“多元检索”中的中文分词结果页面⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯34图3—3基于首字hash和二分查找的最大匹配分词算法效果页面⋯⋯⋯⋯36图4—1包含网页地理数据的网页截图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..39图4.2网页地理数据的空间位置识别:WebGIS组件中地理位置信息提取..4
8、1图4.3网页地理数据的空间位置识别:网页地理数据提取⋯⋯⋯⋯⋯⋯⋯43图4.4没有相关地图定位信息(GIS坐标)的地理位置信息⋯⋯⋯⋯⋯..44图4-5遍历网页地理数据集生成一颗地址索引树⋯⋯⋯⋯⋯⋯⋯⋯
此文档下载收益归作者所有