欢迎来到天天文库
浏览记录
ID:35132498
大小:3.26 MB
页数:59页
时间:2019-03-19
《hidden web搜索技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中国石油大学(华东)硕士学位论文HiddenWeb搜索技术的研究姓名:李伟申请学位级别:硕士专业:计算机应用技术指导教师:张文东20080501摘要HiddenWeb中包含了大量结构好、质量高的信息,而且随着信息化建设的加强,这些信息的数量一直在快速增加。虽然HiddenWeb的信息量变得越来越大,但是现有搜索引擎对其的搜索能力却非常有限,导致了许多优质信息无法被广泛获取,造成了大量的信息资源浪费。分析了HiddenWeb的成因和已有的一些搜索方法,发现这些方法多是从HiddenWeb数据库的分类以及查询接口的集成方面进行研究
2、,在HiddenWeb普适性搜索上存在不足。为了找到HiddenWeb搜索的普适性方法,主要从解决搜索引擎对HiddenWeb搜索的局限性出发,对HiddenWeb搜索技术进行了以下两方面的研究:(1)HiddenWeb查询接口的自动识别。摒弃了传统的采用样本集训练的识别方法,采用关键词模糊提交,并对返回结果分析处理的方法。识别精度不受训练集的影响,识别效率大大提高。(2)HiddenWeb查询关键词的产生算法。采用样本估计的方法产生候选关键词,并对样本词频进行了进一步的分析,得出了样本词频公式。使用样本词频公式选择关键词,可
3、以很好地符合词频走势,使得到的关键词最优。经过实验证明,论文中提出的接口识别方法和关键词产生算法切实可行,能够准确识别出HiddenWeb的查询接口,并可以快速地对查询关键词进行优选,为HiddenWeb的普适性搜索奠定了基础。关键词:HiddenWeb,搜索,接口识别,样本估计,关键词选择ResearchofHiddenWebSearchTechnologyLiWei(ComputerApplicationTechnology)Directedby:SeniorEngineerZHANGWen—dongAbstractHid
4、denWebcontainslotsofwell—structuredandhigh-qualityinformation.AlongwitlltheenhancementofITapplication,thequantityofsuchinformationhasbeenincreasingfasterandfaster.AlthoughtheHiddenWebinformationisincreasingrapidly,thequantityindexedbythesearchengineisverysmall.Soitc
5、ausesalotofinformationwaste.ThispaperfirstanalysestheoriginofHiddenWebandsearchmethodsmainlyonHiddenWebdatabaseclassificationandsearchinterfaceintegration.AndtheninordertofindacommonsearchmethodforHiddenWeb,twomajorsearchingtechnologiesarestudied:(1)AutomaticHiddenW
6、ebsearchinterfacerecognition.Withoutusingsampleset,onlybysubmittingkeywordsandanalyzingtheresults,themethodcouldfindtheHiddenWebsearchinterfacerapidlyandaccurately.(2)HiddenWebsearchkeywordsselectionalgorithm.Firstusingsampleestimatemethodtofindthesearchkeywords,and
7、thenanalyzingthewords’frequencyinthesamplesettogettheformulaofthesamplefrequency.KeywordsselectedwiththeformulareflectthetrendoftheirfrequencyintheHiddenWebdatabase,SOtheselected、vordscouldbethebestselection.Themethodofinterfacerecognitionandkeywordsselectionalgorit
8、hmistestedbycertainexperiments.TheexperimentswellvalidateOUrresearch.Keywords:HiddenWeb,searching,interfacerecognition,sampleestimate,keyw
此文档下载收益归作者所有