hidden web搜索技术的研究

hidden web搜索技术的研究

ID:35132498

大小:3.26 MB

页数:59页

时间:2019-03-19

hidden web搜索技术的研究_第1页
hidden web搜索技术的研究_第2页
hidden web搜索技术的研究_第3页
hidden web搜索技术的研究_第4页
hidden web搜索技术的研究_第5页
资源描述:

《hidden web搜索技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中国石油大学(华东)硕士学位论文HiddenWeb搜索技术的研究姓名:李伟申请学位级别:硕士专业:计算机应用技术指导教师:张文东20080501摘要HiddenWeb中包含了大量结构好、质量高的信息,而且随着信息化建设的加强,这些信息的数量一直在快速增加。虽然HiddenWeb的信息量变得越来越大,但是现有搜索引擎对其的搜索能力却非常有限,导致了许多优质信息无法被广泛获取,造成了大量的信息资源浪费。分析了HiddenWeb的成因和已有的一些搜索方法,发现这些方法多是从HiddenWeb数据库的分类以及查询接口的集成方面进行研究

2、,在HiddenWeb普适性搜索上存在不足。为了找到HiddenWeb搜索的普适性方法,主要从解决搜索引擎对HiddenWeb搜索的局限性出发,对HiddenWeb搜索技术进行了以下两方面的研究:(1)HiddenWeb查询接口的自动识别。摒弃了传统的采用样本集训练的识别方法,采用关键词模糊提交,并对返回结果分析处理的方法。识别精度不受训练集的影响,识别效率大大提高。(2)HiddenWeb查询关键词的产生算法。采用样本估计的方法产生候选关键词,并对样本词频进行了进一步的分析,得出了样本词频公式。使用样本词频公式选择关键词,可

3、以很好地符合词频走势,使得到的关键词最优。经过实验证明,论文中提出的接口识别方法和关键词产生算法切实可行,能够准确识别出HiddenWeb的查询接口,并可以快速地对查询关键词进行优选,为HiddenWeb的普适性搜索奠定了基础。关键词:HiddenWeb,搜索,接口识别,样本估计,关键词选择ResearchofHiddenWebSearchTechnologyLiWei(ComputerApplicationTechnology)Directedby:SeniorEngineerZHANGWen—dongAbstractHid

4、denWebcontainslotsofwell—structuredandhigh-qualityinformation.AlongwitlltheenhancementofITapplication,thequantityofsuchinformationhasbeenincreasingfasterandfaster.AlthoughtheHiddenWebinformationisincreasingrapidly,thequantityindexedbythesearchengineisverysmall.Soitc

5、ausesalotofinformationwaste.ThispaperfirstanalysestheoriginofHiddenWebandsearchmethodsmainlyonHiddenWebdatabaseclassificationandsearchinterfaceintegration.AndtheninordertofindacommonsearchmethodforHiddenWeb,twomajorsearchingtechnologiesarestudied:(1)AutomaticHiddenW

6、ebsearchinterfacerecognition.Withoutusingsampleset,onlybysubmittingkeywordsandanalyzingtheresults,themethodcouldfindtheHiddenWebsearchinterfacerapidlyandaccurately.(2)HiddenWebsearchkeywordsselectionalgorithm.Firstusingsampleestimatemethodtofindthesearchkeywords,and

7、thenanalyzingthewords’frequencyinthesamplesettogettheformulaofthesamplefrequency.KeywordsselectedwiththeformulareflectthetrendoftheirfrequencyintheHiddenWebdatabase,SOtheselected、vordscouldbethebestselection.Themethodofinterfacerecognitionandkeywordsselectionalgorit

8、hmistestedbycertainexperiments.TheexperimentswellvalidateOUrresearch.Keywords:HiddenWeb,searching,interfacerecognition,sampleestimate,keyw

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。