专题式web信息获取技术研究

专题式web信息获取技术研究

ID:35140001

大小:2.15 MB

页数:55页

时间:2019-03-20

专题式web信息获取技术研究_第1页
专题式web信息获取技术研究_第2页
专题式web信息获取技术研究_第3页
专题式web信息获取技术研究_第4页
专题式web信息获取技术研究_第5页
资源描述:

《专题式web信息获取技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、北京化工大学硕士学位论文专题式Web信息获取技术研究姓名:欧歌申请学位级别:硕士专业:计算机应用技术指导教师:赵恒永20050605北京化工大学硕士研究生学位论文专题式Web信息获取技术研究摘要Web信息获取存在已经有十几年的历史,近年来网络信息量飞速增长,使得传统的综合性信息获取的发展变得越来越困难,他无法及时的收集所有信息,而且由于信息数量太多,在准确率上无法满足人们的需要。固此,小型的专题信息采集成为近年的研究热点,具备了极高的研究价值。本文论述了Web信息获取的用途、历史、现状及发展,介绍了信息获取系统的

2、主要流程,对其中现在比较流行的主要算法进行了介绍和比较,分析了中国目前在化工专业方向的网络信息分布情况。使用Java以及SQLServer2000数据库构建了一个专题式的Web信息获取系统,其中利用元搜索引擎的原理采用人工加机器的方式从网络上收集种子,通过提供全面、准确的网站网址,简化数据过滤的工作,并且在此基础上实现了高效、灵活的信息下载功能。对在HTML的解析,文件过滤中遇到的问题提出了解决的方法,对整个系统的性能及未来的发展提出了总结。从最后的结果来看,这套系统的方案是行之有效的,获取到的页面质量很好。相信

3、本课题的研究成果也能够适用于其他方向的专题信息获取。关键字:信息获取,专题,搜索引擎,种子北京化工大学硬士研究生学位论文RESEARCH0FTOPIC—SPECIFICWEBRESOURCEDISCovERYABSTRACTWebcrawlerhaveexistformanyyears.TherapidgrowthoftheWorld—WideWebposesunprecedentedscalingchallengesforgeneral—purposecrawlersrecently.Itcannotgathe

4、ralldatatimelyanditiShardtofindouttheusefulinformation.Sothefocusedwebcrawlerbecomesthefocusresearch.Thegoalofitistoselectivelyseekoutpagesthatarerelevanttoasetoftopics.Itcanimprovethecrawler’Sperformance,leadstosavingsinhardwareandnetworkresourcesInthispaper

5、weintroducetheuses,history,actualityandfutureofthefocusedwebcrawler,analysethepopularalgorithmanddistributionofthepagesthatarerelevanttoatopicintheweb.BuildafocusedcrawlerwithJavaandSQLServer2000.Collectseedsfromwebbasedonmetasearchenginetheory.Simplifytheinf

6、ormationfilteringthroughprovidingcomprehensiveandexactURLofwebsiteandrealizethehigheffectiveinformationcrawling.WealsogivethesolutiontoproblemsmetinanalyzingHTMLsyntaxandfilefiltering.Finally,wemakeasummaryofthecapabilityandthefutureofthesystem.Theexperimentr

7、esultshowthattheworkiseffectiveandourII北京化工大学硕士研究生学位论文systemhasaverystrongapplicationvalue.Itiscertainthattheprojectcallwellbeusedinfocusedcrawleronothertopicelse.KEYWORDS:WebResourceGathering,Topic,SearchEngine,SeedIll北京化工大学硕士研究生学位论文符号说明www:WorldWideweb。万维网C

8、NNIC:ChinaIntemetNetworkInformationCenter,中国互联网络信息中心URL:UnifoITflResourceLocator,统一资源定位器URI:UniformResourceIdentifier,统一资源标识符HTTP:HypertextTransferProtocol,超文本传输协议XML:ExtensibleMarkupLang

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。