欢迎来到天天文库
浏览记录
ID:35140001
大小:2.15 MB
页数:55页
时间:2019-03-20
《专题式web信息获取技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、北京化工大学硕士学位论文专题式Web信息获取技术研究姓名:欧歌申请学位级别:硕士专业:计算机应用技术指导教师:赵恒永20050605北京化工大学硕士研究生学位论文专题式Web信息获取技术研究摘要Web信息获取存在已经有十几年的历史,近年来网络信息量飞速增长,使得传统的综合性信息获取的发展变得越来越困难,他无法及时的收集所有信息,而且由于信息数量太多,在准确率上无法满足人们的需要。固此,小型的专题信息采集成为近年的研究热点,具备了极高的研究价值。本文论述了Web信息获取的用途、历史、现状及发展,介绍了信息获取系统的
2、主要流程,对其中现在比较流行的主要算法进行了介绍和比较,分析了中国目前在化工专业方向的网络信息分布情况。使用Java以及SQLServer2000数据库构建了一个专题式的Web信息获取系统,其中利用元搜索引擎的原理采用人工加机器的方式从网络上收集种子,通过提供全面、准确的网站网址,简化数据过滤的工作,并且在此基础上实现了高效、灵活的信息下载功能。对在HTML的解析,文件过滤中遇到的问题提出了解决的方法,对整个系统的性能及未来的发展提出了总结。从最后的结果来看,这套系统的方案是行之有效的,获取到的页面质量很好。相信
3、本课题的研究成果也能够适用于其他方向的专题信息获取。关键字:信息获取,专题,搜索引擎,种子北京化工大学硬士研究生学位论文RESEARCH0FTOPIC—SPECIFICWEBRESOURCEDISCovERYABSTRACTWebcrawlerhaveexistformanyyears.TherapidgrowthoftheWorld—WideWebposesunprecedentedscalingchallengesforgeneral—purposecrawlersrecently.Itcannotgathe
4、ralldatatimelyanditiShardtofindouttheusefulinformation.Sothefocusedwebcrawlerbecomesthefocusresearch.Thegoalofitistoselectivelyseekoutpagesthatarerelevanttoasetoftopics.Itcanimprovethecrawler’Sperformance,leadstosavingsinhardwareandnetworkresourcesInthispaper
5、weintroducetheuses,history,actualityandfutureofthefocusedwebcrawler,analysethepopularalgorithmanddistributionofthepagesthatarerelevanttoatopicintheweb.BuildafocusedcrawlerwithJavaandSQLServer2000.Collectseedsfromwebbasedonmetasearchenginetheory.Simplifytheinf
6、ormationfilteringthroughprovidingcomprehensiveandexactURLofwebsiteandrealizethehigheffectiveinformationcrawling.WealsogivethesolutiontoproblemsmetinanalyzingHTMLsyntaxandfilefiltering.Finally,wemakeasummaryofthecapabilityandthefutureofthesystem.Theexperimentr
7、esultshowthattheworkiseffectiveandourII北京化工大学硕士研究生学位论文systemhasaverystrongapplicationvalue.Itiscertainthattheprojectcallwellbeusedinfocusedcrawleronothertopicelse.KEYWORDS:WebResourceGathering,Topic,SearchEngine,SeedIll北京化工大学硕士研究生学位论文符号说明www:WorldWideweb。万维网C
8、NNIC:ChinaIntemetNetworkInformationCenter,中国互联网络信息中心URL:UnifoITflResourceLocator,统一资源定位器URI:UniformResourceIdentifier,统一资源标识符HTTP:HypertextTransferProtocol,超文本传输协议XML:ExtensibleMarkupLang
此文档下载收益归作者所有