web页更新监控与数据采集系统的研究与设计

web页更新监控与数据采集系统的研究与设计

ID:33776153

大小:1.33 MB

页数:35页

时间:2019-03-01

web页更新监控与数据采集系统的研究与设计_第1页
web页更新监控与数据采集系统的研究与设计_第2页
web页更新监控与数据采集系统的研究与设计_第3页
web页更新监控与数据采集系统的研究与设计_第4页
web页更新监控与数据采集系统的研究与设计_第5页
资源描述:

《web页更新监控与数据采集系统的研究与设计》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、华南理工大学硕士学位论文Y786423Web页更新监控与数据采集系统的研究与设计杨玉锋指导教师副导师型I羞逦熬撞物理型堂皇技杰堂医塾垩堡直缝王程哑论文提交日期:2005.1.13专业名称:电王生通信工猩论文答辩日期:2QQ§:§:§学位授予单位和日期:些直堡王态芏答辩委员会主席:苴雪兰麴援论文评阅人:整耀塑直筮工程垃墨金:叵教援摘要Web上包含了大量的信息,但是其松散的组织方式使得对信息的有效检索和利用成为一大难题。以Google和Baidu为代表的通用搜索引擎已经成为人们在Web上检索信息的主要方式。然而,这些搜索引擎并不能满足所有用户的需要。有一部分用户对网上信息的利用有着特殊的方

2、式,例如:企业通过特定网站随时获得竞争对手的情报以及商品原材料的供求信息;消费者关注购物网站上的特价商品动态:求职者在特定网站上了解最新的招聘单位信息等等。这一类用户对信息的获取有共同的特点:目标网站明确集中、目标网页涉及特定的主题、对信息的实时性要求比较高。通用搜索引擎无法很好的满足这类用户的要求。本文正是针对这种情况,研究与开发一个基于WEB的数据监控与采集系统:首先,用户预先设定要监控的Web页面和并且定义要采集的数据的范围;然后,系统根据用户定义的监控规则自动监控Web页面,如果发现Web页面更新了,则使用数据抽取规则将更新的页面数据采集下来,并同时通知用户。该系统具有使用方便

3、、设置灵活、监控范围较大、实时性好的特点。关键词:Web页,更新监控,信息抽取华南理工大学硕士学位论文AbstractHavingincludedalargeamountofinformationonWeb,butitslooseorganizationwaymakestotheeffectivesearchofinformationandutilizesbecomingagreatdifficultproblem.ThesearchengineincommonuserepresentedbyGoogleandBaiduhasalreadybecomemainwaystosearchi

4、nformationonWebofpeople.However,thesesearchenginescannotmeetdemandsofusers,Havesomeusertoonlinemessagebyhavingspecialways.Forexample:Enterprisesgetsupply—demandinformationoftherival’Sinformationandgoodsrawmaterialsatanytimethroughspecificwebsites;ConsumerspaycloseattentiontOthebargaingoodstrends

5、ontheshoppingwebsite;Jobhuntersunderstandlatestadvertisingunitinformation,etc.onspecificwebsites.Obtainingcommoncharacteristictoinformationofthiskindofuser:Thetargetedwebsiteiscentralizedclearly,thegoalwebpageinvolvesthespecifictheme,real-timecharactertoinformationtoexpectmuch.Thesearchengineinc

6、ommonuseisunabletowellmeetthiskindofuser’Sdemand.ThistextstudiesanddevelopsadatumbasedonWEBandcontrolsandgathersthesystemjusttothiskindofsituation:Firstofall,usersestablishWebpagewantedtomonitorandrangedefiningthedatawantedtogatherinadvance;Then,thesystemcontrolsWebpageautomaticallyaccordingtoth

7、econtrolrulethatusersdefine,IffindWebpagebeupdate,usethedataextractionruleandextractnewerpagedata,andnotifyusersatthesametime.ThissystemhasthecharacteristicsthatitisgreaterthateasytOuse,setupflexibility,controlingrange,real—

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。