试论web信息的抽取与集成

试论web信息的抽取与集成

ID:35132455

大小:1.35 MB

页数:40页

时间:2019-03-19

试论web信息的抽取与集成_第1页
试论web信息的抽取与集成_第2页
试论web信息的抽取与集成_第3页
试论web信息的抽取与集成_第4页
试论web信息的抽取与集成_第5页
资源描述:

《试论web信息的抽取与集成》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、东南大学硕士学位论文WEB信息的抽取与集成姓名:薛惠忠申请学位级别:硕士专业:计算机应用技术指导教师:董逸生20040301东南大学硕士学位论文摘要随着计算机技术、通讯技术的飞速发展和个人计算机的普及,Intemet作为新一代的信息载体和交流平台,在人们的生活、工作中扮演越来越重要的角色,尤其是它所蕴涵的信息价值,越米越受到人们的重视。但是,Web上的数据是非结构化或者是半结构化的数据,它只能被各种浏览器识别、解释、显示,却不能被计算机或应用程序所理解,不像传统的数据库数据那样,有确定的模式结构、有明确的语义信息、

2、提供准确高效的查询。如何从这些海量的数据中找出对自己有用的信息,为我所用,这便是Web信息抽取的要求。目前的一些Web戍_};

3、j程序,它们是针对具体的应用的,往往采用人工的方法完成“包装器”的生成,也就是将Web数据抽取的信息硬编码到程序中,来实现数据的抽取工作。这样一旦上述Web数据抽取信息发生了改变,都会导致源程序的修改与重新编译,维护起来非常困难。本文总结了过去一些Web信息抽取技术,针对现有一些Web应用程序的不足与局限性,开发了我们自己的信息抽取工具。本信息抽取工具在整体上采用抽取过程逻辑定义与抽取过程

4、执行模块相分离的结构,这样,可以提高系统的灵活性,充分利用现有资源。web信息抽取出来之后,如果不加以利用,那将是毫无价值的。同时,抽取出来的结果电不一定能直接集成到目的库中去,必须要先进行清理、转换。所以,我们设计实现了一套ETL工具,来实现对Web数据的集成。此ETL工具不仅对Web数据适用,还可咀应用于异构数据源,实现异构数据源数据的集成。关键字:非结构化,半结构化,Web信息抽取,图形化,ETL工具,数据集成东南大学硕I二学位论文AbstractWiththedevelopmentofthecomputer

5、technologyandcommunicationtechnology,InteractisgettingmoreandmoreimportantinOllrlifeandwork.Thenumberofdataont11eWebistremendousBut,thedataonWebarenon—s仃ucnIredorsemi.structured.Itcarlbeunderstoodbybrowsertodisplay,butitcan’tbeautoprocessedbycomputer.So,itisdi

6、fficulttomakeuseoftheseinformationHowtofindandgetusefulinforotationfromthesetremendousdataonW曲isthetar业etofweb1nfonnationextractionNow,moreandmorepeoplehavefocusedontheareaofwebinfotinationextractionresearchandhavehadmanyachievements.But,allthesetechnologiesha

7、vetheirownadvantagesanddisadvantages.Inthisarticle,weproposeanewnrethodtoperformwebinformationextraction.Weprovideauser-friendlyinterfacethatallowsasersdodefinetheprocessofwebjnformationextraction.Then,anotherprogramperformsthisprocessaccordingtotheuser’Sdefin

8、ition.Aftertheextractionofwebinformation,weshouldmakeuseoftheextracteddataItshouldbeintegratedintothetargetdatabaseBeforetheprocessofdataintegration,theextracteddatamustbecleaned、transformed.thenloaded.So.weprovideanETLt001tohelpusertodefinetheprocess.Wealsopr

9、ovideauser-friendlyinterfacetohelppeopletoaccesshetero-geneousdatasources,gettheirmodels,definethetransformationrulesbetweenthesourcedatasetandthetargetdataset.Thentheprogramstores

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。