欢迎来到天天文库
浏览记录
ID:35132455
大小:1.35 MB
页数:40页
时间:2019-03-19
《试论web信息的抽取与集成》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、东南大学硕士学位论文WEB信息的抽取与集成姓名:薛惠忠申请学位级别:硕士专业:计算机应用技术指导教师:董逸生20040301东南大学硕士学位论文摘要随着计算机技术、通讯技术的飞速发展和个人计算机的普及,Intemet作为新一代的信息载体和交流平台,在人们的生活、工作中扮演越来越重要的角色,尤其是它所蕴涵的信息价值,越米越受到人们的重视。但是,Web上的数据是非结构化或者是半结构化的数据,它只能被各种浏览器识别、解释、显示,却不能被计算机或应用程序所理解,不像传统的数据库数据那样,有确定的模式结构、有明确的语义信息、
2、提供准确高效的查询。如何从这些海量的数据中找出对自己有用的信息,为我所用,这便是Web信息抽取的要求。目前的一些Web戍_};
3、j程序,它们是针对具体的应用的,往往采用人工的方法完成“包装器”的生成,也就是将Web数据抽取的信息硬编码到程序中,来实现数据的抽取工作。这样一旦上述Web数据抽取信息发生了改变,都会导致源程序的修改与重新编译,维护起来非常困难。本文总结了过去一些Web信息抽取技术,针对现有一些Web应用程序的不足与局限性,开发了我们自己的信息抽取工具。本信息抽取工具在整体上采用抽取过程逻辑定义与抽取过程
4、执行模块相分离的结构,这样,可以提高系统的灵活性,充分利用现有资源。web信息抽取出来之后,如果不加以利用,那将是毫无价值的。同时,抽取出来的结果电不一定能直接集成到目的库中去,必须要先进行清理、转换。所以,我们设计实现了一套ETL工具,来实现对Web数据的集成。此ETL工具不仅对Web数据适用,还可咀应用于异构数据源,实现异构数据源数据的集成。关键字:非结构化,半结构化,Web信息抽取,图形化,ETL工具,数据集成东南大学硕I二学位论文AbstractWiththedevelopmentofthecomputer
5、technologyandcommunicationtechnology,InteractisgettingmoreandmoreimportantinOllrlifeandwork.Thenumberofdataont11eWebistremendousBut,thedataonWebarenon—s仃ucnIredorsemi.structured.Itcarlbeunderstoodbybrowsertodisplay,butitcan’tbeautoprocessedbycomputer.So,itisdi
6、fficulttomakeuseoftheseinformationHowtofindandgetusefulinforotationfromthesetremendousdataonW曲isthetar业etofweb1nfonnationextractionNow,moreandmorepeoplehavefocusedontheareaofwebinfotinationextractionresearchandhavehadmanyachievements.But,allthesetechnologiesha
7、vetheirownadvantagesanddisadvantages.Inthisarticle,weproposeanewnrethodtoperformwebinformationextraction.Weprovideauser-friendlyinterfacethatallowsasersdodefinetheprocessofwebjnformationextraction.Then,anotherprogramperformsthisprocessaccordingtotheuser’Sdefin
8、ition.Aftertheextractionofwebinformation,weshouldmakeuseoftheextracteddataItshouldbeintegratedintothetargetdatabaseBeforetheprocessofdataintegration,theextracteddatamustbecleaned、transformed.thenloaded.So.weprovideanETLt001tohelpusertodefinetheprocess.Wealsopr
9、ovideauser-friendlyinterfacetohelppeopletoaccesshetero-geneousdatasources,gettheirmodels,definethetransformationrulesbetweenthesourcedatasetandthetargetdataset.Thentheprogramstores
此文档下载收益归作者所有