欢迎来到天天文库
浏览记录
ID:33752637
大小:1.77 MB
页数:39页
时间:2019-02-28
《web信息的抽取与集成》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、东南大学硕士学位论文摘要随着计算机技术、通讯技术的飞速发展和个人计算机的普及,工ntemet作为新一代的信息载体和交流平台,在人们的生活、工作中扮演越来越重要的角色,尤其是它所蕴涵的信息价值,越来越受到人们的重视。但是,Web上的数据是非结构化或者是半结构化的数据,它只能被各种浏览器识别、解释、显示,却不能被计算机或应用程序所理解,不像传统的数据库数据那样,有确定的模式结构、有明确的语义信息、提供准确高效的查询。如何从这些海量的数据中找出对自己有用的信息,为我所用,这便是Web信息抽取的要求。目前的一些,Jeb应用程序,它们是针对具体
2、的应用的,往往采用人工的方法完成“包装器”的生成,也就是将W七b数据抽取的信息硬编码到程序中,来实现数据的抽取工作。这样一旦上述Web数据抽取信息发生了改变,都会导致源程序的修改与重新编译,维护起来非常困难。本文总结了过去一些Web信息抽取技术,针对现有一些Web应用程序的不足与局限性,开发了我们自己的信息抽取工具。本信息抽取工具在整体上采用抽取过程逻辑定义与抽取过程执行模块相分离的结构,这样,可以提高系统的灵活性,充分利用现有资源。Web信息抽取出来之后,如果不加以利用,那将是毫无价值的。同时,抽取出来的结果也不一定能直接集成到目的
3、库中去,必须要先进行清理、转换。所以,我们设计实现了一套ETL工具,来实现对Web数据的集成。此ETL工具不仅对Web数据适用,还可以应用于异构数据源,实现异构数据源数据的集成。关键字:非结构化,半结构化,Web信息抽取,图形化,ETL工具,数据集成东南大学硕L学位论文AbstractWiththedevelopmentofthecomputertechnologyandcommunicationtechnology,Internetisgettingmoreandmoreimportantinourlifeandwork.Thenu
4、mberofdataontheWebistremendous.But,thedataonWebarenon-structuredorsemi-structured.Itcanbeunderstoodbybrowsertodisplay,butitcan'tbeautoprocessedbycomputer.So,itisdifficulttomakeuseoftheseinformation.HowtofindandgetusefulinformationfromthesetremendousdataonWebisthetargeto
5、fwebinformationextraction.Now,moreandmorepeoplehavefocusedontheareaofwebinformationextractionresearchandhavehadmanyachievements.But,allthesetechnologieshavetheirownadvantagesanddisadvantages.Inthisarticle,weproposeanewmethodtoperformwebinformationextraction.Weprovideaus
6、er-friendlyinterfacethatallowsusersdodefinetheprocessofwebinformationextraction.Then,anotherprogramperformsthisprocessaccordingtotheuser'sdefinition.Aftertheextractionofwebinformation,weshouldmakeuseoftheextracteddata.Itshouldbeintegratedintothetargetdatabase.Beforethep
7、rocessofdataintegration,theextracteddatamustbecleaned,transformed,thenloaded.So,weprovideanETLtooltohelpusertodefinetheprocess.Wealsoprovideauser-friendlyinterfacetohelppeopletoaccesshetero-geneousdatasources,gettheirmodels,definethetransformationrulesbetweenthesourceda
8、tasetandthetargetdataset.ThentheprogramstorestheinformationabouttheETLprocessintoscriptfile.Theimplementprogra
此文档下载收益归作者所有