欢迎来到天天文库
浏览记录
ID:31983616
大小:1.42 MB
页数:55页
时间:2019-01-30
《基于xmlweb信息抽取和集成技术的研究论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、摘要随着近几年Intemet的飞速发展,虽然Web已经发展成为一个巨大的分布和共享信息资源的平台,但如何从Web中快速、有效的获取信息仍然是困扰着Web用户的一个问题,在这种背景之下,出现了Web信息抽取技术,Web信息抽取技术是从已经存在多年的信息抽取技术中繁衍出来的,它继承和发展了信息抽取领域的一些关键技术。同时,XML技术出现之后,迅速成为互联网信息表示的事实标准,本文把传统的信息抽取技术同XML技术结合起来,在Web信息抽取过程中起到了事半功倍的作用。本文首先对现有的信息抽取技术和XML技术加以研究,在此基础上提出了适合XML的结构又较为通用的树型结构抽取规贝H,
2、它能够把w如上的数据抽取出来整合到指定模式的XML文档中去。Web信息抽取出来,用户如果不能随心所欲的加以利用,那将是毫无价值的。所以,抽取信息的数据集成也是Web信息抽取过程中不可忽略的一个子过程。那么,如何把抽取出来的数据准确的映射到目标数据库中也是本文需要研究的范畴。同时,为了方便用户对抽取出的数据进行二次利用,本文还提出基于XML的Web查询模式。总之,Web信息抽取技术结合XML的存储和访问技术,最大限度的实现了Web信息的再利用。本文的创新所在是作者提出了一个信息抽取原型系统的设计及实现方案,该系统采用多策略的基于XML的抽取方法,来满足各个领域不同的抽取需求
3、。在文章的最后,作者基于实例对系统的各项抽取系数进行了评价,基本达到了预期的效果。关键词:Web信息抽取;x_L;数据集成;映射;原型系统WebInformationExtractionandIntegrationResearchBasedonXMLAbstractWi恤therapiddevelopmentofIntemetlastyears.Webhashadatremendousrangeandshapedaplatformtoshareinformation.HowdowegetinformationquicklyandefficientlyinWeb?It’Sa
4、problemtodisturbInteractusersallthetime.Underthisbackground,techniqueofinformationextractionOccursandisinheritedfromInformationExtractiontechniquethatcameintoeffectmanyyearsago.What’Smore,itinheritsanddevelopssomekeytechniquesofinformationextractionfield.Atthesanletime.itbecamefactualcrit
5、eriontoexpressInternetinformationspeedilyafterXMLcam.eforth.Therefore,extractiontechniqueofinformationplaysadoubleroleforitcombinesthetraditionaltechniqueofinformationextractionwithXMLtechniquewhenextractinformation.Atthebeginningofthearticle,theauthorresearchesthetechniqueofinformationex
6、tractionandthetechniqueofXML.Basedonit,fmdingageneralruleoftreestructure.which位sXMLstructurewell.ThisruleCanextractthedataofintoXMLdocumentinsomepattern.Ifuserscan’tutilizeinformationattheirpleasureafterinformationisextracted,itwillbegoodfornothing.So,dataintegrationtechniquealsoisanimpor
7、tantsub-process.Oneofthecategoryauthorwillresearchishowthedataextractedismappedaccuratelytotargetdatabase.Atthesametime,theauthorpresentsaquerymodelbasedonXML.Inthesummary,extractiontechniqueofinformationtombineswithtechniqueofXMLstoreandaccess,whichrealizethereuseo
此文档下载收益归作者所有