欢迎来到天天文库
浏览记录
ID:35131847
大小:265.74 KB
页数:52页
时间:2019-03-19
《试论web信息抽取技术研究与基于web service的实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、河北大学硕士学位论文Web信息抽取技术研究与基于Webservice的实现姓名:张志强申请学位级别:硕士专业:计算机应用技术指导教师:李天柱20040601摘要摘要随着Internet技术的发展WWW上积累了大量数据成为世界上最大的数据源但Web信息多以HTML格式发布缺乏语义信息造成大量的Web数据不能直接为应用程序直接使用为了使大量的Web数据能够为以数据为驱动的应用所使用人们广泛采用了信息抽取技术现已成为当前研究热点之一在以往的工作中我们实现了基于结构的信息抽取技术在Web网页显示特征的深入分析基础上以XpathXquery作为抽取规则给出了一
2、套抽取规则的生成优化方案试验结果表明这套方案所使用的方法具有较高的查准率查全率但在该方法中对Web网页结构的几个特殊情况只做了特定地分析缺乏理论上地系统阐述对抽取能力的表达也不够充分本文仔细研究了基于结构信息抽取方法的典型系统借鉴非1NF关系数据库的关系模式的平面化/嵌套化操作引入了DOM的平面化/嵌套化理论对Web网页结构做了深入分析给出了三种基本类型的平面化/嵌套化情况1集合对象平面化2元组对象平面化3DOM结构嵌套粒度过大分析了各种平面化/嵌套化对抽取的影响之后引入了结构重组规则针对各种平面化情况采用结构重组规则给出了相应的具体解决方案提高了系
3、统的抽取能力结合Web网页结构的上下文环境对各种结构重组规则的具体解决方法的适应性进行了详细的分析初步讨论了基于结构的信息抽取技术的抽取能力规则重构规则中区分节点的方法不局限于基于结构的信息抽取技术还可以采用其他信息抽取技术的方法提高了现有信息抽取技术的效率和健壮性同时为各种信息抽取技术的融合提供了一种思路WebService的出现为数据集成提供一种很好的解决方案本文将WebService技术与信息抽取技术相结合在原型系统中实现了基于WebService的信息抽取系统关键词信息抽取语义模式DOM平面化/嵌套化WebServiceIAbstractAb
4、stractAsInternetrapidlydeveloping,WorldWideWebhasalreadybecomethebiggestinformationresources.ButthemostofvaluableWebinformationisinHTMLform,whichmarkedbyHTMLandaimatrepresentationandlackofschemaandsemanticinformation,inordertoaccesstheWebinformationwithstructuredanduniformedway
5、,peopleapplyinformationextractiontechnologytoWeb.Inthepastwork,wehaveimplementedaprotypesystem,itbeprovedbeworkwellbyexperiment.Butatpresent,noworkhasanalysisedtheWebstructureintheoreticway.Now,inthispaper,weintroduceunnest/nesttheorytoillustratetheWebpagestructure.Afterstudied
6、sometypicalinformationextractsystemsbasedonstructure,wefindtherearefourkinksofnest/unnest:(1)unnestofsetobject;(2)unnestofrecordobject;(3)toobiggranularityofDOMnode.Underthistheory,weprovidedeffrentRestructure_Rullforeverykindofnest/unnest,andanalysistheadaptabilityoftheRestruc
7、ture_Rull.ByRestructrue_Rull,wecanuseotherinformationextracttechnologyinoursystem,bythiswaywefindamethodtointegratemanyinformationextracttechnologytogether.WebServiceisthefutureoftheInternetandprovidesagoodsolutionforinformationintegrate.WeintegrateWebServicetechnologywiththein
8、formationextractiontechnologyanddevelopaprotypesystemb
此文档下载收益归作者所有