欢迎来到天天文库
浏览记录
ID:33533966
大小:1.82 MB
页数:72页
时间:2019-02-26
《基于xml的web信息抽取技术的应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、武汉理工大学硕士学位论文基于XML的Web信息抽取技术的应用研究姓名:陈佳申请学位级别:硕士专业:计算机应用指导教师:胡燕20070401摘要互联网的飞速发展使其成为全球信息传播与共享的重要资源,Web上的数据一直呈几何级数增长,要想从Web上获取一条有用信息的难度却越来越大,“信息过载”已经成为一个亟待解决的问题。一种理想的情况是:人们可以像查询数据库一样查询Web上的数据。然而,如何从浩繁的Web数据中抽取出有用的信息成为众多研究工作希望解决的问题。Internet具有的海量、异构、动态变化等特性使Web信息抽取不同于传统信息抽取,同时带来了新的挑战。抽取技术随着需求的
2、增加而不断丰富,近年来国内外涌现了多种信息抽取方法。这些方法各有侧重地解决了上述Web信息抽取中面l临的问题,总体上取得了良好的效果,但在某些方面存在不同程度的局限或缺陷。为了更好地解决Web信息抽取面临的诸多问题和不足,有必要对Web信息抽取问题作进一步研究。本文使用标准的XML技术来解决网页信息抽取问题。基于标准的XSLT,可以利用它强大而且灵活的特性编写简单、健壮和通用的抽取规则。首先获得目标HTML页,并将HTML文档转换成符合XML语法的XHTML文档,然后通过XML强大的数据查询能力对构建的XML文档库进行查询,并利用DOM树将产生的抽取规则存入规则库中。然后将
3、查询结果传到客户端,从而完成用户所需的数据的抽取。但是,它不是一个通用的抽取系统,而是针对某一领域,还需要制订有效的抽取规则,一旦被抽取的源w曲页面结构发生变化,抽取工作可能失效。因此对其进行了改进,将页面分割成多个语义块,使块内主题尽可能地相关于同一主题。对页面进行分割以后,可以直接去除一些无用信息块,如导航信息和版权信息等;对语义相关的块进行操作,而不是整个页面,这将大大提高信息检索的质量。这里结合信息熵的理论并构造DOM语义树来弥补DOM分割的不足。最后,我们将XML文档看成是一种对象树,用一种对象~关系映射语言将这样的对象映射到关系数据库,将抽取出来的信息XML在关
4、系数据库中存储。基于本文所设计开发的Web信息抽取平台,可以很快的构建出健壮和通用的网页信息抽取Wrapper。关键词:信息抽取,映射,信息熵,DOM树AbstractTherapiddevelopmentoftheInteracthasbecomeanimportantSourceofglobalinformationdisseminationandsharing.DataontheWebhasgrowngeometrically.ToobtainusefulinformationfromtheWebhasbecomeincreasinglydifficult.”Info
5、rmationoverload”hasbecomeallurgentsolution.TheidealsituationisthatpeoplecanbelikesearchingthedatabaseforinformationonthesameWebinquiries.However,HowtoaccesstoandUSeusefulinformationfromWebhasbecometheproblemforresearchwork.Thecharacteristics,suchasmagnanimity,differentconstructing,anddynam
6、icchangethatInteracthas,madeWebinformationextractiondifferentfromtraditionalinformationextraction,broughtthene,vvchallengeatthesametime.Extractiontechnologyisenrichingconstantlywithincreaseofthedemand,manykindsofinformationextractionmethodshaveemergedbothathomeandabroadinrecentyears.Thesem
7、ethodshavefocusedsolutionproblemsconfrontingtheWebinformationextractiontotheabove,achievedgoodresultsoverall,butincertainareastherearevaryingdegreesoflimitationsorflaws.InordertobetteraddressthemanyproblemsandshortcomingstotheWebinformationextraction,itisneces
此文档下载收益归作者所有