基于xml的web信息抽取技术的应用研究

ID：33533966

大小：1.82 MB

页数：72页

时间：2019-02-26

资源描述：

《基于xml的web信息抽取技术的应用研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、武汉理工大学硕士学位论文基于XML的Web信息抽取技术的应用研究姓名：陈佳申请学位级别：硕士专业：计算机应用指导教师：胡燕20070401摘要互联网的飞速发展使其成为全球信息传播与共享的重要资源，Web上的数据一直呈几何级数增长，要想从Web上获取一条有用信息的难度却越来越大，“信息过载”已经成为一个亟待解决的问题。一种理想的情况是：人们可以像查询数据库一样查询Web上的数据。然而，如何从浩繁的Web数据中抽取出有用的信息成为众多研究工作希望解决的问题。Internet具有的海量、异构、动态变化等特性使Web信息抽取不同于传统信息抽取，同时带来了新的挑战。抽取技术随着需求的

2、增加而不断丰富，近年来国内外涌现了多种信息抽取方法。这些方法各有侧重地解决了上述Web信息抽取中面l临的问题，总体上取得了良好的效果，但在某些方面存在不同程度的局限或缺陷。为了更好地解决Web信息抽取面临的诸多问题和不足，有必要对Web信息抽取问题作进一步研究。本文使用标准的XML技术来解决网页信息抽取问题。基于标准的XSLT，可以利用它强大而且灵活的特性编写简单、健壮和通用的抽取规则。首先获得目标HTML页，并将HTML文档转换成符合XML语法的XHTML文档，然后通过XML强大的数据查询能力对构建的XML文档库进行查询，并利用DOM树将产生的抽取规则存入规则库中。然后将

3、查询结果传到客户端，从而完成用户所需的数据的抽取。但是，它不是一个通用的抽取系统，而是针对某一领域，还需要制订有效的抽取规则，一旦被抽取的源w曲页面结构发生变化，抽取工作可能失效。因此对其进行了改进，将页面分割成多个语义块，使块内主题尽可能地相关于同一主题。对页面进行分割以后，可以直接去除一些无用信息块，如导航信息和版权信息等；对语义相关的块进行操作，而不是整个页面，这将大大提高信息检索的质量。这里结合信息熵的理论并构造DOM语义树来弥补DOM分割的不足。最后，我们将XML文档看成是一种对象树，用一种对象～关系映射语言将这样的对象映射到关系数据库，将抽取出来的信息XML在关

4、系数据库中存储。基于本文所设计开发的Web信息抽取平台，可以很快的构建出健壮和通用的网页信息抽取Wrapper。关键词：信息抽取，映射，信息熵，DOM树AbstractTherapiddevelopmentoftheInteracthasbecomeanimportantSourceofglobalinformationdisseminationandsharing．DataontheWebhasgrowngeometrically．ToobtainusefulinformationfromtheWebhasbecomeincreasinglydifficult．”Info

5、rmationoverload”hasbecomeallurgentsolution．TheidealsituationisthatpeoplecanbelikesearchingthedatabaseforinformationonthesameWebinquiries．However,HowtoaccesstoandUSeusefulinformationfromWebhasbecometheproblemforresearchwork．Thecharacteristics，suchasmagnanimity,differentconstructing,anddynam

6、icchangethatInteracthas，madeWebinformationextractiondifferentfromtraditionalinformationextraction,broughtthene,vvchallengeatthesametime．Extractiontechnologyisenrichingconstantlywithincreaseofthedemand，manykindsofinformationextractionmethodshaveemergedbothathomeandabroadinrecentyears．Thesem

7、ethodshavefocusedsolutionproblemsconfrontingtheWebinformationextractiontotheabove，achievedgoodresultsoverall，butincertainareastherearevaryingdegreesoflimitationsorflaws．InordertobetteraddressthemanyproblemsandshortcomingstotheWebinformationextraction，itisneces

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 72



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于xml的web信息抽取技术的应用研究

基于xml的web信息抽取技术的应用研究

相关文章

相关标签