基于主题和结构的xml网页的数据抽取

基于主题和结构的xml网页的数据抽取

ID:33763190

大小:1.74 MB

页数:51页

时间:2019-03-01

基于主题和结构的xml网页的数据抽取_第1页
基于主题和结构的xml网页的数据抽取_第2页
基于主题和结构的xml网页的数据抽取_第3页
基于主题和结构的xml网页的数据抽取_第4页
基于主题和结构的xml网页的数据抽取_第5页
资源描述:

《基于主题和结构的xml网页的数据抽取》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、华侨大学硕士学位论文基于主题和结构的XML网页的数据抽取姓名:朱杰申请学位级别:硕士专业:计算机应用技术指导教师:吴扬扬20050616华侨大学硕士学位论史摘要近年来互联网正强有力的改变着世界。信息革命不仅极大地改变了人们的生活方式,而且带来了巨大的社会变革。互联网成了一个巨大的信息源,如何在庞杂的数据中准确地抽取出用户想要的信息成为一个非常重要的课题。随着Web的应用越来越广泛和深入,人们渐渐觉得HTML始终无法满足不断增长的需求,所以制订出了一种新的Web标记语言:XML。随着XML技术的不断发展,web上出现了

2、一些XML网页。本文针对XML网页,提出了一种基于树结构的Web数据抽取方法。本文重点研究如何从同一主题的XML网页中抽取出该类主题网页的一般模式,核心技术是通过解析)(1“L文档,按用户主题对解析后的样本XML文档进行模式抽取以及按照模式信息对目标XML文档进行数据抽取。在这里,模式信息实际上就是根据样本文档中符合用户主题的语义块,得到样本页包含相关信息的结构模式,样本页中的所有用户兴趣区域构成一组语义块,通过对语义块的比较和归纳学习,得到我们所需的该类主题的模式信息。然后根据得到的规则,从目标XML文档中寻找与之

3、匹配的信息,抽取出来提交给用户。关键词:XML,树结构,模式抽取,数据抽取华侨大学硕士学位论文—__—————-——————————___●-——’—————●-————————————___—-———__N_H————————h———————,一ABSTRACTInternethaschangedtheworldgreatlywithitspower.Inrecentyears,ittakesgreatchangetooursociety.InteractbecomesabigsourceofInformation

4、andhowtoretrieveuseful/nformafionfromcomplexdatapreciselylandcompletelybecomesaveryimportanttask.W油theincreasingapplicationofWeb.peoplefeetthatHTMLCannotfollowthestepoftheincreasingdemandandinventanewkindofWeblanguage一一XML.WiththedevelopmentofXMLtechnology,some

5、XMLpagesappearintheWeb.Inthispaperweputforwardaninformationextractionmethodforgiventopics.Thefollowing,wediscussatopicorientedpatternanddataextractingsystemforXMLdocumentandconcentrateontherealizationofthepattemanddataextractingalgorithmwepresented.Thecoretechn

6、ologyisparsingXMLdocument,extractingpattemanddatafromsampledocuments,Infact,paaeminformmionisthestructurepattemofsemanticblock.Wegetpatterninformmionofonetopicthroughcomparingsemanticblocks.WeextracttheinformationbasedontherulesandsubmitthereSulttotheclientKeyw

7、ords:XML,treestructure,PatternExtraction,DataExtractingX7343[;3华侨大学碗士学位论文第一章引言1.1问题的提出Imernet是当前世界上最大最流行的计算机网络,又称之为全球信息资源网。它起源于一个名叫ARPANET的广域网,该网是1969年由美国国防部高级研究计划署(A尉强)创办的一个实验性网络。最初只连接了位于不同地区的为数不多的几台计算机,其目的是在不同类型的计算机之间通信,寻求一种连接不同局域网和广域网的新方法,实现一个网络中的网络,即网际网。由于A

8、RPANET采用分布式的控制与处理,因此,它的一个或多个站点被破坏时,其他站点间的连接不受影响,它所具有的高可靠性使它得到了迅速发展,不断有新团体的网络加入,该网变得越来越大,功能也逐步完善起来,而如今互联网如同星火燎原一般迅速的在全球扩张起来。Intemet之所以a&够迅速普及,并弓l起前所未有的反响,在于这项技术的作用已经远远超过信息产业的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。