资源描述:
《基于xml的自动学习web信息抽取》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、计算机科学2008Vol353*)基于XML的自动学习Web信息抽取111,2111冀高峰汤庸道炜吴桂宾黄帆王鹏12(中山大学计算机科学系广州510275)(广东天讯电信科技有限公司广州510620)摘要因特网给我们提供了巨大的信息量,在信息量极其丰富的Web资源中,蕴涵着大量有用的知识信息。信息爆炸而知识匮乏是当今人们所面临的一个很重要的问题。通过搜索引擎来查找信息将不容易定位到用户最感兴趣的数据上。而通过Web信息抽取的自动化实现,可以提高信息获得的效率。信息
2、抽取可以从网络上分析和发现有用的信息,废弃冗余的数据,提取用户知识领域的知识。本文分析了基于XML的Web信息提取,讨论了相关技术在Web信息抽取中的应用并建立了相应的Web信息抽取模型,通过自动学习来获取信息抽取规则,实现Web信息的自动提取。关键词信息提取,半结构化,自动学习,规则库,XMLAutolearningWebInformationExtractionBasedonXMLJIGaoFeng1TANGYong1DAOWei1,2WUGuiBin1HUANGFan1WAN
3、GPeng1(DepartmentofComputerScience,SunYatSenUniversity,Guangzhou510275)1(GuangdongTianxunTelecomLtd,Guangzhou510620)2AbstractInternetprovidesusexplosiveinformationandinvolvesmassiveimportantandusefulknowledgewithintheabundantWebresources.Infoexplosi
4、onandknowledgedeficiencyarebigtroublesconfrontingmoderncivilizationduetotheinconvenienceoflocatingthevitaldatainterestedbyuserviasearchengine.However,theautorealizationofWebinfoextractioncouldsignificantlyenhancetheefficiencyofinfoabsorbing.Itcanalsod
5、iscoveraswellasanalyzetargetedinfo,discardredundantdataandextractuserknowledgedomaininfo.ThisarticleanalyzesWebinfoextractionmethodologybasedonXML,discussesrelatedtechnologyconcerningapplicationofsuchmethodology,establishesWebinfoextractionmodelinor
6、dertorealizeautoextractionofWebinfoviaautolearningtheregulationsofWebinfoextraction.KeywordsInfoextraction,Semistructural,Autolearning,Regulationlibrary,XML领域有着广泛的应用。主要的应用领域有:篇章分析技术、多1引言语言文本处理、深层理解技术、时间信息处理、利用机器学习因特网对我们来说是一个巨大的信息源,信息爆炸而知增强系统的可移植能力、
7、Web信息提取等等。其中很重要的识匮乏是当今人们面临的一个很重要的问题,因而从Web上一个方面是Web信息提取。Web信息提取主要有两种方法,提取用户相关领域的知识可以极大提高有用信息获取的效一种是知识学习方法,一种是机器学习方法。知识学习方法率。Web信息获取主要有两种方法:通过搜索引擎查询或者是针对特定的领域由人工编制抽取规则来提取信息,一般它进行Web信息抽取。前者主要是通过关键字匹配查询,根据的准确度较高,但对于要从大量格式不同的网页提取信息则用户的请求获取相应的文档,用户必须从获得的文档当中
8、自需要耗费更多的时间和精力去编写抽取规则;机器学习方法己查找有用的信息。搜索引擎主要由网络爬虫(WebScrap则可以通过学习和总结规则,从而对付未见过的文本的信息er),索引数据库(IndexDatabase)和查询服务(InquiryServ的提取。但它要建立在大量训练数据的基础上。现在网络上ice)组成。网络爬虫在网络里以发现尽可能多的匹配网站为大部分的网页是用HTML表示的,HTML是一种半结构化目标,查询服务则返回尽可能多的结果,这些文档并