资源描述:
《Web信息抽取及知识表示系统的研究与实现①.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、Web信息抽取及知识表示系统的研究与实现①谭守标1,徐超1,江元1,宁仁霞1,21(安徽大学电子科学与技术学院,合肥230039)2(黄山学院电子信息工程系,黄山245021)摘 要:研究了从数据密集型Web页面中自动提取结构化数据并形成知识表示系统的问题。基于知识数据库实现动态页面获取,进行预处理后转换为XML文档,采用基于PAT-array的模式发现算法自动发现重复模式,结合基于本体的关键词库自动识别页面数据显示结构模型,利用XML的对象-关系映射技术将数据存入知识数据库,由此实现Web数据自动抽取。同时,利用知识数据库已有知识从互联网抽取新知识,达到知识数据库
2、的自扩展。以交通信息自动抽取及混合交通出行方案生成与表示系统进行的实验表明该系统具有高抽取准确率和良好的适应性。关键词:Web信息提取;知识表示;数据密集型Web页面;基于本体的关键词库ResearchandRealizationofaWebInformationExtractionandKnowledgePresentationSystemTANShou-Biao1,XUChao1,JIANGYuan1,NINGRen-Xia1,21(SchoolofElectronicScienceandTechnology,AnhuiUniversity,Hefei23003
3、9,China)2(ElectronicInformationEngineering,HuangshanUniversity,Huangshan245021,China)Abstract:TheWebInformationExtractionandKnowledgePresentationSystemisproposedtoextractinformationfromdataintensivewebpages.Itdownloadsdynamicwebpages,basedonaknowledgedatabase,changesthemtoXMLdocumentsa
4、fterpreprocessing,findsrepeatedpatternsfromthem,byusingaPAT-arraybasedPatternDiscoveryAlgorithm,recognizestheirdatadisplaystructuremodels,automaticallybasedontherepeatedpatternsandanontology-basedkeywordlibrary,andthenextractsthedataandstoresthemintheknowledgedatabasewiththeobject-rela
5、tionalmappingtechnologyofXML.Throughthesesteps,webdataisextractedautomatically,andtheknowledgedatabaseisalsoexpandedautomatically.Experimentsonthetrafficinformationauto-extractionandmixedtraffictravelschemesauto-creationsystemshowedthatthesystemhashighprecisionandisadaptivetowebpagesin
6、differentdomainswithdifferentstructures.Keywords:webinformationextraction;knowledgepresentation;dataintensivewebpages;ontology-basedkeywordlibrary 随着Internet的迅猛发展,Web已经成为全球传播与共享科研、教育、商业和社会信息等最重要和最具潜力的巨大信息源。Web信息抽取是指从Web页面所包含的无结构或半结构的信息中识别用户感兴趣的数据,并将其转化为结构和语义更为清晰的格式,以统一的形式集成在一起,使Web信息的
7、再利用成为可能,成为当前研究的一个热点[1]。目前关于Web信息抽取的工作可以大致分为以下几个类别:基于特征模式匹配的信息抽取、基于归纳学习的信息抽取、基于网页结构特征分析的信息抽取、基于本体的Web信息抽取等。由于Web页面的种类繁多且信息抽取目的也不尽相同,不存在一种Web信息抽取系统,能够适应这种千变万化的应用环境。现有各种抽取方法针对不同领域、不同结构页面的通用性上也都存在一些问题[2-9]。由于目前很多Web页面是动态生成的,以列表或表格的方式集中显示后台数据库中的数据,这种类型的页面对于数据集成等现实应用具有重要意义,抽取准确度也相对较高。本文针对于