欢迎来到天天文库
浏览记录
ID:34617160
大小:11.50 MB
页数:44页
时间:2019-03-08
《领域相关web信息抽取方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、METHODFORDOMAIN.RELATEDWEBINFORMATIONEXTRACTION煳聊AThesisSubmiRedtoSoutheastUniversityFortheAcademicDegreeofMasterofEngineeringBYLUTing—MingSupervisedbyProf.GAOZhi—QiangProf.DENGJian-MingSchoolofComputerScienceandEngineeringSoutheastUniversityJanuary2012东南大学学位论文独创性声明本人声明所呈
2、交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其它人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。研究生签名:纽日期:东南大学学位论文使用授权声明东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其它复制手段保存论文。本人电子文档的内容和纸质论文的内容相~致。除在保密期内的保密论文
3、外,允许论文被查阅和借阅,可以公布(包括刊登)论文的全部或部分内容。论文的公布(包括刊登)授权东南大学研究生院办理。研究生签名:弛导师签名:弛日期:型摘要互联网已经成为人们获取信息的重要来源,如何从互联网海量信息中快速、准确地获得所需要的信息,成为当前亟待解决的问题。然而传统的Web信息抽取方法依赖特定的模板,针对一个模板构建的包装器不能抽取其他模板生成的网页,也不能适应原来的模板的变化。本文将Web信息抽取当作一个机器学习的问题,利用视觉和语义特征构建了一个领域级别的包装器。本文的主要工作包括以下内容:(1)提出基于语义标注的DOM节点
4、分割方法,解决了DOM节点粒度过大的问题。(2)采用关键属性优先抽取的策略,先使用回归模型抽取关键属性,再使用分类模型抽取非关键属性,一方面解决了抽取结果可能包含多个关键属性的问题,另一方面利用关键属性与非关键属性之间的联系,提高了抽取的精度和召回率。本文将上述方法应用于一个学术搜索与分析原型系统中。实验结果表明,本文提出的方法能有效提高Web信息抽取的精度和召回率,并且在领域内具有良好的泛化能力,具有一定的实用价值。关键词:Web信息抽取;视觉特征;语义特征;DOM;Abstract乃eIntemethasbecomeallimport
5、antinformationsource.Quickandaccurateaccesstotheinformationweneedbecomesaseriousproblem.However,traditionalWebinformationextractionmethodsaretemplate-dependentwhichmeansthegeneratedwrappercallonlyworkproperlyforW曲pagessharingaspecifictemplate,andanychangeofthetemplatemayl
6、eadtotheinvalidationofthewrapper.InthisP印er,wetaketheW曲pageextractiontaskasamachinelearningproblem.Visualandsemanticfeaturesareutilizedtoconstructadomain.1evelwrapper.ThemajorcontributionofthisP印erincludesthefollowing:(1)ADOMnodesegmentationmethodbasedonsemanticlabelingis
7、proposedtosolvetheproblemoflargegranularityofDOMnodes.(2)Key.attribute.firststrategyistakenbyextractingthekeyattributefirstbasedonaregressionmodelandthenextractingnon.keyattributesbasedonaclassificationmodel.Ontheonehand.onlyonekeyattributewillbeextracted.Ontheotherhand,t
8、helinkagebetweenthekeyattributeandnon.keyattributescallhelptheextractionofthe1atcer-Ourworkisapp
此文档下载收益归作者所有