领域相关web信息抽取方法

领域相关web信息抽取方法

ID:34617160

大小:11.50 MB

页数:44页

时间:2019-03-08

领域相关web信息抽取方法_第1页
领域相关web信息抽取方法_第2页
领域相关web信息抽取方法_第3页
领域相关web信息抽取方法_第4页
领域相关web信息抽取方法_第5页
资源描述:

《领域相关web信息抽取方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、METHODFORDOMAIN.RELATEDWEBINFORMATIONEXTRACTION煳聊AThesisSubmiRedtoSoutheastUniversityFortheAcademicDegreeofMasterofEngineeringBYLUTing—MingSupervisedbyProf.GAOZhi—QiangProf.DENGJian-MingSchoolofComputerScienceandEngineeringSoutheastUniversityJanuary2012东南大学学位论文独创性声明本人声明所呈

2、交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其它人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。研究生签名:纽日期:东南大学学位论文使用授权声明东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其它复制手段保存论文。本人电子文档的内容和纸质论文的内容相~致。除在保密期内的保密论文

3、外,允许论文被查阅和借阅,可以公布(包括刊登)论文的全部或部分内容。论文的公布(包括刊登)授权东南大学研究生院办理。研究生签名:弛导师签名:弛日期:型摘要互联网已经成为人们获取信息的重要来源,如何从互联网海量信息中快速、准确地获得所需要的信息,成为当前亟待解决的问题。然而传统的Web信息抽取方法依赖特定的模板,针对一个模板构建的包装器不能抽取其他模板生成的网页,也不能适应原来的模板的变化。本文将Web信息抽取当作一个机器学习的问题,利用视觉和语义特征构建了一个领域级别的包装器。本文的主要工作包括以下内容:(1)提出基于语义标注的DOM节点

4、分割方法,解决了DOM节点粒度过大的问题。(2)采用关键属性优先抽取的策略,先使用回归模型抽取关键属性,再使用分类模型抽取非关键属性,一方面解决了抽取结果可能包含多个关键属性的问题,另一方面利用关键属性与非关键属性之间的联系,提高了抽取的精度和召回率。本文将上述方法应用于一个学术搜索与分析原型系统中。实验结果表明,本文提出的方法能有效提高Web信息抽取的精度和召回率,并且在领域内具有良好的泛化能力,具有一定的实用价值。关键词:Web信息抽取;视觉特征;语义特征;DOM;Abstract乃eIntemethasbecomeallimport

5、antinformationsource.Quickandaccurateaccesstotheinformationweneedbecomesaseriousproblem.However,traditionalWebinformationextractionmethodsaretemplate-dependentwhichmeansthegeneratedwrappercallonlyworkproperlyforW曲pagessharingaspecifictemplate,andanychangeofthetemplatemayl

6、eadtotheinvalidationofthewrapper.InthisP印er,wetaketheW曲pageextractiontaskasamachinelearningproblem.Visualandsemanticfeaturesareutilizedtoconstructadomain.1evelwrapper.ThemajorcontributionofthisP印erincludesthefollowing:(1)ADOMnodesegmentationmethodbasedonsemanticlabelingis

7、proposedtosolvetheproblemoflargegranularityofDOMnodes.(2)Key.attribute.firststrategyistakenbyextractingthekeyattributefirstbasedonaregressionmodelandthenextractingnon.keyattributesbasedonaclassificationmodel.Ontheonehand.onlyonekeyattributewillbeextracted.Ontheotherhand,t

8、helinkagebetweenthekeyattributeandnon.keyattributescallhelptheextractionofthe1atcer-Ourworkisapp

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。