欢迎来到天天文库
浏览记录
ID:35131238
大小:3.14 MB
页数:61页
时间:2019-03-19
《试论基于dom的web信息抽取技术的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、大连理工大学硕士学位论文基于DOM的Web信息抽取技术的研究与实现姓名:李猛申请学位级别:硕士专业:控制理论与控制工程指导教师:仲崇权;张利20081201大连理工大学硕士学位论文摘要当前,互联网已成为全球信息传播与共享的重要渠道,但随着其数据量的爆炸性增长,用户查找自己所需的信息却变得越来越困难。在这种情况下,如何从浩繁的Web数据中抽取出有用的信息就成为了众多研究工作者希望解决的问题。近年来国内外已涌现了多种Web信息抽取方法,这些方法各有侧重地解决了信息抽取中所面临的问题。虽然在总体上取得了良好的效果,但仍然存在着对样本需求过多,工作量大的缺陷。
2、针对现有方法的不足,提出一种半自动化Web信息抽取方法,主要内容包括以下几个方面:首先,在相似页面的获取上,采用基于URL结构比较和简单树匹配算法相结合的方式来进行。即对爬虫程序在网站内获取的超链接采用URL比较法进行先过滤,去掉不满足匹配条件的网页。然后使用简单树匹配法对剩下的网页进行后过滤,以此来得到最终的相似页面。这样在网页的相似性度量上,不仅考虑了URL,还考虑了网页的实际结构,弥补了单纯根据URL获取相似页面的不足。’其次,提出一种基于DOM的Web信息抽取方法,通过对用户标记项与测试网页中数据项进行比较来获取有效信息。即先将样本网页进行解析
3、,提取其中感兴趣数据项的特征。当输入测试网页时j通过与其中所有的数据项进行特征比较来获得抽取结果。采用这种方式进行信息抽取克服了传统基于DOM的信息抽取方法对网页结构变化适应性不强的缺点。第三,针对多记录网页特别是记录数目不固定的网页进行信息抽取时,提出一种试探策略。在计算出用户标记记录与测试网页中记录的相似度矩阵后,通过矩阵的变化情况来确定记录间的分界点,进而获得所有记录,降低了抽取难度。最后,根据以上分析对基于DOM的Web信息抽取原型系统进行了设计与实现。系统为用户提供可视化操作界面,便于使用。通过不同功能模块的结合满足了抽取任务的要求。对一些数
4、据源的实验结果表明,。在单样本网页训练情况下,所提出方法可以有效抽取出网页中的数据。即使网页中存在缺失项,系统依然具有良好的表现。关键词:Web信息抽取;DOM;特征比较;试探策略基于DOM的web信息抽取技术的研究与实现ResearchandRealizationofWebInformationExtractionBasedonD0lMAbstractAstherapiddevelopmentofIntemet,ithasbecomeanimportantchannelforglobalinformationspreadingandsharing.B
5、ut、Ⅳiththeexplosivegrowthofdata,itismoreandmoredifficulttofindinterestedinformationforusers。Underthecircumstances,howtoextractusefulinformationfromWebhasbecomearesearchfoCUS.VariOUSmethodsforinformationextractionhavebeenproposedathomeandabroadinrecentyears.Thesemethodsachievegoo
6、deffectasawhole.However,thedefecmsuchasneedingexcessivesamplepagesandheavyworkloadstillexist.Aimingtotheseshortages,asemiautomaticmethodforWebinformationextractionisproposed.Themaincontentisshownasbelow.Firstly,amethodcombinedURLcomparisonandSimplejtee_Matchingalgorithmisusedino
7、rdertOsolvetheproblemofsimilarpagesacquirement.AWebcrawlerisutilizedtoobtainhyperlinksonthefirststep.ThenthehyperlinksarefilteredbythemethodofURLcomparisonandtheoneswhichsatisfymatchingconditionareleft.OnthelaststeptheSimpleTreeMatchingalgorithmisusedtofiltertheresulthyperlinks.
8、ThefinalsimilarpagesCanbeacquiredatthistime.Ont
此文档下载收益归作者所有