欢迎来到天天文库
浏览记录
ID:35146568
大小:2.04 MB
页数:62页
时间:2019-03-20
《hidden web上的自动信息抽取》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、南开大学硕士学位论文HiddenWeb上的自动信息抽取姓名:于振申请学位级别:硕士专业:计算机应用技术指导教师:王庆人20080501中文摘要互联网中蕴含着大量可用的信息,但其中越来越多的内容需要通过填写HTML表单的方式才能获得。从用户和数据管理的角度来看,这是合理的,但是对于收集网络信息的自动化工具来说,无疑制造了很多的困难。这部分被隐藏在查询表单后面的Web也因此被称为HiddenWeb。由于其中信息的巨大价值,在HiddenWeb中的自动信息搜索己经成为热门的研究课题。本文将提出一个在HiddenWeb中进行信息搜索的方法,不同于其他针对页面的方法,它以HiddenWeb中
2、的信息为目标,通过自动填表、制定查询计划、结果页面处理、重复信息过滤等步骤,力争高效地实现对隐藏在表单后面信息的覆盖。为了有效利用所获得的信息,本文还将提出~种在页面中抽取信息的方法。这种方法没有针对Web页面的整个结构进行解析,但仍然提取出了表格结构,在效率与灵活之间找到了一个平衡。在此基础之上,我们构建了一个系统。针对典型的搜索引擎,它可以实现自动登录、自动发起查询、索引页面处理、详情页面处理等功能,通过查询界面尽可能多的获取信息,并通过信息抽取的方法,将其转化为结构化的数据放入数据库中,以便进行类似于数据挖掘的后续处理步骤。此系统被应用在~个欧美软件项目中,利用目标网站提供的
3、简历搜索引擎获取简历信息。本文将对其应用及实验结果进行总结与评价。。关键字Crawling、HiddenW曲、信息抽取AbslractAbstractThereisavastamountofinformationontheinternet,butmorgandmoreWebdataisaccessibleonlybyfillingoutHTMLformstoqueryallunderlyingdatasource.Whilethisismostwelcomefromauserperspectiveandfromadatamanagementperspective,itposesma
4、nydifficultiesforautomatedagentstoaccessdatabehindforms.Forthisreason,thisportionofWebiscalled‘‘HiddenWeb’’.Duetothevalueoftheinformationinit,crawlingthehiddenwebhasbecomeanimportantresearchsubject.Inthispaper,wepresentamethodtoretrieveinformationinthehiddenweb.Unlikeotherapproachesthataimatwe
5、bpages,weaimatinformationinpages.Usingstepssuchasautomatedformfilling,makingquerysubmissionplan,processingqueryresponsepagesandfilteringduplicaterecords,westrivetocovertheinformationbehindtheformsefficiently.Thispaperalsointroducesamethodforinformationextractiononwebpages,whichcanhelpUSmakebet
6、teruseoftheobtainedinformation.Thismethoddoesn’tparsewebpagestogettheHTMLtag—basedhierarchy,butitCanstillobtainthestructureoftables.Soitachievesabalancebetweenefficiencyandflexibility.Basedonthesetechniques,webuiltasystemwhichcanextractinformationfromsearchengines.ThissystemCanperformlogin,sub
7、mitqueriesautomaticallyandprocessindexpagesanddetailpages.Itfinallyconvertsinformationtostructureddata,whichfacilitatesfurtheranalysislikedatamining.Thesystemisusedinasoftwareprojectwhichaimstoextractresumesfromaparticularwebsite.Thepap
此文档下载收益归作者所有