欢迎来到天天文库
浏览记录
ID:53752225
大小:845.41 KB
页数:5页
时间:2020-04-23
《Web页面细粒度数据抽取方法研究-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、2014年2月计算机工程与设计Feb.2014第35卷第2期COMPUTERENGINEERINGANDDESIGNVo1.35No.2Web页面细粒度数据抽取方法研究王旭仁,杨硕,何发镁,王彦丽,张为群。(1.首都师范大学信息工程学院,北京100048;2.北京理工大学图书馆,北京100081;3.西南大学计算机与信息科学学院,重庆400715)摘要:尽管有很多方法用于Web页面信息抽取,对细粒度信息如数据项等的抽取需求仍然很迫切。提出了一个用于结构化数据抽取的解决方案,将Web页面上的信息以更细的粒度抽取出来。对包装器(
2、wrapper)生成时所依据的信息进行了基于稳定性的分类,实现了模板和种子之间多对多的自动关联(automaticallycorrelating),并按照信息稳定性的高低为每个字段生成多个抽取规则,在抽取信息时根据多个抽取规则进行抽取,只有在所有规则失效时才会导致抽取失败,提高了抽取系统的鲁棒性。实验结果表明,该方法具有良好的抽取功率和准确率。关键词:信息抽取;web挖掘;包装器;自动关联中图法分类号:TP391.3文献标识号:A文章编号:1000—7024(2014)02—0700—05Researchoffiner—gr
3、ainedWebinformationextractionmethodWANGXu-ren,YANGShuo,HEFa-mei,WANGYan-li,ZHANGWei—qun。(1.InformationEngineeringCollege,CapitalNormalUniversity,Beijing100048,China;2.Library,BeijingInstituteofTechnology,Beijing100081,China;3.ComputerScienceCollege,SouthwestUnivers
4、ity,Chongqing400715,China)Abstract:Althoughtherearemanyapproachesfordataextractionfromwebpages,demandforfiner-grainedinformation,suchasiteminformation,isstillurgingespeciallyinorienteddomainsapplications.Asolutionisproposedforstructureddataextrac—tionfromwebpages.S
5、ystemcharacteristicsareinthefollowingaspects:generatingthewrapperonthebasisofinformationbasedOl3.stabilityclassification.Thetemplatesandtheseedsofthemany-to-manyrelationshipsinautomaticwayarerealized。AccordingtOtheinformationstabilitylevelforeachfield,multipleextra
6、ctionrulesaregenerated.Onlywhenallrulesfail,itisregardedasextractionfailure.Allabovefeaturesimproveextractionsystemrobustness.Experimentalresultsshowthatthemethodhasgoodextractionsuccessfulrateandaccuraterate.Keywords:informationextraction;Webdatamining;wrapper;aut
7、omaticallycorrelating些系统_7,印只能区分Web页面中的记录或者抽取到记录的0引言内容,没有对记录(records)包含内容中更小信息单位Web数据挖掘[1]重要的基础研究内容之一是Web页面一字段/数据项(items)作进一步分析,抽取的信息粒度数据抽取,目前已经有一些Web数据自动抽取方法¨2]和比较粗,不能适应对字段分析要求较高的领域应用需要,系统_4如Omini,RoadRunner,IEPAD,MDR,DEPAT例如机票搜索、房产信息查询等广泛行业应用。等¨5]。文献[6]提出了一种基于隐马尔
8、可夫模型的中文科以当下热门的房产数据搜索为研究对象,抽取Web字研论文头部信息和引文信息抽取算法,仅在局部进行归一段级的数据,实现细粒度、稳定性好的Web数据抽取方化处理。文献[7]采用条件随机场(conditionalrandom法。对来自不同房产网站的大量页面进行观察分析后发现:fie
此文档下载收益归作者所有