资源描述:
《针对模板生成网页的一种数据自动抽取方法_英文_》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、ISSN1000-9825,CODENRUXUEWE-mail:jos@iscas.ac.cnJournalofSoftware,Vol.19,No.2,February2008,pp.209−223http://www.jos.org.cnDOI:10.3724/SP.J.1001.2008.00209Tel/Fax:+86-10-62562563©2008byJournalofSoftware.Allrightsreserved.∗针对模板生成网页的一种数据自动抽取方法1,2+1,21杨少华,林海略,韩燕波1(中国科学院计算技术研究所网格与服务计算研究中心,北京100080)2(中国
2、科学院研究生院,北京100049)AutomaticDataExtractionfromTemplate-GeneratedWebPages1,2+1,21YANGShao-Hua,LINHai-Lüe,HANYan-Bo1(ResearchCenterforGridandServiceComputing,InstituteofComputingTechnology,TheChineseAcademyofSciences,Beijing100080,China)2(GraduateUniversity,TheChineseAcademyofSciences,Beijing100049,C
3、hina)+Correspondingauthor:Phn:+86-10-62600955,Fax:+86-10-62600900,E-mail:yangshaohua@software.ict.ac.cnYangSH,LinHL,HanYB.Automaticdataextractionfromtemplate-generatedWebpages.JournalofSoftware,2008,19(2):209−223.http://www.jos.org.cn/1000-9825/19/209.htmAbstract:AsubstantialfractionoftheWebconsi
4、stsofpagesthataredynamicallygeneratedusingacommontemplatepopulatedwithdatafromdatabases,suchasproductdescriptionpagesone-commercesites.Theobjectiveoftheproposedresearchistoautomaticallydetectthetemplatebehindthesepagesandextractembeddeddata(e.g.,productname,price…).Thetemplatedetectionproblemisfo
5、rmalizedandananalysisoftheunderlyingstructureoftemplate-generatedpagesismade.Atemplatedetectionapproachispresentedandthedetectedtemplatesareusedtoextractdatafrominstancepages.Comparingwithmanyotherexistingwork,theapproachisapplicableforboth“listpages”and“detailpages”.Experimentalresultsontwolarge
6、third-partytestbedsshowthattheapproachcanachievehighextractionaccuracy.Keywords:Web;automaticdataextraction;informationextraction;templatedetection;wrappergeneration摘要:当前,Web上的很多网页是动态生成的,网站根据请求从后台数据库中选取数据并嵌入到通用的模板中,例如电子商务网站的商品描述网页.研究如何从这类由模板生成的网页中检测出其背后的模板,并将嵌入的数据(例如商品名称、价格等等)自动地抽取出来.给出了模板检测问题的形式
7、化描述,并深入分析模板产生网页的结构特征.提出了一种新颖的模板检测方法,并利用检测出的模板自动地从实例网页中抽取数据.与其他已有方法相比,该方法能够适用于“列表页面”和“详细页面”两种类型的网页.在两个第三方的测试集上进行了实验,结果表明,该方法具有很高的抽取准确率.关键词:Web;自动数据抽取;信息抽取;模板发现;Wrapper生成中图法分类号:TP311文献标识码:A∗SupportedbytheNationalBasicRes