Web页面细粒度数据抽取方法研究-论文.pdf

Web页面细粒度数据抽取方法研究-论文.pdf

ID:53752225

大小:845.41 KB

页数:5页

时间:2020-04-23

Web页面细粒度数据抽取方法研究-论文.pdf_第1页
Web页面细粒度数据抽取方法研究-论文.pdf_第2页
Web页面细粒度数据抽取方法研究-论文.pdf_第3页
Web页面细粒度数据抽取方法研究-论文.pdf_第4页
Web页面细粒度数据抽取方法研究-论文.pdf_第5页
资源描述:

《Web页面细粒度数据抽取方法研究-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、2014年2月计算机工程与设计Feb.2014第35卷第2期COMPUTERENGINEERINGANDDESIGNVo1.35No.2Web页面细粒度数据抽取方法研究王旭仁,杨硕,何发镁,王彦丽,张为群。(1.首都师范大学信息工程学院,北京100048;2.北京理工大学图书馆,北京100081;3.西南大学计算机与信息科学学院,重庆400715)摘要:尽管有很多方法用于Web页面信息抽取,对细粒度信息如数据项等的抽取需求仍然很迫切。提出了一个用于结构化数据抽取的解决方案,将Web页面上的信息以更细的粒度抽取出来。对包装器(

2、wrapper)生成时所依据的信息进行了基于稳定性的分类,实现了模板和种子之间多对多的自动关联(automaticallycorrelating),并按照信息稳定性的高低为每个字段生成多个抽取规则,在抽取信息时根据多个抽取规则进行抽取,只有在所有规则失效时才会导致抽取失败,提高了抽取系统的鲁棒性。实验结果表明,该方法具有良好的抽取功率和准确率。关键词:信息抽取;web挖掘;包装器;自动关联中图法分类号:TP391.3文献标识号:A文章编号:1000—7024(2014)02—0700—05Researchoffiner—gr

3、ainedWebinformationextractionmethodWANGXu-ren,YANGShuo,HEFa-mei,WANGYan-li,ZHANGWei—qun。(1.InformationEngineeringCollege,CapitalNormalUniversity,Beijing100048,China;2.Library,BeijingInstituteofTechnology,Beijing100081,China;3.ComputerScienceCollege,SouthwestUnivers

4、ity,Chongqing400715,China)Abstract:Althoughtherearemanyapproachesfordataextractionfromwebpages,demandforfiner-grainedinformation,suchasiteminformation,isstillurgingespeciallyinorienteddomainsapplications.Asolutionisproposedforstructureddataextrac—tionfromwebpages.S

5、ystemcharacteristicsareinthefollowingaspects:generatingthewrapperonthebasisofinformationbasedOl3.stabilityclassification.Thetemplatesandtheseedsofthemany-to-manyrelationshipsinautomaticwayarerealized。AccordingtOtheinformationstabilitylevelforeachfield,multipleextra

6、ctionrulesaregenerated.Onlywhenallrulesfail,itisregardedasextractionfailure.Allabovefeaturesimproveextractionsystemrobustness.Experimentalresultsshowthatthemethodhasgoodextractionsuccessfulrateandaccuraterate.Keywords:informationextraction;Webdatamining;wrapper;aut

7、omaticallycorrelating些系统_7,印只能区分Web页面中的记录或者抽取到记录的0引言内容,没有对记录(records)包含内容中更小信息单位Web数据挖掘[1]重要的基础研究内容之一是Web页面一字段/数据项(items)作进一步分析,抽取的信息粒度数据抽取,目前已经有一些Web数据自动抽取方法¨2]和比较粗,不能适应对字段分析要求较高的领域应用需要,系统_4如Omini,RoadRunner,IEPAD,MDR,DEPAT例如机票搜索、房产信息查询等广泛行业应用。等¨5]。文献[6]提出了一种基于隐马尔

8、可夫模型的中文科以当下热门的房产数据搜索为研究对象,抽取Web字研论文头部信息和引文信息抽取算法,仅在局部进行归一段级的数据,实现细粒度、稳定性好的Web数据抽取方化处理。文献[7]采用条件随机场(conditionalrandom法。对来自不同房产网站的大量页面进行观察分析后发现:fie

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。