Web页面细粒度数据抽取方法研究-论文.pdf

ID：53752225

大小：845.41 KB

页数：5页

时间：2020-04-23

资源描述：

《Web页面细粒度数据抽取方法研究-论文.pdf》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、2014年2月计算机工程与设计Feb．2014第35卷第2期COMPUTERENGINEERINGANDDESIGNVo1．35No．2Web页面细粒度数据抽取方法研究王旭仁，杨硕，何发镁，王彦丽，张为群。(1．首都师范大学信息工程学院，北京100048；2．北京理工大学图书馆，北京100081；3．西南大学计算机与信息科学学院，重庆400715)摘要：尽管有很多方法用于Web页面信息抽取，对细粒度信息如数据项等的抽取需求仍然很迫切。提出了一个用于结构化数据抽取的解决方案，将Web页面上的信息以更细的粒度抽取出来。对包装器(

2、wrapper)生成时所依据的信息进行了基于稳定性的分类，实现了模板和种子之间多对多的自动关联(automaticallycorrelating)，并按照信息稳定性的高低为每个字段生成多个抽取规则，在抽取信息时根据多个抽取规则进行抽取，只有在所有规则失效时才会导致抽取失败，提高了抽取系统的鲁棒性。实验结果表明，该方法具有良好的抽取功率和准确率。关键词：信息抽取；web挖掘；包装器；自动关联中图法分类号：TP391．3文献标识号：A文章编号：1000—7024(2014)02—0700—05Researchoffiner—gr

3、ainedWebinformationextractionmethodWANGXu-ren，YANGShuo，HEFa-mei，WANGYan-li，ZHANGWei—qun。(1．InformationEngineeringCollege，CapitalNormalUniversity，Beijing100048，China；2．Library，BeijingInstituteofTechnology，Beijing100081，China；3．ComputerScienceCollege，SouthwestUnivers

4、ity，Chongqing400715，China)Abstract：Althoughtherearemanyapproachesfordataextractionfromwebpages，demandforfiner-grainedinformation，suchasiteminformation，isstillurgingespeciallyinorienteddomainsapplications．Asolutionisproposedforstructureddataextrac—tionfromwebpages．S

5、ystemcharacteristicsareinthefollowingaspects：generatingthewrapperonthebasisofinformationbasedOl3．stabilityclassification．Thetemplatesandtheseedsofthemany-to-manyrelationshipsinautomaticwayarerealized。AccordingtOtheinformationstabilitylevelforeachfield，multipleextra

6、ctionrulesaregenerated．Onlywhenallrulesfail，itisregardedasextractionfailure．Allabovefeaturesimproveextractionsystemrobustness．Experimentalresultsshowthatthemethodhasgoodextractionsuccessfulrateandaccuraterate．Keywords：informationextraction；Webdatamining；wrapper；aut

7、omaticallycorrelating些系统_7，印只能区分Web页面中的记录或者抽取到记录的0引言内容，没有对记录(records)包含内容中更小信息单位Web数据挖掘[1]重要的基础研究内容之一是Web页面一字段／数据项(items)作进一步分析，抽取的信息粒度数据抽取，目前已经有一些Web数据自动抽取方法¨2]和比较粗，不能适应对字段分析要求较高的领域应用需要，系统_4如Omini，RoadRunner，IEPAD，MDR，DEPAT例如机票搜索、房产信息查询等广泛行业应用。等¨5]。文献[6]提出了一种基于隐马尔

8、可夫模型的中文科以当下热门的房产数据搜索为研究对象，抽取Web字研论文头部信息和引文信息抽取算法，仅在局部进行归一段级的数据，实现细粒度、稳定性好的Web数据抽取方化处理。文献[7]采用条件随机场(conditionalrandom法。对来自不同房产网站的大量页面进行观察分析后发现：fie

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 5



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

Web页面细粒度数据抽取方法研究-论文.pdf

Web页面细粒度数据抽取方法研究-论文.pdf

相关文章

相关标签