欢迎来到天天文库
浏览记录
ID:53575609
大小:348.15 KB
页数:4页
时间:2020-04-19
《基于多特征融合的网页正文信息抽取.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、第31卷第7期计算机应用与软件Vo1.31No.72014年7月ComputerApplicationsandSoftwareJu1.2014基于多特征融合的网页正文信息抽取刘利戴齐尹红风贾真胡万亭(西南交通大学信息科学与技术学院,思维与智慧研究所四川成都610031)摘要当今主流网页分为单正文体网页和多正文体网页。这些网页的正文信息都具有多个正文特征。想要准确定位正文信息所在位置,可以从其所具有的多个特征和网页设计者的设计习惯着手。鉴于此,融合这些特征提出一种基于多特征融合的网页正文信息抽取方法。实验结果表明,该方法对单正文体网
2、页和多正文体网页的正文抽取具有较高的准确率和通用性,很好地适应了风格多样的网页。关键词单正文体多正文体多特征信息抽取●中图分类号TP391文献标识码ADOI:10.3969/j.issn.1000—386x.2014.07.013EXTRACTINGWEBPAGESTEXTINFoRMATIoNBASEDoNHETERoGENEoUSFEATURESFUSIONLiuLiDaiQiYinHongfengJiaZhenHuWanting(InstituteofNoeticsandWisdom,SchoolofInformationS
3、cienceandTechnology,SouthwestflaotongUniversity,Chengdu610031,Sichuan,China)AbstractNowadays,themainstreamwebpagesaredividedintosingletextbodywebpagesandmultipletextbodywebpages.Thesewebpagestextinformationallhavetheheterogeneoustextfeatures.Inordertoaccuratelypositio
4、nthelocationoftextinformation,onecancommencefromtheheterogeneousfeaturestheypossessandthedesignhabitsofthewebdesigners.Therefore,inthispaper,wefusethesefeaturesandpresentawebpagestextinformationextractionmethodwhichisbasedonheterogeneousfeaturesfusion.Experimentalresu
5、ltsshowthatthemethodhashigheraccuracyrateanduniversalityforextractingthetextsfromsingletestbodywebpagesandmuhipletextbodywebpages,fitswellthewebpageswithavarietyofstyles.KeywordsSingletextbodyMultipletextbodyHeterogeneousfeaturesInformationextraction方法并在后续处理过程中做了改进,提出
6、SCF方法进一步提高0引言了抽取的效果,更好地适应了风格多样的网页;李连霞等人”总结了网页的多个特征,利用统计概率的方法确定正文信息的随着互联网技术的快速发展和信息的日益膨胀,不仅当今位置。的互联网充斥着大量的垃圾信息,而且Web网页已经不再像以在实际应用中现今的基于统计理论的方法有其局限性,随往的网页内容简洁、风格简单。网页里面加入了很多元素比如着网页风格的多样化,抽取准确率有所降低,通用性不强。本文显示样式,脚本和大量的广告等等噪声信息。如何从众多的垃旨在开发一个面向实际应用的、针对不同类型网页的正文信息圾信息中找到有用信息?
7、如何在网页中准确并完整地找到主题提取及其结构化的系统,该系统是“基于人机共建智慧平台的信息所在的位置?成为当今研究的热点课题。语义智能搜索引擎”项目中的一个子系统(辅助扩展搜索引擎Web网页正文信息提取领域,已经有大量的研究工作和许的后台知识库,以及前台用户搜索时及时反馈结构化的网页正多比较成熟的方法,要求抽取的网页数据源来自于同一网站或文信息提高用户体验),该系统尽可能适用于不同风格类型网者网页结构相似的主要有基于网页模板的方法,基于DOM页和任意网站。抽取结果的高准确率以及通用性是设计网页正树结构及其它延伸的方法’,很多研究者
8、还把这两种方法相文信息抽取算法的难点。作者以百度百科、互动百科以及各知结合进行信息抽取,比如RoadRunner系统;抽取的网页数据名导航网站里面的网址为基础不断往外延伸共爬取了五亿多个URL,下载了三千多万的网页,以此为实验数据源研究具有较高源不
此文档下载收益归作者所有