欢迎来到天天文库
浏览记录
ID:37044775
大小:1.76 MB
页数:60页
时间:2019-05-15
《基于多特征挖掘的网页信息抽取方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文基于多特征挖掘的网页信息抽取方法研究RESEARCHOFWEBINFORMATIONEXTRACTIONMETHODBASEDONMULTI-FEATUREMINING高兆远哈尔滨工业大学2017年12月国内图书分类号:TP399学校代码:10213国际图书分类号:004.62密级:公开工学硕士学位论文基于多特征挖掘的网页信息抽取方法研究硕士研究生:高兆远导师:叶允明教授申请学位:工学硕士学科:计算机科学与技术所在单位:深圳研究生院答辩日期:2017年12月授予学位单位:哈尔滨工业大学ClassifiedIndex:T
2、P399U.D.C:004.62AdissertationsubmittedinpartialfulfillmentoftherequirementsfortheacademicdegreeofMasterofEngineeringRESEARCHOFWEBINFORMATIONEXTRACTIONMETHODBASEDONMULTI-FEATUREMININGCandidate:ZhaoyuanGaoSupervisor:Prof.YunmingYeAcademicDegreeAppliedfor:MasterofEnginee
3、ringSpecialty:ComputerScienceandTechnologyAffiliation:ShenzhenGraduateSchoolDateofDefence:December,2017Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学硕士学位论文摘要随着互联网的快速发展,网络上每天产生的新网页多到数不胜数,其中新闻、博客类网页占据了大部分,也随着自媒体的火热,新闻、博客类网页的比例也在逐年增高。为了全自动获得网页中有用的主要信息而去
4、除无用信息,出现了大量网页信息抽取算法。这些算法主要根据网页的文本统计特征或者网页的结构特征来简单高效地抽取网页信息,但是它们没有充分利用网页信息,导致在抽取网页时效果不稳定。因此,本文提出基于多特征挖掘的网页信息抽取算法,算法同时利用了网页的文本统计特征、网页结构特征以及网页的视觉信息特征,并使用基于精准率和召回率的CSSDOM节点选择算法来选择出网页正文内容所在节点。针对网页的CSSDOM节点的分类问题,本文提出基于多特征挖掘的CSSDOM节点分类算法。这个算法首先对网页CSSDOM节点提取网页文本统计特征、结构特征和视觉信息
5、特征,然后使用机器学习分类算法对已经标注的特征数据训练分类模型,最后对于新网页中的CSSDOM节点提取同样的特征,并使用训练好的分类模型分类这些新特征数据。实验结果表明这个算法可以有效的将网页中正文内容节点和噪音内容节点区分开,实验也表明使用多特征的效果要优于只使用文本统计特征或只使用视觉信息特征的效果。针对网页的正文内容确定问题,本文提出基于精准率和召回率的CSSDOM节点选择算法。该算法和基于多特征挖掘的CSSDOM节点分类算法联合构成本文的基于多特征挖掘的网页信息抽取方法。实验结果表明本文提出的基于多特征挖掘的网页信息抽取方
6、法有很好的抽取效果,同时算法的鲁棒性要优于现有算法。关键词:网页信息抽取;网页视觉特征;网页文本特征-I-哈尔滨工业大学硕士学位论文AbstractWiththerapiddevelopmentoftheInternet,theregeneratenumerousnewWebpageseveryday,andmostarethenewsandblogWebpages.Asthehotofself-media,theproportionofnewsandblogpagesisincreasingyearbyyear.ManyWebi
7、nformationextractionalgorithmsappearinordertocatchusefulinformationandremovemeaninglessthingsinWebpagesautomatically.SuchalgorithmsmainlyuseWebpagetextualstatisticalcharacteristicorstructurecharacteristictoextractWebpageinformationeasilyandefficiently.Howevertheydon’t
8、utilizetheWebpageinformationsufficiently,whichmaketheperformanceoftheextractionnotstabilized.Therefore,inthispapertheauthorp
此文档下载收益归作者所有