基于多特征挖掘的网页信息抽取方法研究

基于多特征挖掘的网页信息抽取方法研究

ID:37044775

大小:1.76 MB

页数:60页

时间:2019-05-15

基于多特征挖掘的网页信息抽取方法研究_第1页
基于多特征挖掘的网页信息抽取方法研究_第2页
基于多特征挖掘的网页信息抽取方法研究_第3页
基于多特征挖掘的网页信息抽取方法研究_第4页
基于多特征挖掘的网页信息抽取方法研究_第5页
资源描述:

《基于多特征挖掘的网页信息抽取方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于多特征挖掘的网页信息抽取方法研究RESEARCHOFWEBINFORMATIONEXTRACTIONMETHODBASEDONMULTI-FEATUREMINING高兆远哈尔滨工业大学2017年12月国内图书分类号:TP399学校代码:10213国际图书分类号:004.62密级:公开工学硕士学位论文基于多特征挖掘的网页信息抽取方法研究硕士研究生:高兆远导师:叶允明教授申请学位:工学硕士学科:计算机科学与技术所在单位:深圳研究生院答辩日期:2017年12月授予学位单位:哈尔滨工业大学ClassifiedIndex:T

2、P399U.D.C:004.62AdissertationsubmittedinpartialfulfillmentoftherequirementsfortheacademicdegreeofMasterofEngineeringRESEARCHOFWEBINFORMATIONEXTRACTIONMETHODBASEDONMULTI-FEATUREMININGCandidate:ZhaoyuanGaoSupervisor:Prof.YunmingYeAcademicDegreeAppliedfor:MasterofEnginee

3、ringSpecialty:ComputerScienceandTechnologyAffiliation:ShenzhenGraduateSchoolDateofDefence:December,2017Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学硕士学位论文摘要随着互联网的快速发展,网络上每天产生的新网页多到数不胜数,其中新闻、博客类网页占据了大部分,也随着自媒体的火热,新闻、博客类网页的比例也在逐年增高。为了全自动获得网页中有用的主要信息而去

4、除无用信息,出现了大量网页信息抽取算法。这些算法主要根据网页的文本统计特征或者网页的结构特征来简单高效地抽取网页信息,但是它们没有充分利用网页信息,导致在抽取网页时效果不稳定。因此,本文提出基于多特征挖掘的网页信息抽取算法,算法同时利用了网页的文本统计特征、网页结构特征以及网页的视觉信息特征,并使用基于精准率和召回率的CSSDOM节点选择算法来选择出网页正文内容所在节点。针对网页的CSSDOM节点的分类问题,本文提出基于多特征挖掘的CSSDOM节点分类算法。这个算法首先对网页CSSDOM节点提取网页文本统计特征、结构特征和视觉信息

5、特征,然后使用机器学习分类算法对已经标注的特征数据训练分类模型,最后对于新网页中的CSSDOM节点提取同样的特征,并使用训练好的分类模型分类这些新特征数据。实验结果表明这个算法可以有效的将网页中正文内容节点和噪音内容节点区分开,实验也表明使用多特征的效果要优于只使用文本统计特征或只使用视觉信息特征的效果。针对网页的正文内容确定问题,本文提出基于精准率和召回率的CSSDOM节点选择算法。该算法和基于多特征挖掘的CSSDOM节点分类算法联合构成本文的基于多特征挖掘的网页信息抽取方法。实验结果表明本文提出的基于多特征挖掘的网页信息抽取方

6、法有很好的抽取效果,同时算法的鲁棒性要优于现有算法。关键词:网页信息抽取;网页视觉特征;网页文本特征-I-哈尔滨工业大学硕士学位论文AbstractWiththerapiddevelopmentoftheInternet,theregeneratenumerousnewWebpageseveryday,andmostarethenewsandblogWebpages.Asthehotofself-media,theproportionofnewsandblogpagesisincreasingyearbyyear.ManyWebi

7、nformationextractionalgorithmsappearinordertocatchusefulinformationandremovemeaninglessthingsinWebpagesautomatically.SuchalgorithmsmainlyuseWebpagetextualstatisticalcharacteristicorstructurecharacteristictoextractWebpageinformationeasilyandefficiently.Howevertheydon’t

8、utilizetheWebpageinformationsufficiently,whichmaketheperformanceoftheextractionnotstabilized.Therefore,inthispapertheauthorp

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。