web新闻内容抽取的研究与实现

web新闻内容抽取的研究与实现

ID:33289718

大小:2.71 MB

页数:47页

时间:2019-02-23

web新闻内容抽取的研究与实现_第1页
web新闻内容抽取的研究与实现_第2页
web新闻内容抽取的研究与实现_第3页
web新闻内容抽取的研究与实现_第4页
web新闻内容抽取的研究与实现_第5页
资源描述:

《web新闻内容抽取的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、合肥工业大学硕士学位论文Web新闻内容抽取的研究与实现姓名:胡俊坤申请学位级别:硕士专业:计算机应用技术指导教师:王浩20090301Web新闻内容抽取的研究与实现摘要互连网上的信息,很大一部分是以新闻的形式提供给用户的,Web新闻内容抽取的研究,可以帮助用户迅速地从海量互连网信息中获取想要的信息,有很重要的现实意义以及研究价值。决策树是一种常用于预测模型的算法,在市场划分、金融风险、产品开发以及客户评估中已经得到了比较广泛的应用。通过将大量数据有目的地分类,从中找到一些具有商业价值的、潜在的信息。本文将决策树应用到新闻网页新闻的判决中,通过对目标数

2、据的学习生成决策树,根据生成的决策树对未知的输入数据进行决策,实现对目标数据是否为新闻内容的划分,具有很好的实用效果。主要的工作如下:(1)提出了一种针对Web标准化网站的网页分块算法,该算法自顶向下遍历Div节点树,在遍历的过程中根据当前节点的孩子节点的块重来决定如何对网页进行分块。该算法对于目前国内主流的新闻网站都可以适用。(2)利用决策树来抽取新闻内容。对每个候选新闻内容块,抽取其特征属性作为决策树学习以及分类的输入,并用学习出来的决策树抽取新闻内容块。在新闻内容块内再次利用决策树分类的方法抽取块内的新闻内容,与块抽取过程不同的是块内新闻内容抽

3、取的对象是粒度更小的文本节点,其所选择的特征属性也有所不同。由于决策树在训练过程中存在过拟合的问题,本文通过对不同的网站建立相对应的分类模型以提高准确性和适应性,而对于模型库里没有对应模型的页面则使用通用的模型对其进行分类,从而提高抽取新闻内容的准确度。关键词:数据挖掘信息抽取网页分块机器学习决策树分类ResearchandImplementontheWebNewsExtractionABSTRACTManyofinformationontheintemetisprovidedtouserinnews,thusresearchofnewsinform

4、ationextractionhasaveryimportantpracticalsignificanceandresearchvaluebecauseitcanhelppeoplegetinformationtheyneededquicklyfromthehugeinternet.Thedecisiontreealgorithmisusuallyusedtopredictmodel,ithasbeenwidelyappliedtomarketsegmentation,financialrisk,productdevelopmentandcustom

5、erevaluation.InthisDissertation,decisiontreeisusedinnewsinformationjudgmentfromwebnewspages.Itcailgetthedecisiontreesfromlearningofobjectdata,thenusethetreetopredicttheunknowndata'sclass,thentheobjectdataCanbedecidedtobenewsornot.Thisalgorithmgotabetterpracticaleffect.Themainjo

6、bisasfollows:(1)AnalgorithmofwebpagesegmentationforWebStandardizationwebsitewasproposed.Ittraversalsdivnodetreetoptodown,anddecidehowtosegmentthepagebasedonthecurrentnode’Schildrenweightintheprocessoftraversal.ThealgorithmCanbeappliedwellinthecurrentdomesticnewswebsites.(2)Deci

7、siontreeisusedtoextractnews.Itcanextractthepropertyfromeachcandidateblockastheinputofstudyadecisiontree,aswellastheclassification.Andthenusedecisiontreeclassificationmethodonceagaintoextractnewscontentfromtheblock.Thedifferenceisthistimetheobjectisasmallerparticlesizewhichistex

8、tnode,andtheselectofcharacteristicpropertiesarealsodif

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。