基于网络爬虫技术的网络新闻分析

基于网络爬虫技术的网络新闻分析

ID:40239123

大小:721.00 KB

页数:57页

时间:2019-07-28

基于网络爬虫技术的网络新闻分析_第1页
基于网络爬虫技术的网络新闻分析_第2页
基于网络爬虫技术的网络新闻分析_第3页
基于网络爬虫技术的网络新闻分析_第4页
基于网络爬虫技术的网络新闻分析_第5页
资源描述:

《基于网络爬虫技术的网络新闻分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、毕业设计(论文)任务书第1页毕业设计(论文)题目:基于网络爬虫技术的网络新闻分析毕业设计(论文)要求及原始数据(资料):1.综述国内外网络爬虫技术研究现状;2.深入了解网络爬虫与文字分析的相关技术;3.熟练掌握网络爬虫爬取策略以及分析策略;4.设计并实现针对网络新闻的爬虫程序;5.深入分析与整合爬取到的网络新闻数据;6.训练检索文献资料和利用文献资料的能力;7.训练撰写技术文档与学位论文的能力。第2页毕业设计(论文)主要内容:1.综述网络爬虫在大数据分析中的应用;2.了解网络爬虫以及文字分析的相关技术;3.熟悉网络爬虫的开发环境;4.设计以网络

2、新闻为目标的爬虫程序;5.学习研究文字分析的关键技术与编写网络爬虫的设计流程;6.熟练掌握程序绘制分析结果统计图的技术;7.设计与实现针对网络新闻爬取与分析整合的程序。学生应交出的设计文件(论文):1.内容完整、层次清晰、叙述流畅、排版规范的毕业设计论文;2.包括毕业设计论文、源程序等内容在内的毕业设计电子文档及其它相关材料。 第3页主要参考文献(资料):[1]于娟,刘强.主题网络爬虫研究综述[J].计算机工程与科学,2015,37(02):231-237.[2]张红云.基于页面分析的主题网络爬虫的研究[D].武汉理工大学,2010.[3]张莹

3、.面向动态页面的网络爬虫系统的设计与实现[D].南开大学,2012.[4]张晓雷.面向Web挖掘的主题网络爬虫的研究与实现[D].西安电子科技大学,2012.[5]奉国和,郑伟.国内中文自动分词技术研究综述[J].图书情报工作,2011,55(2):41-45.[6]许智宏,张月梅,王一.一种改进的中文分词在主题搜索中的应用[J].郑州大学学报,2014(5):44-48.[7]欧振猛,余顺争.中文分词算法在搜索引擎应用中的研究[J].计算机工程与应用,2000,36(08):80-82.[8]Batsakis.S,PetrakisEGM,Mi

4、liosE.Improvingtheperformanceoffocusedwebcrawlers[J].Data&knowledgeengineering,2009,68(10):1001-1013.[9]Pant.G,MenczerF.MySpiders:EvolveYourOwnIntelligentWebCrawlers[J].Autonomousagentsandmulti-agentsystems,2002,5(2):221-229.[10]Ahmadi-AbkenariF,AliS.AClickstream-basedFocuse

5、dTrendParallelWebCrawler[J].InternationalJournalofComputerApplications,2010,9(5):24-28.基于网络爬虫技术的网络新闻分析摘要自从大数据的概念被提出后,互联网数据成为了越来越多的科研单位进行数据挖掘的对象。网络新闻数据占据了互联网数据的半壁江山,相比传统媒体,其具有传播迅速、曝光时间短、含有网民舆论等相关特征,其蕴含的价值也愈来愈大。利用相关网络爬虫技术与算法,实现网络媒体新闻数据自动化采集与结构化存储,并利用中文分词算法和中文相似度分析算法进行一些归纳整理,得出

6、相关的新闻发展趋势,体现网络新闻数据的挖掘价值。如果商业公司能选取其中与自身相关的新闻进行分析,则可以得到许多意想不到的收获,例如是否有幕后黑手故意抹黑、竞争对手情况如何。第一时间掌握与其相关的网络新闻负面效应,动用公关力量,及时修正错误,平息负面新闻,这对当今的企业来说价值是巨大的。关键词:网络爬虫;网络新闻;数据挖掘IINetnewsAnalysisBasedOnWebSpiderTechnologyAbstractSincetheconceptofthebigdataisputforword,dataontheInternetbecame

7、moreandmorescientificresearchunitsfortheobjectofdatamining.NetnewsdataoccupieshalfofInternetdata,comparedwithtraditionalmedia,ithasspreadrapidly,shortexposuretimeandcontainstherelatedcharacteristicsofpublicopinion.Therelatedwebspidertechnologyandalgorithm,torealizetheNetnews

8、automaticdatacollectionandstructuredstorage,andsummarizessomefinishing,draw

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。