欢迎来到天天文库
浏览记录
ID:59479129
大小:1.30 MB
页数:43页
时间:2020-09-14
《第五章-网络舆情检测技术ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第五章网络舆情监测技术.导言网络舆情监测技术非常复杂,涉及许多计算机与网络等方面的专业知识,对于新闻与传播的从业者和研究者而言,掌握网络舆情监测相关的基本技术原理,把握技术的基本发展方向以及它们对于网络舆情监测的影响,是十分必要的。.CONTENTS1网络舆情监测数据采集2网络舆情监测数据分析3网络舆情监测可视化技术4大数据时代网络舆情监测技术遇到的挑战.1网络舆情监测数据采集..一、数据采集基本技术(一)网络爬虫网络爬虫(又被称为网页蜘蛛、网络机器人),是一种按照一定的规则自动地抓取互联网信息的
2、程序或者脚本。(1)批量型爬虫(batch crawler)。批量型爬虫有比较明确的抓取范围和目标,当爬虫达到这个设定的目标后,即停止抓取过程。批量型爬虫是目前数据采集系统中最简单的爬虫系统。(2)增量型爬虫(incremental crawler)。增量型爬虫会保持持续不断的抓取,对于已经抓取过的网页会按照一定策略定期更新。增量型爬虫是目前数据采集系统中最常用的爬虫系统。(3)垂直型爬虫(focused crawler)。垂直型爬虫只关注特定主题或特定行业的网页,其最大的挑战就是如何识别网页的内
3、容是否属于指定行业或主题。一般只有垂直行业分析才会需要此类型的爬虫。.网络爬虫的特性:(1)高性能:爬虫系统在单位时间内下载的网页数量越多性能越高。(2)可扩展性:爬虫系统应该很容易通过增加抓取服务器和爬虫数量来缩短抓取周期。(3)健壮性:包括两方面,一是爬虫系统可以处理抓取中遇到的各种非正常情况,二是爬虫系统自身有一套健壮的容错机制。(4)友好性:包括两方面,一是保护网站的部分私密性,二是减少被抓取网站的网络负载。.一、数据采集基本技术(二)网页去重在当今的互联网环境中,有相当大比例的内容是完全
4、相同或者大体相近的。这些网页不仅会增加数据采集系统的压力,而且会影响后续数据分析结果的质量,所以网页去重的问题尤为突出,已经成为提高数据质量的关键技术之一。在实际的数据采集系统中,往往是在爬虫阶段进行网页去重操作。.一、数据采集基本技术(三)分布式技术面对海量的数据抓取任务,只有采取分布式架构才有可能在较短的时间周期内完成一轮抓取工作。常见的分布式架构有两种:主从式分布爬虫和对等式分布爬虫。主从式分布爬虫(master-slave)是分布式技术中最传统的也是最常见的一种形式,它指不同的服务器承担着
5、不同的角色,其中有一台专门的master服务器来维护待抓取的URL(universalresourcelocator,统一资源定位符)队列,它负责每次将URL分发到不同的slave服务器,而slave服务器则负责实际的网页下载工作。Master服务器除了维护待抓取URL队列以及分发URL之外,还要负责调解各个slave服务器的负载情况,以免某些slave服务器过于清闲或者劳累。在对等式分布爬虫(peertopeer)体系中,服务器之间不存在分工差异,每台服务器都承担着一样的功能,各自负责一部分UR
6、L的抓取工作。由于没有URL服务器存在,如何分工就成了主要问题。.二、数据采集原理.二、数据采集原理网络爬虫的基本工作流程如下:(1)首先选取一部分精心挑选的种子URL。(2)将这些URL放入待抓取URL队列。(3)从待抓取的URL队列中取出待抓取的URL,解析DNS,并且得到主机的IP,将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。(4)分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。.三、数
7、据采集常用方法(一)网页搜索策略广度优先搜索策略最佳优先搜索策略深度优先搜索策略.三、数据采集常用方法(二)网页更新策略历史参考策略用户体验度策略聚类抽样策略.2网络舆情监测数据分析.一、数据分析基本技术(一)全文检索技术全文检索技术是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。一般来说,全文检索需要具备建立索引和提供查询的基本功能。此外,现代的全文检索系统还需要具有方便的用户接口、面向WWW的开发接口、二次应用开发接口等。在功能上,全文检索系统核心具有建立索引、处理查询返回结果集、
8、增加索引、优化索引结构等功能,外围则由各种不同应用具有的功能组成。在结构上,全文检索系统核心具有索引引擎、查询引擎、文本分析引擎、对外接口等,加上各种外围应用系统等共同构成了全文检索系统。.一、数据分析基本技术(二)文本挖掘技术文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程, 它已经成为数据挖掘中一个日益流行而重要的研究领域。与一般数据挖掘以关系、事务和数据仓库中的结构数据为研究目标所不同的是, 文本挖掘所研究的文本数据库由来自各种数据源的大量文档组成
此文档下载收益归作者所有