欢迎来到天天文库
浏览记录
ID:14809138
大小:410.00 KB
页数:7页
时间:2018-07-30
《用网络矿工实现舆情监测》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、用网络矿工实现舆情监测舆情监测通常是使用关键词匹配的方式进行,我们可以使用网络矿工定制一个属于自己的舆情监测系统,实现舆情发现、预警的处理。对于舆情监测而言,我们可以通过采集任务构建自己的元搜索引擎,然后利用网络雷达实现舆情关键词的匹配、网页快照保存及预警等操作。配置过程可以分为两步:第一步配置我们关注的信息范围;第二步配置我们关注的关键词;实际,我们也可以直接一步来通过关键词获取舆情数据,但我们不这样操作,为什么?今天不做讲解,后续会讲到。首先先来配置一个元搜素引擎,来实现关注信息的数据扫描,元搜索我们配置的简单点,就配置一个百度新闻搜索和360新闻搜索,新建一
2、个采集任务:先配置百度新闻搜索,具体网址不贴出,实际这是一个带有搜索关键词的网址,这个没关系,等采集任务配置结束我们会用字典参数替换掉,然后配置导航规则,即通过搜索结果将搜索出来的内容导航出来,详细配置不做讲解,可参看网络矿工采集任务配置教程,然后配置360新闻搜索,最终配置如下:由于我们采集的数据是以文章为主,且采集的目标文章是多个网站,所有,我们采用智能方式自动提取文章的标题、正文和发布时间。配置如下:由于正文有可能在采集时带有一些网页的代码,所以,我们通过数据加工配置去掉它。这样我们的元搜索引擎就配置完成,虽然简单,但足以满足我们当前的要求了。下面,我们来开
3、始对这个采集任务调整一下,我们所监测的舆情信息是有范围的,至少应该是与“我”有关,所以,我们在搜索搜索引擎是应该制定一些关键词进行搜索,可能是多个关键词。所以我们建立一个字典,点击菜单“工具”->“字典管理”打开字典管理界面,新建一个字典分类为:舆情监测关键词,在这个分类下添加两个关键词:山西、太原,如下:然后打开我们刚才配置的采集任务,用字典参数替换搜索引擎的查询参数,这样采集任务运行时,就会自动提取字典中我们配置的“山西”“太原”关键词进行搜索了,修改如下:这里要注意了,我们搜索的关键词是中文,而url是不支持中文的,中文都需要进行编码,所以我们设置选项让网络
4、矿工自动编码提交,如下:这样,我们的元搜索就彻底配置完成了,测试一下,看看采集是否正常:没有问题,正确获取到了我们关注的新闻信息,下面我们配置网络雷达,用于实现舆情监测,新建一个雷达规则,选择监控源为我们刚才配置的采集任务;系统会自动根据采集任务的配置信息,将可以实现监控的信息项罗列出来,我们选择监控规则为监控正文,包含关键词,譬如:我们关注最近的暴雨,所以我们设置关键词为:暴雨预警,这是一个组合关键词,所以我们用/分割,然后我们选择发现舆情后,进行网页快照的保存,同时记录网页地址到数据库;然后我们选择预警规则为通过电子邮件预警,此监控规则永久有效;Ok,这样我们
5、的监控规则也完成了。回到网络矿工主界面,启动雷达监测,我们就等着监测数据就可以了。网络雷达启动后,监测到数据,首先进行数据库保存,如下:其次保存网页快照,如下:我们再查看电邮,是否已经发送,Ok,所有监控数据均正常。通过本文我们介绍了如何利用网络矿工实现舆情监测,实际实现舆情监测还是很简单滴,有兴趣的用户还可在此进行扩展,根据自己实际的监测需求来完善配置的规则。
此文档下载收益归作者所有