企业多源舆情监测系统分析与实现

企业多源舆情监测系统分析与实现

ID:32212474

大小:7.15 MB

页数:52页

时间:2019-02-01

企业多源舆情监测系统分析与实现_第1页
企业多源舆情监测系统分析与实现_第2页
企业多源舆情监测系统分析与实现_第3页
企业多源舆情监测系统分析与实现_第4页
企业多源舆情监测系统分析与实现_第5页
资源描述:

《企业多源舆情监测系统分析与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、万方数据企业多源的舆情监测系统研究与实现第一章绪论业舆情监测系统的及时性、覆盖面得到了更多的重视,舆情系统需要能够覆盖微博、贴吧、论坛、博客、社区网站、新闻网站等诸多来源。由于网络舆情来源丰富,观点表达多样,舆情系统要对舆情来源进行智能的过滤与聚合。对企业的舆情趋势、热点的舆情话题进行便捷的报表化展示。对舆情信息的正负面情感倾向进行判别,及时发现负面舆情并产生舆情预警。企业舆情系统还朝着智能化的方向发展。舆情系统需要能够预判企业网络舆情趋势,并给出处置策略,以给企业用户提供决策支持。1.1.3论文研究项目背景本文依托国家科技支撑项目“大宗物品全程电子商务技术研究

2、开发与应用示范”进行研究,作者是该项目的主要技术研发人员之一,本文所研究的舆情监测技术,是该项目的主要研究内容和关键技术之一。1.2企业舆情国内外研究现状1.2.1国内外现状ReviewSeer[2]使用统计学习方法和POS标注工具(Part—of—SpeechTagger)对文档级别的情感倾向进行了分类。在针对特定产品的意见挖掘工作中取得了非常高的准确率,但扩展到公共网络上的文档,准确率下降。OpinionObserver[3]提出了在线舆情分析和比较系统的基本架构,针对特定的电子商务交易产品,抓取消费的反馈意见。OpinionObserver使用语言模型实例

3、挖掘的方式从消费者反馈中寻找优点和缺点的匹配。[4]使用了向量空间模型(VectorSpaceModel)来描述舆情文本的统计特征,通过比较空间向量距离的方式试图对新闻流中的突发事件进行识别。[5]应用凝聚层次聚类法(HierarchicalAgglomerativeClustering,HAC)进行舆论话题识别。其基本原理是计算当前聚类集合中每两个聚类之间的相关程度,将高于一定阈值的聚类融合为新的聚类,并反复进行迭代,最终得到有层次关系的舆论话题模型。国内研究者对舆情监测系统的研究还处于初步阶段,研究主要集中在舆情监测和预警指标体系的理论建设,以及应用传统的网

4、页挖掘和信息检索方法进行聚类分类、主题检测、聚合做统计分析。·[6]利用I—space模型建模了网络舆情信息的产生根源及传播过程,建立发布者指标、舆情要素指标、舆情受众指标、舆情传播指标以及区域和谐度指标,5万方数据企业多源的舆情监测系统研究与实现第一章绪论分别量化了舆情的地理分布、来源、传播渠道以及舆情内容的性质和受众的反应。[7]研究了微博的信息传播机制,运用层次分析法和向量空间模型建立微博舆情的三维空间,并给出微博舆情监测指标体系的量化计算方法。[8]介绍了文本去重、话题模型、文本分类、情感倾向挖掘等技术在舆情监测系统中的应用,并形成了系统。但并没有解决隐

5、网页信息抽取问题[9],舆情来源覆盖面不高。使用了SVM分类算法完成文本情感倾向挖掘,体现了情感特征词的统计特征,但并不能准确体现情感的强烈程度、修饰关系等句法特征。商业化产品方面,国内开始出现了PALAS网络舆情监控系统、麦知讯第三方网络舆情监控系统等舆情监测产品。1.2.2调研结论现有的舆情监测系统研究着力于将传统信息检索和信息过滤领域内的网页信息抽取、文本分类、话题模型、文本情感倾向分析等方法应用到舆情监测系统中,取得了丰硕成果。.但舆情监测系统需要更高的舆情信息覆盖率和及时性。其中最为突出的问题包括:1.传统网页爬虫对Web2.0下站点抓取覆盖率低。由于

6、隐网页[9]问题,传统的网络爬虫只能处理静态的网页内容,对于需要浏览器动态执行JavaScript才能生成的隐网页内容,现有爬虫均是直接忽略。调研发现热点的舆情网站,如cnBeta的评论、微博、淘宝商品评论等均是通过Ajax技术无刷新加载返回的,极大降低了舆情信息的抽取准确率。2.突发事件识别能力不够。传统算法使用向量空间模型来计算文本间的相似度,进而判断新抓取到的文档是否是突发事件。但这种做法需要线性比较所有的现有舆情文档,且有较高的误判率。·3.舆情情感倾向识别准确率不高。传统的文本情感倾向识别一般基于文本分类和情感关键词的极性。但中文的表达复杂多变,句法上

7、存在偏正、并列、否定等多种修饰关系,导致识别的准确率不高。1.3研究目标与内容1.3.1研究目标与任务本文将结合背景项目需求,针对企业决策和应急事件管理涉及的舆情采集和处理技术,对关键技术进行算法和技术方案创新,开发一种能够实现“精”、“准”、万方数据企业多源的舆情监测系统研究与实现第一章绪论“全”、“智”等各项技术性能的企业舆情监测系统。其中,“精”、“准”、“全”、“智”是舆情监测系统的评测指标[10]:(1)“精”是指精简度,具体表现为能够为企业用户提供高维度的精确报表;在突发事件发生时,能够精确地定位并产生精简的通知。(2)“准”是指准确率,是过滤舆情信

8、息的准确率,新事件识别的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。