欢迎来到天天文库
浏览记录
ID:23382766
大小:61.62 KB
页数:5页
时间:2018-11-07
《基于数据挖掘的舆情观点挖掘研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于数据挖掘的舆情观点挖掘研究本文对网络舆情技术开展了研究和探索,设计了一个网络舆情观点挖掘系统,为进一步的网络舆情分析、监控建立了基础,本系统能够较好的实现网络舆情观点的挖掘和情感分析,具有较好的实用价值。【关键词】网络舆情观点挖掘特征情感根据中国互联网网络信息中心(CNNIC)第35次《中国互联网络发展状况统计报告》显示,截至2014年12月,我国网民规模达6.49亿,互联网普及率为47.9%。作为人才汇聚、信息速递的高校,大学生每日的互联网接触率早己达到98%,日均接触互联网3小时,可见,网络己经成为大学
2、生获取信息的重要渠道,是在校学生表达、交流、整合各种观点的重要阵地。但是,由于网络是一个开放的环境,具有匿名、分散、难控的特点,往往一件小事通过网络的酝酿,最终形成校园舆论甚至全国舆论。而且,舆论一旦发生,往往会超出事件本身的范围,扩展到政治、经济等方面,通过评论、分享等借题发挥,抨击其它问题,对高校的正常工作带来巨大的影响。可见,对互联网上的相关内容进行观点挖掘具有深远的意义和应用价值,可以帮助我们及时发现问题,提前进行疏导。1舆情观点挖掘观点挖掘是数据挖掘和自然语言处理等领域的一门综合性交叉学科,近年来受到
3、市场的关注,观点挖掘技术具有广阔的应用空间。但是在人类的自然语言中,观点的表达往往是非常微妙和复杂的,很难用标准文本分类方法来解决这个问题。观点挖掘中最为关键的一步是文本倾向性分类研宄,根据文本的情感态度不同,将文本分为若干类别,例如积极肯定类、反面否定类、中立类。舆情观点挖掘是在观点挖掘基础上的新应用,区别在于在挖掘舆情的时候,舆情的观点还是未知的,根据这一特点,本文将提出一种舆情观点挖掘的完整方法。2舆情观点挖掘过程舆情观点挖掘过程的框架如图1所示。由于篇幅限制本文的挖掘过程跳过了爬虫自动搜集、数据预处理环
4、节,热点文档库中存放的是从数据库中提取的热点事件的文档集,下面针对每个步骤详细说明。步骤1:从相关热点文档库的文档中,提取所有关键词,形成关键词列表。中文不同于英文,词语之间没有空格,所以在进行提取之前需要进行中文分词,通过比较目前流行的中文分词工具,最终选择了NLPIR汉语分词系统,系统采用层叠隐马模型,分词准确率接近98.23%,具备准确率高、速度快、可适应性强等优势。分词后的文档再进行词频统计,对前若干个关键词进行筛选,就得到了关键词列表。步骤2:在热点文档库的句子中搜索包含关键词的句子,形成关键句集合。
5、步骤3:从关键句中提取出特征词,将关键句用特征向量表示。从关键句中挑选出名词或动名词作为特征词,关键句中包含特征词则特征值为1,否则特征值为0,最终每个关键句就转变成为一个特征向量,每个特征词就是特征向量的一维。步骤4:对关键句集进行特征聚类,最终选择聚类中包含关键句最多的M个聚类。得到每个关键句的特征向量后,使用余弦相似度公式(公式1)计算任意两个关键句特征向量的相似度,最后使用K-means进行聚类。(公式1)步骤5:对聚类中的每个句子提取特征词和情感词,最终得到舆情观点以及对该观点的评价(正面或负面)。提
6、取聚类中的特征词(名词)和情感词(形容词),根据情感词字典(图2)对每个关键句进行情感计正面情感词语+1,负面情感词语-1,最终计算出关键句所表达的针对某一观点(特征词)的情感倾向。3结论通过验证算法能够较好的挖掘出舆论观点,也能够比较准确的衡量舆论对观点的情感态度。在实际测试中,算法仍存在一些不足,例如对于中文中的设问句,讽刺,比喻或是含蓄的表达,识别存在很大困难,对于特定领域的术语或是新词,识别的精度还需进一步提高。网络舆情观点挖掘技术在信息科学领域有广阔的发展前景,如何能够更加有效的,准确的进行网络舆情发
7、现和观点挖掘,使之在舆情监控系统中取得更好的效果是今后研究的重点。参考文献[1]陈艺卓.网络舆论意见领袖发现方法研究[」].消费电子,2014(07):253.[2]王辉,王晖昱,左万利.观点挖掘综述[」].计算机应用研宄,2009(01).[3]吉祥.基于观点挖掘的网络舆情信息分析[」].现代情报,2010(11).[4]董坚峰.基于Web挖掘的突发事件网络舆情预警研宄[」].现代情报,2014(02).作者简介陈艺卓(1983-),男。硕士学位学位。现为海南软件职业技术学院讲师。主要研究方向为数据挖掘。作者
8、单位海南软件职业技术学院海南省琼海市571400
此文档下载收益归作者所有