欢迎来到天天文库
浏览记录
ID:34017093
大小:3.35 MB
页数:50页
时间:2019-03-03
《基于hadoop的微博热点话题情感分类系统的分析与研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、暨南大学硕士学位论文5.4系统功能测试.........................................................................................................................415.5本章小结..............................................................................................................
2、...................45第六章总结与展望.............................................................466.1论文总结.................................................................................................................................466.2研究展望......................
3、...........................................................................................................47参考文献......................................................................48在学校期间发表论文清单........................................................52致谢...
4、.......................................................................53IV万方数据暨南大学硕士学位论文第一章绪论1.1研究背景及意义1.1.1研究背景在过去的十几年里,互联网中的数据一直呈现指数式增长,能够从海量数据中自动挖掘有用信息的能力已经受到普遍关注。目前,新浪微博每天累计发帖量高达8000万条,Twitter每天发布超过2亿条消息。淘宝每天产生的数据量高达7TB,这些数据主要由消费者和商家产生,也有物流公司及其他信息;百度公司每天
5、需要处理的网页数据达到10PB~100PB,总数据量已经超过1000PB;据世界权威IT信息咨询分析公司IDC研究预测:全世界数据量未来10年将从2009年的0.8ZB增长到2020年的35ZB(1ZB=1000EB=1000000PB),10年时间将增长44倍,年均增长40%[1]。但目前的信息系统和技术处理能力对于动辄数百TB甚至数十至数百PB规模的数据量显然是力不从心的。因此,寻求有效的大数据处理技术已经成为现实世界的迫切需求。图1-1微博月活量和日活量情况与此同时,随着Internet的迅速发展,社交网络
6、(SocialNetworkService,下文中简称SNS)逐渐成为一种快速便捷的信息分享和交互平台,现行网络中较为成熟1万方数据暨南大学硕士学位论文和流行的有国外的Facebook,twitter,Flickr[2]等,国内的新浪微博、腾讯微博、人人网、豆瓣等应用或网站。其中,微博由于用户量巨大,包含大量有价值的信息,已经成为一个典型的大数据资源库。图1-1显示了新浪微博从2013年到2015年的月活量和日活量情况[3],该图来自新浪微博2015年公布的财务报告。不难看出,2013年第四季度月活跃用户量为12
7、9万,同时日活跃用户量为61.4万;而到了2015年第二季度,上述两个数据分别变成了212万和93万。如此庞大的活跃用户势必产生超大规模的微博数据量,于是,对微博中热点话题的评论信息总体情感倾向进行分析是一个很有意义的研究课题。所谓文本情感分析(也被称作“意见挖掘”),是指利用自然语言处理、计算语言学和文本挖掘等方法来识别和提取原始文本表达的主观信息[4]。一般而言,分析的目的是为了确定讲话者或文本作者对于某个话题在情感上的态度。这种态度,或许是基于他对某项事物的个人判断或评价,或许是基于他在发表时的情绪状态,也
8、或许是表达的一种情感交流的意图。然而对于微博文本来说,由于数据量巨大,现有传统的分析技术难以有效完成大规模数据的处理,且微博文本不同于普通中文文本,通常具有用词不规范、隐喻更深刻等特点,往往需要结合上下文进行语义分析。尤其是在新浪微博中,又引入了表情、图片、视频、音乐、签到、点评等元素,且最近又取消了微博140字长度限制,在很大程度上加深了情感分类课题的研究难度。在众多大
此文档下载收益归作者所有