欢迎来到天天文库
浏览记录
ID:32133338
大小:2.16 MB
页数:34页
时间:2019-01-31
《关于社区的个性化微博推荐分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、万方数据第1章绪论注。用户之间的关注关系就是整个平台上消息传递的最重要的途径,用户通常情况下只能够接收到其关注用户发布或转发的博文内容。正是这种关注机制,使得用户之间产生了联系,实现了社交网络的基本功能。③评论与转发。用户可以评论其所看到的博文,同时还可以将其感兴趣的微博转发给其粉丝。这种机制不仅增强了用户之间的交流,而且通过转发微博可以加速信息的传播和推广。2013年中国网民使用过的网络服务分布维基博客播客论坛社交网络微博01020304050607080百分比(%)图1.1网络服务使用分布情况国内的微博技术
2、及相关服务的不断成熟,使得微博成为了人们日常生活中不可缺少的一种信息交流平台,图1.2中的数据反映了最近几年微博注册用户的增长情况及其数量。但是,随着微博注册用户数量的不断增加,也导致微博社交网络中积累了大量的数据,进而产生了信息过载问题。信息过载问题给数据的存储和处理带来了困难,增加了成本;但另一方面,微博大数据也是一种宝贵的资源。通过对微博大数据进行挖掘和分析,可以发现很多有价值的信息,向用户提供微博推荐服务“。。图1.2微博用户量与增长率243210万方数据第1章绪论1.1.2研究意义起初,微博社交网络服
3、务的出现只是作为一个日常信息交流平台,可实现信息分享和传播的功能。但是,随着注册用户数量的不断增加,微博逐渐成为一种带有媒体属性的社交平台。从宏观上讲,每个用户都可以将自己身边发生的公众事件、突发事件随手记录并即时发布出来,通过微博平台的快速传播起到类似于新闻媒体的作用。从微观上讲,用户可以将自己生活中发生的事情发布出来,由于自身影响力有限,信息只能够在较小的好友圈子中传播,所以形成属于一个小型用户群体的“新闻”。一些政府部门和企业更是看重微博拥有广泛的用户群体而申请官方微博作为对外发布消息的一个重要途径。随着
4、用户数量的不断增加,平台中信息量也随之增加,用户对微博相关服务的要求也越来越高。但是,现有微博平台还存在很多问题,其中最主要的问题就是信息的过载。经研究人员对118万微博用户进行统计乜:,发现用户的平均关注用户数量为470个。如此一来,一个用户会接收到数百个用户发布或转发的大量的微博,产生较为严重的信息过载现象。如此大量的微博并不都是我们所感兴趣的,甚至可能只有其中的很小一部分微博为用户所喜欢。人们往往利用很多零散的时间来浏览自己感兴趣的信息,所以快速准确的向用户推荐其感兴趣的微博是提升用户体验的关键。现有的微
5、博社交网络都是将微博按照发布时间排序,最近发布的微博总是排在前面,这种排序方法并没有考虑到用户对各条微博的兴趣。如果想让用户在比较短的时间内浏览自己比较喜欢的微博,可以将微博按照用户的兴趣度排序,将用户感兴趣的微博排在前面。这样,用户就可以在短时间内浏览排在前面的一小部分微博信息,而忽略掉那些不太感兴趣的微博信息。因此,如何计算用户对一条微搏的兴趣度,并按照兴趣度从高到低排序,甚至过滤掉那些兴趣度低于某个阈值的微博,对于提高用户的获取信息的效率及改善用户体验是非常有意义的口3。目前,微博用户获取信息的方式通常有
6、如下几种:一是通过关注用户的方式来获取其他用户发布的微博,用户通过这种方式只能够看到其关注用户公开发布的所有微博,不能根据自身兴趣偏好有选择的获取自己感兴趣的微博;二是按照一定的条件对微博进行检索,但是这种方式往往产生大量的返回结果,导致用户难以进行选择;三是由微博平台的运营商推荐与热门话题相关的微博,但是热门话题只针对所有微博用户,而并不考虑每个用户的需求。因此,现有的微博获取方式并不能够很好的实现个性化的微博推荐。微博社交网络中每天都会产生海量的微博,这便使得微博用户更加难以从中获取到自己感兴趣的微博。因此
7、,如何从如此大量的微博数据中挖掘出用户喜欢的微博并精准地推荐给目标用户,已经3万方数据第l章绪论成为微博研究的热点。1.2国内外研究现状1.2.1社区发现的研究现状2002年,Girvan及Newman共同提出的一种基于分裂式层次聚类算法的经典社区发现算法,即GN算法H3。GN算法的基本思想主要基于图分割的理论,首先计算所有节点之间连边的边介数(图中所有的最短路径中,通过该连边的数量),并删除边介数最大的边。然后重复这一过程,直到所有的连边全部都被删除,也就是说每个节点都成为一个社区。GN算法的准确度非常高,但
8、是其时间复杂度也较高,并不能很好的适应较大规模社交网络研究的需求。Kernighan—Lin算法,简称为K-L算法∞3,该算法基于最优化原理及贪婪思想,其基本思路是在进行社区划分时首先计算增益值,然后利用交换节点对的方式获取该值的最大值,从而得到社区划分的最优结果。谱聚类算法的思想是源于网络的划分问题∞3。图划分的目标就是找到一种切割方法,使得切割最少的边就能够将全部节点分割为不想交的
此文档下载收益归作者所有