基于hadoop的微博用户及微博影响力排名研究

基于hadoop的微博用户及微博影响力排名研究

ID:24627330

大小:52.00 KB

页数:6页

时间:2018-11-15

基于hadoop的微博用户及微博影响力排名研究_第1页
基于hadoop的微博用户及微博影响力排名研究_第2页
基于hadoop的微博用户及微博影响力排名研究_第3页
基于hadoop的微博用户及微博影响力排名研究_第4页
基于hadoop的微博用户及微博影响力排名研究_第5页
资源描述:

《基于hadoop的微博用户及微博影响力排名研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于Hadoop的微博用户及微博影响力排名研究第一章绪论1.1研究背景及意义大数据(BigData)是在当今互联网飞速发展时代应运而生的新现象。它伴随着社交网络、物联网、云计算等数量庞大、种类繁多的应用而兴起。麦肯锡将大数据定义为:无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。大数据有4个主要特征[1]:数据量大、数据类别多样、数据价值密度低、数据处理速度快。当前用于大数据分析的工具有:Hadoop、HPCC(HighPerformanceputingandmunications,高

2、性能计算与通信的缩写)、Storm、ApacheDrill、RapidMiner、PentahoBI。其中,Hadoop凭借其高可靠性、高扩展性、高效性及高容错性等优点备受用户青睐,并且得到了广泛的应用,成为了一款主流的大数据处理工具。数据挖掘(DataMining),比较公认的定义是由U.M.Fayyad等人提出的:数据挖掘就是从大量的、有噪声的、不完全的、模糊的、随机的数据集中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程,提取的知识表示为概念(Concepts)、模式(Patter

3、ns)、规则(Rules)、规律(Regularities)等形式[2]。简单来说,数据挖掘是大数据处理的一项关键技术。它是结合统计数据和机器学习、使用数据库管理技术从大型数据集中提取有用信息和知识的技术。数据挖掘应用的领域是非常广泛的,包括市场分析,商务管理,工程设计和生产控制等。它主要使用的方法有:分类、估计、预测、相关性分组或关联规则、聚类、浮在数据类型挖掘,也正是这种科学的统计与假设,为商业提供了高可靠性的科学决策。特别是在大数据井喷的时代,使用数据挖掘技术来研究用户特征,为用户量身打造营销方案更是意义重

4、大。利用数据挖掘成功营销的案例有很多,如著名的啤酒与尿布[3],亚马逊、淘宝等电商的浏览推荐,各类音乐播放软件的同类推荐等。数据挖掘是当下互联信息时代的一块兵家必争之地,是众多企业的香饽饽。研究数据挖掘技术有着非常广阔的前景与应用价值。.....1.2微博影响力国内外研究现状影响力研究是大数据时代的一个热点课题,通过它的统计分析可以给用户提供一个直观的数据。如搜索引擎谷歌、百度等对tibaa,MartinMay等人[5]在PageRank的基础上提出了应用于社交网络用户影响力评价的PeopleRank评估模型。该

5、模型能够根据用户的好友数量及质量,对个人在社交网络上的影响力进行评估。JianshuapReduce:Hadoop中一个用于进行大数据集处理的分布式计算框架。Hadoop的分布式文件系统HDFS(HadoopDistributedFileSystem)是Hadoop主要的存储系统。对用户来看,HDFS与其他的文件系统没有很大区别:可以创建文件、移动文件、删除文件、重命名文件。一个HDFS集群主要由Namenode和Datanode组成。Namenode主要用于管理存储数据的元数据,只能有一个;而Datanode可

6、以有多个,用于数据直接存储。......2.2PageRank算法PageRank算法[16-18]是当今全球最大互联网搜索引擎公司Google崛起的核心算法。Google公司通过PageRank算法解决了搜索引擎重要性排序的这一问题,以着超强的核心竞争力,奠定了现在搜索引擎界不可撼动的地位。下面简单阐述一下搜索引擎的机制。搜索引擎是用于在互联网领域搜索出和搜索内容相关的内容(以网页形式呈现)。很显然这就凸显了搜索引擎的两大核心问题:1、要有足够大的资料库供搜索匹配;2、要有能通过搜索关键词实现高匹配度查找的数据

7、结构。上面提到的第一个问题可以通过爬虫(Spider)技术[19]实现,并得到较好的应用。第二个问题是通过倒排索引(InvertedIndex)的数据结构[20]实现,主要是通过关键字分析匹配进行查找。但是,随着互联网信息量的指数增长(apReduce程序处理;从HDFS中将计算得到的排名数据导出至数据库,并实现客户端的排名展示。数据搜集模块主要实现的功能是对新浪微博相关信息的数据爬取。对于微博用户影响力排名,需要获取的数据有:用户ID、粉丝的用户ID、关注的用户ID及微博是否个人认证。对于微博影响力排名,它是基

8、于用户影响力排名的基础上进行计算的,除了需要获取的上面提及的数据,还要获取的数据有:所发布微博的ID、微博的转发数、微博的评论数和微博的点赞数。新浪微博的数据获取方法主要有两种[35-38]:基于API的数据获取和基于网络爬虫的页面解析。基于API的数据获取方法虽然能够较高效便捷地实现微博数据的抓取与解析,但是微博服务商并不会无条件的将完整API开放给普通用户,故此方法能

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。