【移动互联网必读】手机上的大数据(三):手机上的阅读

【移动互联网必读】手机上的大数据(三):手机上的阅读

ID:37665056

大小:446.00 KB

页数:8页

时间:2019-05-28

【移动互联网必读】手机上的大数据(三):手机上的阅读_第1页
【移动互联网必读】手机上的大数据(三):手机上的阅读_第2页
【移动互联网必读】手机上的大数据(三):手机上的阅读_第3页
【移动互联网必读】手机上的大数据(三):手机上的阅读_第4页
【移动互联网必读】手机上的大数据(三):手机上的阅读_第5页
资源描述:

《【移动互联网必读】手机上的大数据(三):手机上的阅读》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、【编者按】本文由百分点信息无线业务部高级总监李晓东、TalkingDataCOO徐懿以及成都电子科大的龚亮联合撰写。  在移动互联网所覆盖的日常生活中,用户随时随地都在产生数据,数据的产生以及获取在现在的移动互联网上已经不是什么难以攻破的难题。需要我们面对的是从海量数据的分析中得到我们所需要的真正信息。  手机大数据的组织与应用  手机上的大数据对于移动互联网业务早期无疑具有非常大的指导意义,但并不是所有的手机上产生的大数据都会那么有意义。比如说社会媒体—微博,每天也会产生大量的数据,但多数都是没有意义的。  

2、手机大数据的组织与应用  手机上产生的大数据需要重新组织方能揭示出有意义的信息。  在现今的时代,大数据本身不是问题,你从各个渠道都可能获得海量的数据;我们每个人每天都要生产很大量的数据,关键的问题是如何处理、分析这些数据。数据不处理、不分析,就像Mary举的例子一样,就是一堆稻草,毫无价值。一些事  稻草堆里寻针  数据处理、分析就是要从一大垛稻草堆里面挑出一根针。  这句话有两层含义:  无论我们从何种渠道,通过何种方式获得的数据,大量的数据是没有意义的,这其中只有少量的数据是有效地,可以从中得出一些有规律

3、、有价值的信息的,原始数据需要清洗、整理;(这一点对于移动互联网更为明显,一般来说,几乎80%-90%的移动应用数据都是毫无价值的,只有不到10%-20%左右的数据才包含后续分析所需要的信息)i  我们需要通过后续的数据挖掘的工作,从杂乱无章的稻草堆里找出遗落在层层表象下面的一根针,而非一根稻草!这显然,不是简单通过统计就可以得出的;是比统计分析更为复杂的算法,去从简单关联过度复杂逻辑的层面。  从上一章中,我们知道手机上的大数据的来源多种多样,不同的移动互联入口、不同的应用都会导致不同数据的产生,而这些不同的

4、数据又支撑不同的业务,并且不同的业务之间还可能存在一些交叉应用。所以针对这些特点,下面我们根据这些特点来对大数据的组织做一个简单介绍,手机大数据的组织方式可以采用如下图的结构。  手机大数据的组织方式  从上面的结构可以看出,手机大数据的组织主要分为以下三个部分:原始数据存储层,计算层和业务数据存储层  原始数据存储层  主要存储不同入口产生的数据,而不同入口不同数据域也分开并存此时各个数据集是彼此独立,数据集之间没有任何联系方式。这样做的好处就是能最大限度的保证原始数据的完善性,正确性。  计算层互联网的一些

5、事  该层的主要任务是对原始数据存储层存取的数据进行挖掘处理,并将挖掘结果按照不同业务进行分类。挖掘处理的大致分为以下两点:①对不同数据域进行内部分析,挖掘。②对不同数据域之间进行关联分析挖掘。结果分类主要是将挖掘出的结果进行分类,比如音乐、餐饮、广告等应用。i  业务数据存储层一些事  业务数据存储层主要是对计算层产出的数据进行分开存储,以为上层应用提供更明确的数据接口。  当我们对数据进行有效地存储管理后,我们就可以利用这些大数据进行一些有意义的工作,尤其是对于移动互联网业务早期无疑具有非常大的指导意义,下

6、面我们以手机阅读为例,对手机上的大数据如何应用做一个说明。  手机上的阅读  手机阅读作为移动互联网目前为数不多还算有一定共性和沉淀应用之一,是我们早期手机应用研究的对象。所谓“共性”和“沉淀”,就是针对手机应用“碎片化”而言。手机阅读虽然也有大量的碎片时间,但已经逐渐形成了一早一晚宝贵的“床上”连片时间,有相对比较完整时间片上呈现的行为习惯,有相对比较完整的用户在移动互联网上体现出来的偏好信息。  尽管很多报告都显示,用户在互联网与移动互联网上的表征有着巨大的差异,但我依然相信,人们在面对一段文字,一个图片上

7、的喜好、感觉是不会变的。因为人性是不会轻易改变的。互联网和移动互联网的用户行为之所以不同,那是因为应用本身使用场景的不同,解决问题的不同所导致的。并不是一个人在互联网上是一个性格,而到了移动互联网上就是另外一个人生了。互联网的一些事  这是我们研究手机阅读上大数据的初衷。  下面,我们以一个曾经做过的手机阅读项目为例,主要从发现问题、解决问题、结果验证三个方面来为大家展开。  发现问题  通过对手机阅读数据的挖掘分析,我们发现了如下几个问题:  (1)城市与城市之间的阅读行为相似  我们统计过杭州、广州、深圳在

8、某一时间段内用户的阅读数据,得到了这三个城市这三个月热门前二十的数据。  下表统计的是杭州与广州深圳这两个城市在该时间段内的热门阅读图书重合数数。  从表中,我们可以猜测,杭州与深圳、广州这两个城市之间确实存在着一定程度上的阅读相似性。  计算公式为:Sim(A,B)=Same(A,B)*2/[Count(A)+Count(B)]  Sim(A,B)表示的是城市A,B的阅读相似性。Sa

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。