欢迎来到天天文库
浏览记录
ID:28658206
大小:1.24 MB
页数:13页
时间:2018-12-12
《大数据时代,实时数据分析才是真理》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、范文范例指导参考大数据时代,实时数据分析才是真理编辑整理/智库2861概述:随着大数据时代的来临,如何帮助用户从大量信息中迅速获得对自己有用的信息成为众多商家的重要任务,个性化推荐系统应运而生。个性化推荐系统以海量数据挖掘为基础,引导用户发现自己的信息需求,现已广泛应用于很多领域。传统的个性化推荐系统,采用定期对数据进行分析的做法来更新模型。由于是定期更新,推荐模型无法保持实时性,对用户当前的行为推荐结果可能不会非word版整理范文范例指导参考常精准。实时个性化推荐实时分析用户产生的数据,可以更准确地为用
2、户进行推荐,同时根据实时的推荐结果进行反馈,更好地改进推荐模型。1. 大数据实时计算平台大数据实时计算平台TRC[1]由实时数据接入TDBank、实时数据处理TDProcess、和分布式K-V存储TDEngine等部分组成,其中TDBank主要负责从业务侧接入实时数据,如用户行为数据、物品信息数据等;TDProcess基于Storm对实时流入的数据进行计算,并利用TDEngine存储计算结果,以供推荐引擎等使用。TRC的主要框架如上图所示,有关TRC的文章已经有很多,这里不作详述,有兴趣的读者可以参考文章
3、[1]获得详细描述。word版整理范文范例指导参考2.推荐算法实时化基于Storm的实时计算能够针对海量流式数据进行有效的统计处理,然而流式计算在机器学习算法方面有着天然的劣势,而要完成大数据实时推荐,只是实时统计显然是不够的,我们希望能实现推荐算法的实时化更新计算。流式实时计算在机器学习方面的局限性主要表现在两方面:首先,由于数据是以流的形式进入Storm平台计算,在任何时刻,我们都只有目前流入的数据,而没有传统的全局数据概念,而在全局数据上进行迭代计算正是许多机器学习算法需要的;其次,Storm平台是
4、计算数据易失的,在海量数据背景下,如何保证模型的有效存储及更新维护成为一个挑战。对于上述第二点不足,我们使用了TDE作为解决方案,TDE作为一个高容错、高可用性的分布式K-V存储,很好的满足了我们对计算数据的存储需求。而对于第一点不足,我们通过精细的设计,将原始的离线计算转化为增量计算,并实现了几类经典算法:CF算法:协同过滤算法,根据当前时间用户对物品的行为,实时更新物品间的共现数据和用户的兴趣分布数据,以计算物品间和用户间的相似度,进行基于物品或用户的协同推荐。word版整理范文范例指导参考CB算法:
5、通过分析用户的实时行为数据,更新计算用户和不同物品间的内容相似度,以对用户进行推荐。Hot算法:通过接收所有用户的实时行为数据,实时更新物品的热度,分析得到当前的热点物品,如实时热点新闻等,以对用户进行实时的推荐。MF算法:协同过滤矩阵分解算法,根据用户对物品的行为评分矩阵,将矩阵分解为用户和物品的特征向量,以预测用户对物品的喜好,来进行推荐。实现框架下图为基于Storm实现的框架图,系统可以分为五层,数据接入层,数据预处理层,算法处理层,商品信息补充层,和存储层。数据接入层负责接收数据,预处理层负责根据
6、历史数据对数据进行补全或者过滤等。算法处理层,是系统的主体部分,负责对数据进行分析处理,实现相关推荐算法的计算,将算法结果传入下一层。商品信息补充层负责对算法结果进行商品信息补全,这里补全是为了后续与离线模型结合或向用户推荐时,进一步对推荐结果做筛选的。最后一层是存储层,负责将结果存入存储部分,以供使用。word版整理范文范例指导参考数据接入层数据接入层负责接入数据,并且做简单的检查,对应TdbankSpout。通用推荐平台接收的数据共有五类,包括类别数据,行为权重数据,商品属性,用户属性,以及用户行为数
7、据。类别数据:是各个商品的类别的描述和等级,用于基础数据统计行为权重数据:各个行为的权重,用于基础数据统计word版整理范文范例指导参考商品属性:各个商品的基本属性,基础数据统计用户属性:用户的基本属性,基础数据统计用户行为数据:记录了用户的行为,是系统主要要分析的数据。数据预处理层包括两个部分,一个是基础信息构建,对应的bolt是BaseInfoBolt,一个是对用户行为数据进行预处理,对应的是PretreatmentBolt。基础信息构建接受类别、行为权重、商品属性和用户属性四种数据,并存入相应的ta
8、ble。预处理bolt接受用户行为数据,根据用户群信息和历史数据对用户行为记录进行补全或者过滤等。算法处理层算法处理层是系统的主体部分,又可以分为数据统计部分和算法计算部分。数据统计部分包括用户详细信息统计,最近访问商品统计,人群行为数据统计,人群商品共现数据统计,场景Ctr统计等。算法计算部分实现了CF,MF,Hot,CB等算法。这里对算法进行描述。word版整理范文范例指导参考商品信息补全层商品信息补充层负责对算法结果进行
此文档下载收益归作者所有