金准人工智能 腾讯QQ大数据:Quciksilver快数据处理系统研究报告.doc

金准人工智能 腾讯QQ大数据:Quciksilver快数据处理系统研究报告.doc

ID:62024421

大小:1.11 MB

页数:11页

时间:2021-04-14

金准人工智能 腾讯QQ大数据:Quciksilver快数据处理系统研究报告.doc_第1页
金准人工智能 腾讯QQ大数据:Quciksilver快数据处理系统研究报告.doc_第2页
金准人工智能 腾讯QQ大数据:Quciksilver快数据处理系统研究报告.doc_第3页
金准人工智能 腾讯QQ大数据:Quciksilver快数据处理系统研究报告.doc_第4页
金准人工智能 腾讯QQ大数据:Quciksilver快数据处理系统研究报告.doc_第5页
资源描述:

《金准人工智能 腾讯QQ大数据:Quciksilver快数据处理系统研究报告.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、高考高考前言Quicksilver为金准人工智能专家推出的一款推荐场景下数据快速处理系统,旨在解决数据如何在分钟级、秒级更新并对接线上。随着金准人工智能专家推荐业务场景的不断深入,传统的离线训练+线上计算的模式可以说是推荐系统1代框架,已经不能完全满足部分业务场景的需求,如短视频、文本等快消费场景。金准人工智能专家将在本文中介绍传统模式以及其在不断变化的场景需求中的不足点。一、传统模式简单介绍传统模式下,整个推荐流程粗略可分为,数据上报、样本及特征构造,离线训练评测,线上实时计算,abtest等。优点:系统架构简单,普适性较强,能满足大多数业务场景。缺点:数据及时性不够,模型实时性不强。下面

2、举一个简单例子,来说明这样的问题: 小明同学在微视上看了一个视频,那么在推荐场景下,可能会遇到以上四类需求,并且每种需求对于数据的实时性要求并不一样。从推荐系统功能来看,可以概括为已阅实时过滤、用户行为实时反馈、物品池子更新等。所以如果要满足业务需求,从代码层面来看,这样的需求并不复杂,但是从架构层面或者可扩展性来说,金准人工智能专家作为一个面向不同业务的通用推荐平台,就需要提供一个能满足大多数业务,对于快速据消费的通用平台。针对不同业务、不同场景需求,金准人工智能专家希望构建一个快数据处理系统,旨在满足更多业务场景的快速据消费场景。二、快数据处理系统调研设计高考2.1需求调研任何系统的搭建

3、及开发离不开特定的业务场景需求调查,金准人工智能专家根据多年业务经验,收集归纳了相关快数据处理的相关需求,具体如下:我们深入调研、讨论,结合业界实践以及金准人工智能专家的实际情况,总结为两类系统需求:(1) 近线系统。满足业务对于物品、特征、及其他数据类服务的准实时更新。(2) 在线学习。满足业务对于模型的准实时迭代更新。基于以上调研,金准人工智能专家推出Quicksilver(快数据计算)系统,解决推荐场景下快数据计算及更新问题。2.2系统设计Quicksilver系统是一个集近线及在线学习能力为一体的通用架构系统,我们设计之初,从收、算、存、用四个维度来进行设计,如下:高考 (1) 收:

4、数据的收集。目前主要支持基于DC、TDBank数据通道上报。(2) 算:计算层。针对不同的数据类型,定义不同的计算模块。不同的计算模块,采样不同的技术方案来实现。例如对于物品池子此类分钟级更新要求的数据,我们采用sparkstreaming,而对于用户行为实时反馈等类数据,我们采用spp实时处理类服务器框架。设计中屏蔽掉用户对于底层实现的细节。(3) 存:存储层。针对不同的数据规模及访问频率,金准人工智能专家采用不同的存储介质来满足数据存储的要求及对线上服务延迟的要求。例如对于物品类特征、池子类数据,金准人工智能专家采用自研的SSM系统,而对于用户类特征,数据量较大、存储访问实时性要求也较高

5、,我们选型为公司的grocery存储组件。(4) 用:使用对接层。通过Quicksilver计算得到的数据,我们均通过金准人工智能专家产品化来配置管理,降低对于数据使用的门槛,最终可以通过配置,直接与线上的召回、精排、重排、规则等计算单元进行打通使用。三、Quicksilver架构实现高考 以上为Quicksilver整体架构实现图,主要分为近线系统及在线学习系统。下面详细介绍。3.1近线系统近线系统主要为了满足以下几类细分需求:实时召回:Quicksilver处理物料,经过各通道后到线上(要求秒级,实际分钟级)实时因子:Quicksilver统计计算,经过各通道后到线上(分钟级)实时特征:

6、统计型(物料、行为、场景):Quicksilver计算,经过各通道后到线上(分钟级)实时特征(用户):实时特征构造引擎构造,构造后直接对接线上(秒级)于是,在选型上,我们针对不同的数据计算模式,选择不同的计算平台,对于统计类型数据,我们选择sparkstreaming来作为我们的计算平台,对于实时性要求较高的数据,如实时反馈类,我们采用spp来进行平台型封装。3.1.1数据批处理高考 (1) 数据批处理是基于sparkstreaming实现,如上,有几点说明:对于使用者来说,采用api接口封装,下层通信等均透明化处理。用户只需在处理不同的数据时,选择不同的接口即可,如物品池子接口,特征接口等

7、。使用PB协议进行下层数据通信。(2) 底层数据生成后,使用kafka进行缓存。(3) 数据线上使用时,统一在金准人工智能专家产品化上进行配置管理,降低运维成本。3.1.2数据实时处理高考 数据实时处理是基于sppserver实现,如上,有几点说明:(1) 对于用户来说,希望一次转发,多次使用。Quicksilver通过接入层interface来实现,业务只需要转发到统一的对外L5,即可实现数据一次转发,多次

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。