欢迎来到天天文库
浏览记录
ID:38608622
大小:2.08 MB
页数:37页
时间:2019-06-16
《腾讯广点通的数据挖掘x》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、广点通的数据挖掘2013-07@ADCshawnxiao@tencent.com目录2产品简介问题分析解决之道系统演进在线模型特征设计两大平台产品简介3官网http://e.qq.com/产品简介Qzone空间朋友网QQPC端QQ音乐手机QzoneCPCCPM图片文字GSP广告位展现形式投放策略计费方式4目录5产品简介问题分析解决之道系统演进在线模型特征设计两大平台挑战–广告位上下文较少没有明显的意图带入没有固定的页面内容广告位众多网页客户端手机等6挑战–用户点击数据非常稀疏大部分用户,一个月内都没有点击平均1000次曝光
2、,点击1~8曝光数据偏态(以某个广告位为例)40%的用户,一天内,曝光=180%的用户,一天内,曝光<37挑战–广告素材内容对点击影响很大88X0.20%1.70%挑战–广告新广告的冷启动每天新增几十万新广告没有用户反馈信息类目不均衡9挑战–系统用户体验,<50ms数据的偏差用户误点击恶意点击等海量数据建模、预测10目录11产品简介问题分析解决之道系统演进在线模型特征设计两大平台系统演进12实时查询场景广告位少广告少线下全量预测,线上查询HADOOP,RDT:可解释,少迭代,训练&预测都很快预测结果存储量巨大8亿用户*TO
3、P100个订单*广告位=1.6T*#广告位131、RDT142、快速聚类15QQID:类ID类ID:M*N*N*AD排序全量预测快速聚类M*AD实时查询注:M<4、00个广告的实时预测计算需要查询用户,广告等多种特征800+次“树”类的算法的不足输出规则,串行计算树的层数和规模限制19Regularizedlogisticregression20融入用户行为的混合模型21M*M*N*ADpCTR排序Scoring过滤reRanking策略M*AD实时计算注:M<5、模型特征设计两大平台数据才是“大米”巧妇难为无米之炊26用户基础属性行为属性人口属性兴趣属性年龄性别地域自定义标签细分人群学历…千余种兴趣类目…百万级独立标签苹果索尼安踏宝马…上网场景定制化用户画像女装女饰品女鞋男装IT产品…新婚人群单身人群母婴人群图片feature爬取广告素材的图片计算图片的色彩特征亮度饱和度色彩度对比度尖锐度等28示例:中间图片点击率最高亮度标准差=3亮度标准差=8亮度标准差=1629哪个图片点击率最高?亮度(Brightness)-标准差,density图亮度标准差在[6,10]更倾向于点击30图像6、相似度计算方法对每个图片的gist特征512维的float&dense向量直接计算其simhash值输出ADid->img_group_id好处快不需要指定聚类中心个数SimHash值越接近的图片越相似31图像相似度-example32聚类id:1711127890547892055包含3106个这样的类似广告素材广告IDclickimpressionCTR85099898855,5600.16%850998011662,0910.19%850991216693,0990.18%对于同一人群,相似图片CTR接近目录33产品7、简介问题分析解决之道系统演进在线模型特征设计两大平台查询引擎Lhotse任务统一调度IDE集成开发计算引擎MapReduce存储引擎HDFSHADOOPTDBANK数据采集Hive核心平台之一:腾讯分布式数据仓库(TDW)基于开源hadoop和hive进行大量优化和改造单集群4400台(业界顶级规模),存储容量100PB月活跃用户(数据提取分析)2800人,覆盖7大BG88个部门关键技术HadoopMaster(NN/JT)节点实现并行扩展,支持灾难时自动热切Hive&Pig功能丰富,支持传统数据库的标准语法,提供可视化集8、成开发环境TDBank准实时数据采集,支持5分钟及时数据分析Lhotse一站式任务管理,每天支撑10万级任务调度,可平行扩展核心平台之二:实时推荐平台(APOLLO)泛平台支撑,满足腾讯各类个性化推荐需求海量数据在线处理,日推荐请求300亿,流式计算30000亿算法精准,平台高效,毫秒级响应关键技术多种
4、00个广告的实时预测计算需要查询用户,广告等多种特征800+次“树”类的算法的不足输出规则,串行计算树的层数和规模限制19Regularizedlogisticregression20融入用户行为的混合模型21M*M*N*ADpCTR排序Scoring过滤reRanking策略M*AD实时计算注:M<5、模型特征设计两大平台数据才是“大米”巧妇难为无米之炊26用户基础属性行为属性人口属性兴趣属性年龄性别地域自定义标签细分人群学历…千余种兴趣类目…百万级独立标签苹果索尼安踏宝马…上网场景定制化用户画像女装女饰品女鞋男装IT产品…新婚人群单身人群母婴人群图片feature爬取广告素材的图片计算图片的色彩特征亮度饱和度色彩度对比度尖锐度等28示例:中间图片点击率最高亮度标准差=3亮度标准差=8亮度标准差=1629哪个图片点击率最高?亮度(Brightness)-标准差,density图亮度标准差在[6,10]更倾向于点击30图像6、相似度计算方法对每个图片的gist特征512维的float&dense向量直接计算其simhash值输出ADid->img_group_id好处快不需要指定聚类中心个数SimHash值越接近的图片越相似31图像相似度-example32聚类id:1711127890547892055包含3106个这样的类似广告素材广告IDclickimpressionCTR85099898855,5600.16%850998011662,0910.19%850991216693,0990.18%对于同一人群,相似图片CTR接近目录33产品7、简介问题分析解决之道系统演进在线模型特征设计两大平台查询引擎Lhotse任务统一调度IDE集成开发计算引擎MapReduce存储引擎HDFSHADOOPTDBANK数据采集Hive核心平台之一:腾讯分布式数据仓库(TDW)基于开源hadoop和hive进行大量优化和改造单集群4400台(业界顶级规模),存储容量100PB月活跃用户(数据提取分析)2800人,覆盖7大BG88个部门关键技术HadoopMaster(NN/JT)节点实现并行扩展,支持灾难时自动热切Hive&Pig功能丰富,支持传统数据库的标准语法,提供可视化集8、成开发环境TDBank准实时数据采集,支持5分钟及时数据分析Lhotse一站式任务管理,每天支撑10万级任务调度,可平行扩展核心平台之二:实时推荐平台(APOLLO)泛平台支撑,满足腾讯各类个性化推荐需求海量数据在线处理,日推荐请求300亿,流式计算30000亿算法精准,平台高效,毫秒级响应关键技术多种
5、模型特征设计两大平台数据才是“大米”巧妇难为无米之炊26用户基础属性行为属性人口属性兴趣属性年龄性别地域自定义标签细分人群学历…千余种兴趣类目…百万级独立标签苹果索尼安踏宝马…上网场景定制化用户画像女装女饰品女鞋男装IT产品…新婚人群单身人群母婴人群图片feature爬取广告素材的图片计算图片的色彩特征亮度饱和度色彩度对比度尖锐度等28示例:中间图片点击率最高亮度标准差=3亮度标准差=8亮度标准差=1629哪个图片点击率最高?亮度(Brightness)-标准差,density图亮度标准差在[6,10]更倾向于点击30图像
6、相似度计算方法对每个图片的gist特征512维的float&dense向量直接计算其simhash值输出ADid->img_group_id好处快不需要指定聚类中心个数SimHash值越接近的图片越相似31图像相似度-example32聚类id:1711127890547892055包含3106个这样的类似广告素材广告IDclickimpressionCTR85099898855,5600.16%850998011662,0910.19%850991216693,0990.18%对于同一人群,相似图片CTR接近目录33产品
7、简介问题分析解决之道系统演进在线模型特征设计两大平台查询引擎Lhotse任务统一调度IDE集成开发计算引擎MapReduce存储引擎HDFSHADOOPTDBANK数据采集Hive核心平台之一:腾讯分布式数据仓库(TDW)基于开源hadoop和hive进行大量优化和改造单集群4400台(业界顶级规模),存储容量100PB月活跃用户(数据提取分析)2800人,覆盖7大BG88个部门关键技术HadoopMaster(NN/JT)节点实现并行扩展,支持灾难时自动热切Hive&Pig功能丰富,支持传统数据库的标准语法,提供可视化集
8、成开发环境TDBank准实时数据采集,支持5分钟及时数据分析Lhotse一站式任务管理,每天支撑10万级任务调度,可平行扩展核心平台之二:实时推荐平台(APOLLO)泛平台支撑,满足腾讯各类个性化推荐需求海量数据在线处理,日推荐请求300亿,流式计算30000亿算法精准,平台高效,毫秒级响应关键技术多种
此文档下载收益归作者所有