欢迎来到天天文库
浏览记录
ID:46767444
大小:2.09 MB
页数:33页
时间:2019-11-27
《互联网金融企业的大数据应用案例分享-孟鑫》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、互联网金融企业的大数据应用案例分享 联动优势孟鑫 2013.9主题*概述*大数据挑战*平台现状*HBase应用*推荐系统*用户信用评分&支付交易监测概述‐背景*2013年第二季度第三方移动支付市场份额11.6%列第二位*某核心业务数据每日>1.5亿条,实际数据量每日>200GB *互联网支付交易每日>200万笔概述‐数据平台建设*关系型数据中心*基于IBM Netezza和商业BI软件构建*支持公司上百个重要业务指标计算和展现*201
2、1年上线*Hadoop 关系型数据Hadoop中心*提供海量数据挖掘,实时访问服务*为Netezza提供数据备份、ETL等支持*2012年上线,规模50+ 大数据挑战‐长期诟病数据整合存储数据处理数据访问多备份日志处理保存数据范围广数据共享成本低集中计算响应速度快智能系统高可用性多业务线数据共享支持高并发访问基于数据的运营数据在线大数据挑战‐Hadoop平台的目标*数据恢复在线状态*承担大数据的离线统计分析*提供海量数据库给非OLTP系统*为智能应用提供数据挖掘支持平台现状‐架构WEBCLIAPIREST集群监控自动化部署任务调度元数据管理HIVEMahoutSync4NoSqlFl
3、umeMapReduceHBaseZookeeperHDFS平台现状‐线上系统*系统规模50+ *8核,128G或32G内存,SATA硬盘,单台16TB,多网卡绑定*平台基于CDH3U3版本*公司内部开放HDFS、Hive、HBase *基于共享存储的NameNode HA *Flume tail文件断点续传*Hive权限控制*数据访问中间层平台现状‐测试系统*目前在测试环境进行Hadoop2.0新特性研究和开发*YARN *基于QJM的HA *Hadoop安全*HBase 0.94 *二级索引*类SQL支持*事务支持HBase应用‐发展*2012年客服系统第一个尝鲜*2013年客服
4、系统全部迁移到HBase上,通过Filter和数据访问中间层处理实现绝大部分功能特点:数据量大,写多读少,查询条件简单*商户服务系统,用户服务系统逐步迁移到HBase,部分实现ANSI SQL92标准*数据同步由非实时向准实时过渡特点:读多,查询条件复杂HBase应用‐简单查询*单张表数据>200亿,要求响应时间<1s,数据同步时间<3分钟*RowKey:手机号+日期+唯一流水*查询条件非常简单,按rowkey查询可以搞定*查询特点是近日数据访问量大,历史数据访问量小*以手机号段切分region,转移到不同regionserver负载,预先加载昨日数据*缓存命中率极低,blockca
5、che保存最近一天数据*通过pageFilter实现分页,数据中间层进行排序HBase应用‐日志查询HBase应用‐复杂查询*where条件字段较多*聚集函数count、sum、max、min、avg *需要Order By、分页、Group By等功能*支持Join *支持常见运算符:AND、OR、IN、=、>等HBase应用‐商户服务系统HBase应用‐商户服务系统HBase应用‐商户服务系统HBase应用‐商户服务系统*通过SQL解析器将SQL语句转换成HBase scan操作*通过Coprocessor执行聚合操作*在RegionServer端尽早过滤数据*自定义Filte
6、r HBase应用‐数据实时同步*Flume *同步日志文件*可靠性问题*断点续传*公司自研的关系型数据库同步工具*增加关系型数据库到HBase同步数据同步实时性需求越来越多推荐系统‐起因*年交易增长率稳定在15%左右且很难有突破*传统营销方式成本太高、效果不佳*长尾商品推荐系统‐架构展现排名推荐引擎推荐引擎推荐引擎过滤离线数据仓库风控用户信息交易信息商品信息。。。推荐系统‐默认推荐*热门榜*商品聚类、分类*TopN商品销售量*过滤:违规商品、分地区、限额等*适用于新用户,每个类别挑选一件商品进行推荐商品信息类别价格商家是否包月销售地区新商品聚类分类商品集1商品集2商品集3推荐系统‐
7、相关推荐*根据用户购买行为*适用于有过交易的用户*ItemCF:协同过滤*用户单一消费商品习惯?推荐系统‐制约因素*客户端商品信息不丰富*用户行为数据太少,无法做基于用户行为的推荐用户信用评分‐意义*发现优质用户*降低业务风险*预测用户好坏概率用户信用评分‐理论*逻辑回归求解系数,将用户特征属性值带入公式,计算概率用户信用评分‐流程数据整合数据源设定目标变量数据处理训练集验证集验证应用模型建立变量选择K-S指标法用户信用评分‐结果*某省预测结果*好用户8.
此文档下载收益归作者所有