资源描述:
《2017全球互联网技术大会 互联网金融 Fintech场景下大数据处理的挑战与实践》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、Fintech场景下大数据处理的挑战与实践徐佳晶@人人贷互联网信贷事业群GITCNov.20172!AGENDA01我看互金这6年02风控:传统金融VSFintech03技术团队面临的挑战•业务/获客方式的转变•人VS机器•数据量•用户数、交易数的激增•评分卡VS模型•计算复杂度•风控思维的转变•从业人员skillset•服务可靠性04经验&实践05再过三五年……•由一起线上事故说起•行业•Kafka•政策•HBase•团队•其它•技术3!业务/获客方式的转变"#$线下网点,业务人员地推电销互联网方式插卡、陌拜、线下活动……电话外呼渠道、合作、流量交换•开设线下门店,配
2、置业务人员•客户名单获取•更偏向互联网获客模式,导流、引流、精准客户营销、投放•增加门店、提高人均产能•扩大规模、提高名单质量、提升电销人员效率、优化外呼策略•提高转化率、合作渠道数量与质量•核心业务系统•CRM•中间件、系统群、云、大数据环境……4!用户数、交易数的激增201220132014201520162017Q3%第一单!第一千单!第一万单!&10亿!50亿!100亿!…… 新增50万用户/月,10亿/月5!风控思维的转变“本人”、“真实意愿”、“借款用途”、“还款意愿”、还款能力”人工审核每一个客户01部分应用外部数据电核、面审、实地,以确认用户填02写的信
3、息的真实性为主要依据人工搜索开放数据结合联系人交叉验证一些行业内部黑名单,精准命中对接专业三方数据03自动化数据验真主要用于信息验真04面部识别、身份证比对、活体检测三方数据公司的崛起大量外围数据交叉验证自动化审核05将三方数据引入模型直拒、直批+人工审核“团伙识别”全自动化审核06关系图谱6!风控:传统金融VSFintech" '人VS机器评分卡VS模型从业人员skillset•50件/人/天VS5000件/小时,全年无•feature有限,调整权重,谨慎VS大量数•行业经验VS数据分析、挖掘能力休据维度&调整极快且“浪”•银行(信用卡、抵押贷)、小贷、保险•培训、初
4、审、终定、质检……VS只要没•半年一次迭代VS一周多次迭代&AB相关从业经验VS机器学习、神经网络、bug、机器够TestAI•套用规律、借鉴规律VS发现规律、验证•金融、统计相关专业VSCS规律、学习规律•SAS、SQL、ExcelVSPython、MR、模型稳定、固化,模型不可识别的都为Hive、Spark、R异常VS识别与模型的差异并进行非监督学习,发现新的模型7!技术团队面临的挑战几百张表*几十列;百万行;二维,范式建模(数据量几十张表*几千列;千万行起;稀疏、维度建模+5TB/月(压缩后,40%)“在10000用户间建立单向关系网络”“在100万用户间建立双向
5、关系图谱”计算复杂度)“从短信中筛选特定关键字。样本不多,大概2000多万”“目前系统压力大,通知前线,压一下进件量”服务可靠性“系统需要加硬盘,周末停机维护”24*365,SLA8!系统架构演进“ABC”+ “传统”互联网阶段大数据阶段AI阶段关系型数据库*Hadoop生态集群*混合云/公有云DAS、SAN、NASNoSQLGPU,混合体系架构中间件私有云系统集群,HA、LB9!“金融”互联网VS“互联网”金融○* RESTAPI MRHiveSparkRedisKafkaStream .MongodbKafka,&HBasehHDFS