【9A文】量化派基于Hadoop、Spark、Storm的大数据风控架构

【9A文】量化派基于Hadoop、Spark、Storm的大数据风控架构

ID:47073094

大小:153.74 KB

页数:6页

时间:2019-07-16

【9A文】量化派基于Hadoop、Spark、Storm的大数据风控架构_第1页
【9A文】量化派基于Hadoop、Spark、Storm的大数据风控架构_第2页
【9A文】量化派基于Hadoop、Spark、Storm的大数据风控架构_第3页
【9A文】量化派基于Hadoop、Spark、Storm的大数据风控架构_第4页
【9A文】量化派基于Hadoop、Spark、Storm的大数据风控架构_第5页
资源描述:

《【9A文】量化派基于Hadoop、Spark、Storm的大数据风控架构》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、【MeiWei_81重点借鉴文档】量化派是一家金融大数据公司,为金融机构提供数据服务和技术支持,也通过旗下产品“信用钱包”帮助个人用户展示经济财务等状况,撮合金融机构为用户提供最优质的贷款服务。金融的本质是风险和流动性,但是目前中国对于个人方面的征信行业发展落后于欧美国家,个人消费金融的需求没有得到很好的满足。按照央行最新数据,目前央行征信中心的数据覆盖人口达到8亿人[1],但其中有实际征信记录的只有3亿人左右,有5亿人在征信系统中只是一个身份证号码。此外,我国还有5亿人跟银行从来没有信贷交易关系,这5

2、亿人对金融部门来说是陌生人。这样算下来,有征信记录的人只占到全国人口数的23.7%,远低于美国征信体系对人口的85%的覆盖率。如何在信用记录缺失的情况下,做好多个人用户的风险定价,是个棘手的难题。量化派通过基于机器学习和互联网化的风险定价,整合互联网及传统数据源,对个人在消费金融应用场景里的信用风险进行评估。这篇文章就主要介绍一下量化派的大数据平台,以及机器学习在量化派的应用。一、互联网化的风控创新量化派及“信用钱包”的核心任务是让用户可以凭借其良好的信用,而无需抵押或者担保就可以贷款。也就是说,用户仅

3、凭信用即可开启财富之门。为了达到这个目的,信用钱包需要把用户个性化的需求与信贷产品信息精准匹配到一起。在帮助用户找到合适自己的信贷产品的同时,也帮助信贷产品公司找到了最合适的贷款用户,从而实现信贷消费者和信贷产品提供者的双赢。为了确保贷款的高成功率,为了更好的掌握用户需求以及对个人进行信用评级,我们需要大数据平台的支持。目前,可以接入央行征信中心的金融机构仅仅只有银行、持牌照的第三方征信服务商以及部分地区的小贷公司,绝大多数的P2P平台还无法接入央行的征信数据,这无疑加大了P2P平台的风控难度。在征信思

4、路上,传统征信是用昨天的信用记录来判断今天的信用价值,这未见得就是最合理的。在征信技术上,传统的方法是从线下采集信用数据,效率比较低。可以说,传统的线下征信技术限制了数据来源和信用评估思路,而互联网的技术、工具和思维则具备了改变这一切的可能性。回归到征信的本质,其实就在于解决两方面问题:信用能力和信用意愿,换而言之,即解决个人的还款能力和还款意愿,再追根溯源一点,即解决坏账和逾期两个问题[2]。量化派公司基于大数据的用户征信和传统征信殊途同归,所不同的是,传统征信中,数据依赖于银行信贷数据,而大数据征信

5、的数据并不仅仅包括传统的信贷数据,同时也包括了与消费者还款能力、还款意愿相关的一些描述性风险特征,这些相关性描述风险特征的抽取与筛选是量化派的技术核心。相比于传统征信数据的强相关性,这些大数据征信的数据与消费者的信用状况相关性较弱,量化派就利用大数据技术,通过用户授权等方法搜集了更多的数据维度来加强这些弱相关数据的描述能力。这样就使大数据征信不依赖于传统信贷数据,就可以对传统征信无法服务的人群进行征信,实现对整个消费者人群的覆盖[3]。我们的数据来源如下图所示:【MeiWei_81重点借鉴文档】【Mei

6、Wei_81重点借鉴文档】图一量化派的数据来源二、量化派的大数据平台架构量化派的信用钱包每天都会获取大量的用户的注册信息等结构化数据以及爬虫抓取的非结构化数据,还有第三方的接入数据,系统运行产生的日志数据等等,数据的形式多种多样,如何保护好、利用好这些数据,是公司重中之重的任务。量化派的业务也决定了公司是数据驱动型的。为了更好的满足公司日益增长变化的业务,在大数据平台建设中全面拥抱开源的基础上,进行了不停迭代设计,对数据平台中采用的开源软件进行了深度应用开发,同时还开发了很多契合业务需求的工具软件,很好

7、的支撑我们去实现普惠金融的理想。量化派公司的数据平台架构如图二所示。【MeiWei_81重点借鉴文档】【MeiWei_81重点借鉴文档】图二量化派的数据平台架构相比我国的网民数量,信贷用户只占其中的一小部分,所以我司产品的用户基数并不是非常大,但是,为了给信贷用户更准确的信用评级,对于每个信贷用户我们都会从多个渠道获取大量的有效数据,这些数据聚合起来也是海量数据规模。公司发展伊始,几乎将所有的数据都存放在MRsql关系数据库中,工程师使用标准SQL语句来存储或者调用数据资源。MRsql很快就遇到了性能瓶

8、颈,虽然可以通过不停地优化整个MRsql集群以应对数据的快速增长,但是面对复杂的数据业务需求,MRsql显然无法提供最优的解决方案。所以我司最终决定将数据迁移到大数据平台上,MRsql仅用来存储需要经常变化的状态类数据。除了系统运行日志直接存放在HDFS之中,大量的数据利用HBase来进行管理。HBase中的数据按照不同的数据源存放在不同的表中,每张表按照业务和存储需求对rowkeR进行精心设计,确保海量数据中查询所需数据毫秒级返回。根据业

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。