欢迎来到天天文库
浏览记录
ID:53004175
大小:1.68 MB
页数:34页
时间:2020-04-10
《哈佛博士吕晓辉LeisNeis金融大数据实践.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、哈佛博士吕晓辉:LexisNexis金融大数据实践吕晓辉,律商联讯风险信息公司中国区市场总监,数据和分析产品开发专家。现专注于为律商联讯风险信息公司开拓中国市场。曾为律商联讯开发推广了一系列针对美国金融行业的大数据产品:消费者询价活力评分、车险保单实时预填服务、保费偿付历史共享平台、个人信用记录查询优化等等,取得显著的市场效果。在加盟律商联讯之前,曾就职于分析咨询公司OptimalDecisionsGroup,专业信息提供商ChoicePoint。于南京大学获得学士学位;于哈佛大学获得硕士和博士学位。嘉宾介绍(吕晓辉
2、):大家好!我是律商联讯的吕晓辉。非常荣幸今天有机会和大家分享律商联讯对大数据的一点心得。感谢大家抽空来参与。感谢张华平教授的邀请,和张涵诚的主持。分享嘉宾(吕晓辉):今天的想给大家分享一点干货:律商在美国运营大数据的一点心得。首先,我想介绍一下律商联讯和我们的大数据业务模式;其次,分享几个实际案例;再次,介绍一下我们专有的大数据核心算法;最后,看大家的兴趣,可以深入讲一讲技术体系的细节。分享嘉宾(吕晓辉):律商联讯是励德爱思唯尔集团旗下专业经营大数据在银行、保险、政府等风险行业的应用的全资子公司。律商联讯是励德爱思
3、唯尔集团旗下专业经营大数据在银行、保险、政府等风险行业的应用的全资子公司。分享嘉宾(吕晓辉):我们在美国的大数据业务的商务模式如上页幻灯片所示。海量数据资源、大数据技术、大数据关联和分析、行业专门经验和产品有机集合成为以客户为中心的行业解决方案。我们的业务专注与B2B业务模式。分享嘉宾(吕晓辉):这是我们在美国市场收集的部分数据介绍。对于如何应对大数据的挑战,我们有一点自己的观点,容我简述如下:分享嘉宾(吕晓辉):大数据关联技术,在我们看来,是将原油提炼成为各种石化产品的核心技术。分享嘉宾(吕晓辉):上面是律商联讯的
4、专有大数据技术HPCC的一点简介。我就不一一复述。需要强调一点,我公司的基础大数据技术平台是完全开源的。欢迎大家访问hpccsystems.com下载。嘉宾介绍(吕晓辉):我们技术的最大优势在于功能完整﹑高性能﹑低成本﹑久经实时生产应用的考验。分享嘉宾(吕晓辉):刚才提到的大数据关联技术,在此我略作简述。下面还会细讲。大数据关联技术的核心之一是个体解析,即把和某个个体相关的所有记录都完整、准确地聚类到一起。只有做到准确,才能不把其它个体的信息错误地归入这个个体的记录集群。只有做到全面,才能不遗漏和这个个体相关的记录。
5、准确、全面是进一步大数据应用的基础,一定要打好。分享嘉宾(吕晓辉):呵呵,最后一页公司宣传,用以佐证下面的应用案例的可靠性。嘉宾(吕晓辉):第一个案例是一个关于电商的例子。其中大数据的应用在于反欺诈。在坚实的数据基础上,反欺诈是一个相对普适的应用。对于这些案例的细节,我就不复述了。欢迎大家随时打断我来提问。嘉宾(吕晓辉):这第二个案例是一个我公司的姊妹公司爱思唯尔的实际应用。展示了HPCC技术的海量数据处理能力。第二个案例和亚马逊差不多,只不过是一个更加专门的场景。效能也更好一点。这第三个案例是关于物联网的例子。个人
6、觉得是咱国家机场迫切需要的应用。嘉宾(吕晓辉):第四个案例是关于网络安全漏洞的排查。再次展示了海量数据处理能力和网络行为模式的识别能力。嘉宾(吕晓辉):第五个案例是我个人的最爱:通过关系网络来识别合谋欺诈。合谋欺诈,主要在于观察什么是正常的行为模式;然后再筛选出哪些是不正常的行为模式,即有可能是合谋欺诈。多个数据点的交叉验证在此也变得尤其重要。这个案例的特点在于关系网络的质量,只有在个体解析做到完整、准确时,才会有效地支持这个应用。嘉宾(吕晓辉):第六个案例是我公司的核心技术平台:LexID。过对来自一万多个活数据源
7、的数据的持续整合、关联,我们能够完整掌握美国成年人口的在社会中留下的数据足迹。在美国,政府信息公开得到比较彻底的实现。我公司投入了大量的人力物力来从零散的数据源里收集公共记录数据。另外,许多私有数据源也被我们通过商务手段合法获得并利用。相比起网络爬虫或者社交网络数据来说,我们发现,一些“传统”的数据源,例如婚姻记录、犯罪纪录、房地产买卖记录更加有用。嘉宾(吕晓辉):最后一个案例,是我公司的前身,美国ChoicePoint公司在2008年被律商联讯收购后,所经历的技术平台的迁移及其效果。嘉宾(吕晓辉):那我们继续。下面
8、我想更细地讲一下大数据关联技术。嘉宾(吕晓辉):这是一个关于人名匹配的例子。通过对数据的统计,我们的算法自动发现,“笲”是一个比较不常见的字。而“黄”和“王”由于发音相近常被人听混。在盐城市亭湖区的“王笲”很可能是“黄笲”被误记所致。认定这两条记录匹配的错误可能性极低。而基于规则的匹配方式则会简单地认定这两个记录不匹配。反之亦然,“张勇”是一个
此文档下载收益归作者所有