欢迎来到天天文库
浏览记录
ID:50148013
大小:1.25 MB
页数:28页
时间:2020-03-06
《 金融投资大数据实践分享.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、金融投资大数据实践分享龙白滔博士2014年12月14日目录•金融大数据vs(消费)互联网大数据•金融数据生产•金融大数据存储•金融大数据分析和挖掘•在线交互式金融编程分析研究平台金融大数据vs(消费)互联网大数据(消费)互联网金融研究对象比较偏重研究个体的行为比较偏重研究群体行为和趋势体征数据相关性与个体强相关的数据比较与群体行为强相关的数据比较难获容易获得(例如浏览器得,数据噪音大cookie),数据噪音小算法复杂度因为数据质量高,所以算因为数据噪音大,因此对算法要求法可以相对较简单很高数据容量大更大,互联网大数据+金融专门的大数据(例如行情数据、行业数据、分析师报告等)数据类型多种结构化
2、和非结构化数更多,互联网的数据类型+金融特据别的数据类型,例如时间序列数据数据速度一般数据处理速度要求不对数据处理速度要求比较高,例如高量化交易、动态风险定价、反信用卡欺诈、实时新闻分析和处理等目录•金融大数据vs(消费)互联网大数据•金融数据生产•金融大数据存储•金融大数据分析和挖掘•在线交互式金融编程分析研究平台金融数据生产数据抽取和数据质量检数据采集解析查•分布式爬虫系统•自动抽取OFFICE、•支持多vendor数据•基于主题关注度的PDF等文档中的数质量平台数据采集字、文字、表格、•添加自动数据质量•优化每日增量爬取公式等校验策略•利用OCR和图片处•人工校验结果作为•实现代理机制
3、理技术抽取图像数反馈输入到机器学据习模型,进一步提•支持动态网站爬取•行业分类:国泰君升自动化处理的质安和证监会的分类量标准•众包平台来提升数•财务数据支持中国据质量检查的效果的会计准则和降低成本•人工定义和机器学习抽取/解析规则•自动化数据抽取和解析的流程结果:几乎完全自动化地采集、抽取、解析和质检传统的金融数据,包括上市公司基本信息、财务信息、公司事件和公告等,包括历史数据,质量和效率全面超越了传统的金融信息服务提供商。目录•金融大数据vs(消费)互联网大数据•金融数据生产•金融大数据存储•金融大数据分析和挖掘•在线交互式金融编程分析研究平台金融大数据的存储新闻数据和社交媒体数据(文本类
4、型)•财经类新闻,每天8000篇左右•过去10年所有财经类新闻,1000万篇左右•元数据和处理过后的数据,例如新闻分类、故事(新闻聚类)、事件和标签等•暂存:CassandravsMongoDB•历史数据存储:HDFS行业数据和宏观经济数据(RMDB的结构化数据)•数据量不大,目前我们用MySQL•Cassandra在逐渐代替传统RMDB(包括MySQL和Oracle)在企业内部的作用,作为大容量实时或者近实时存储和分析平台,例如全球最大的云应用Netflix(95%的数据从O->C,拥有50个C集群共750个节点)、纽交所、Splunk和BarracudaNetworks(MySQL->C
5、)金融大数据的存储(续)市场行情数据(实时+历史)(时间序列数据)•商用:KDB,传统金融机构标配,高富帅,专用开发语言q(复杂但高效)•开源:Cassandra在国外已经得到比较成功的应用(物联网和能源数据)rowkey的设计非常适合将时间序列数据分散到集群各个节点进行存储提供类SQL的查询语言CQL分布式集群提供卓越的水平扩展性和较好的查询性能(典型查询100ms级,集群处理70请求/s)NASA(安全数据),Tendril(目前5T/月,未来20T/月能源时间序列数据),AgentisEnergy(150亿个时间序列记录,Cassandra集群跨越2个数据中心)我们目前的
6、选择-InfoBright列存数据库,高数据压缩率(5年高频股票历史数据2.7T->140GB,期货和其它历史数据5-6T->250G)Partition-index:快速实现对数据某个区域的查询SQL兼容,提供较好的查询性能;(典型查询50ms级别,单机300处理300请求/s)开源版本支持单机和单核,扩展性有限目录•金融大数据vs(消费)互联网大数据•金融数据生产•金融大数据存储•金融大数据分析和挖掘•在线交互式金融编程分析研究平台金融大数据分析和挖掘EventIntelligentThemeDataAPIResearchReportDiscoveryNews/ReportCol
7、lectionLogOnlineComputing/CloudSocialMediaDistributedComputing:Hadoop/SparkCorporateDataMachineLearning&DataNaturalLanguageMiningProcessingSemi-CEPRegressionSentimentAnalysisSupervisedIndustrialDataLearning
此文档下载收益归作者所有