基于mongodb的大规模高频金融交易数据处理

基于mongodb的大规模高频金融交易数据处理

ID:18409059

大小:150.60 KB

页数:9页

时间:2018-09-17

基于mongodb的大规模高频金融交易数据处理_第1页
基于mongodb的大规模高频金融交易数据处理_第2页
基于mongodb的大规模高频金融交易数据处理_第3页
基于mongodb的大规模高频金融交易数据处理_第4页
基于mongodb的大规模高频金融交易数据处理_第5页
资源描述:

《基于mongodb的大规模高频金融交易数据处理》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、巨建华:基于MongoDB的大规模高频金融交易数据处理发表于2011-11-2612:00

2、 4760次阅读

3、来源CSDN

4、 0 条评论

5、作者CSDNmongodb应用服务器数据分析数据挖掘金融摘要:巨建华认为高频金融交易数据的主要特点是实时性和大规模,目前沪深两市每天4个小时的交易时间会产生3亿条以上逐笔成交数据,随着时间的积累数据规模非常可观,与一般日志数据不同的是这些数据在金融工程领域有较高的分析价值,金融投资研究机构需要经常对历史和实时数据进行挖掘创新,以创造...时至今日,“Bigdata”

6、(大数据)时代的来临已经毋庸置疑,尤其是在电信、金融等行业,几乎已经到了“数据就是业务本身”的地步。这种趋势已经让很多相信数据之力量的企业做出改变。恰逢此时,为了让更多的人了解和使用分析大数据,CSDN独家承办的大数据技术大会于今日在北京中旅大厦召开。本次大会汇集Hadoop、NoSQL、数据分析与挖掘、数据仓库、商业智能以及开源云计算架构等诸多热点话题。包括百度、淘宝、新浪等业界知名专家与参会者齐聚一堂,共同探讨大数据浪潮下的行业应对法则以及大数据时代的抉择。ymall.com技术总监巨建华巨建华认

7、为高频金融交易数据的主要特点是实时性和大规模,目前沪深两市每天4个小时的交易时间会产生3亿条以上逐笔成交数据,随着时间的积累数据规模非常可观,与一般日志数据不同的是这些数据在金融工程领域有较高的分析价值,金融投资研究机构需要经常对历史和实时数据进行挖掘创新,以创造和改进数量化交易模型,并将之应用在基于计算机模型的实时证券交易过程中,因此一般的数据库系统无法满足如此大规模和实时性,灵活性的要求。同时巨建华表示应用复杂性(包括高可用性、高性能,低延迟实时数据呈现、任意历史盘中实时数据挖掘和支持用户自定义脚

8、本实现数据提取与运算)和数据规模(包括财务,金融+历史汇总交易数据、新闻资讯及研报以及每个交易日数据增量等)是数据存储方案面临的挑战。以下为文字实录非常荣幸今天能有机会站在这里跟大家分享一下,最近三年以来一直在做的一项工作,就是高频金融交易数据分析和处理。在这之前,跟刘工讲做的工作有点相似,我今天分享过程中不会讲我们如何去分析,如何去形成更好的模型来对数据做,拿着一些有用模型。如何高效对数据进行分析和处理存储,然后来解决大规模数据的挖掘问题。这是我今天主要给大家讲的,在开始之前大家会看到目前我从事主要

9、是电子商务方面的工作,主要因为在前三年,主要是在做证券方面交易处理。可能在座如果是有做像这方面同仁,我们可能会认识。在开始之前,因为这个行业比较特殊,在我们之前CSDN有CTO俱乐部,我们在做相应活动的时候,实际上我们遇到的同事非常少。也就是说,这个领域如果我要向大家介绍如何使用MongoDB解决这个领域问题的时候,我需要给大家做一些关于这个行业背景的介绍。首先第一个证券,或者金融这个行业数据类型是非常复杂的,而且这个数据对于结构化,有些数据结构化是非常差的,大多数都是一些PDF,甚至是一些文本文档。

10、但是有一部分数据结构还是非常强的,就是交易数据,也就是我们证券成交数据。大家炒股的时候都在用金融终端看我们股票数据变化等等情况,如果如果有一些高起点客户会用技术指标,来进行数据分析。在做数据分析的时候会接触,我们数据里面有资金持仓项目,有机构评级报告,还有新闻咨询,交易龙虎榜。如果我们平时接触少大家感觉不会很熟悉,所谓基金持仓,我们所有基金公司对市场上的股票持有情况,也就是说,每一个每个咨询公司手上拿着什么样股票进行发布,这样数据连续20多年沉淀下来,数据沉淀非常强。研究报告主要是机构,我们大家都知道

11、很多分析师,每过一段时间就会编制一些研究报告,对每一支股票进行分析,这主要是文本类型的,主要以文本来展现。另外由于用户习惯不同,我们股票在变化过程当中,不同用户都采用不同周期K线数据来看盘,比如分钟,月,周年进行统计,形成所谓日K线数据,就是统计出来在某一个时间段第一个价格,也就是开盘价,最高价格,以及最低,收盘价,包括成交量,成交额等等。这样的数据之所以会形成这样统计的原因,一个是用户习惯,第二这个差异数据量实在太庞大了,如果我们不提前做统计的话,在形成这样大量交易,我们想在盘中持续拿到这样统计数据

12、,系统都会很吃力,特别是在我们之前数据库系统,以及分布式运算方式没有根本性改变的时候,最佳解决方案当时也就是预先把这些数据统计出来,如果说我们突然想之前,我们假设没有提供33分钟的数据,我们想对历史数据进行回归,这是一个非常庞大,这个时间会非常长。也就是说,如果我们计算,甚至说这样认为是不可完成的,在我们没有引入更好计算机制和存储机制之前,也是这个行业一直以来面临的问题。关于盘口和成交明细不多说了,都是非常多数据。之前数据实际应用中会不会通过终端展现出来

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。