FDDC大赛见证了AI将如何改变资产管理的未来.doc

FDDC大赛见证了AI将如何改变资产管理的未来.doc

ID:27480728

大小:1.48 MB

页数:12页

时间:2018-12-04

FDDC大赛见证了AI将如何改变资产管理的未来.doc_第1页
FDDC大赛见证了AI将如何改变资产管理的未来.doc_第2页
FDDC大赛见证了AI将如何改变资产管理的未来.doc_第3页
FDDC大赛见证了AI将如何改变资产管理的未来.doc_第4页
FDDC大赛见证了AI将如何改变资产管理的未来.doc_第5页
资源描述:

《FDDC大赛见证了AI将如何改变资产管理的未来.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、FDDC大赛见证了AI将如何改变资产管理的未来  不久前刚结束FDDC大赛,武汉大学计算机学院软件工程实验室的Alassealome团队,获得上市公司营业收入预测赛题第一名,而一人团队GOGOGO则摘得上市公司公告信息抽取赛题桂冠,本文主要将冠军的方案以及大赛亮点进行介绍和回顾。  上月底,2018全球金融数据探索与发现大赛(FDDC)的决赛落幕,10支队伍激烈角逐,也让现场观众见证了AI将如何改变资产管理的未来。  FDDC大赛是全球首场专注金融领域、深入投资实战的技术大赛,由中国证券投资基金业协会(以下简称“基金业协会”)金

2、融科技专业委员会主办,易方达基金、华夏基金、通联数据、阿里云共同承办,奖金池一共高达84万元。    大赛共有两个任务,一是利用AI对上市公司进行营收预测,另一个是对上市公司公告进行信息抽取。这两个都是资产管理中最基本而又最重要的两项工作,往往会决定投资决策的成败。  FDDC大赛,旨在挖掘更多顶尖算法人才,提升资产管理行业的科技化程度。在3个多月的时间里,大赛吸引了全球4231支队伍参与,经过线上初赛和复赛,共有10支队伍进入最终决赛。  最终,来自武汉大学计算机学院软件工程实验室的Alassealome团队,将预测误差降低至

3、7%,获得上市公司营业收入预测赛题第一名,而一人团队GOGOGO则摘得上市公司公告信息抽取赛题桂冠。  数值预测准确率最高独特数据处理,将营收预测误差仅7%!  Alassealome团队来自于武汉大学计算机学院软件工程实验室,团队的导师为蔡恒进,主要研究领域是人工智能、金融信息工程及服务科学。    FDDC大赛上市公司营收预测赛题第一名AlasseaLome团队  这次的“上市公司营收预测”赛题,官方到的数据包括三大财务报表、宏观数据、行业数据、公司经营数据、行情数据等。比赛评测指标是选手对公司二季度的营业收入比率误差的计算

4、,如何准备预测公司半年报实际营收,是这道赛题取胜的关键。  在训练集生成上,团队首先把三大财务报表里面的数据提取出来,接下来引入申万的行业分类这一类别特征。值得注意的是,申万的一级行业分类由28个被团队拆分成30个,同时还加入了能够表征行业数据的指数行情,以及行业估值信息,这里面所有的指标都会经过团队的独特处理。  在公司的维度,团队加入沪深股票日行情以及个股日资金流向,同时引入财务衍生数据和多因子数据。这些特征的比起基本财务数据的优势在于,它们是经过优秀的研究员精心挑选和计算过,可能更具有解释力。  除了刚刚提到的特征,团队还

5、加入了滑窗特征。滑窗特征是什么呢?    以预测公司二季度的营收为例,除了告诉模型一季度营收之外,还告诉公司前四季度的营收。之所以这样做的原因是,金融数据是一个时序非常强的序列,因此团队还告诉模型它的历史上的一些信息。相应的,团队还加入了比率滑窗的特征。  训练方式采取了滑窗模式,五年一滑,但是有三个验证集。模型的最优参数是在三个验证集上的平均loss最小的参数,还列举了不同的模型算法它的表现。  选了那么多特征之后,怎么把最重要的特征筛选出来呢?  首先团队会多轮预跑,得到所有特征的重要性。然后选出来重要特征重新生成训练集,在

6、训练集上进行网格搜索,确定最优的模型参数。    模型部署方面,时序模型不需要训练,它的loss大概在0.48左右。团队的主模型是xgb,辅助模型是RandomForest。模型融合是线性分类器,模型保存了最终部署的27个模型,从行业的角度去选择最终利用哪个模型。  最终,团队的复赛得分是0.43,如果换算成营业收入的误差,在7%以内。  从不同公告找到共性知识结构,做直接的实体全量标注  赛题二是上市公司公告重要信息抽取。  本赛题要求对“股东增减持”、“重大合同”和“定向增发”3个类型的公司公告进行信息抽取,实际上是对公司关

7、键事件进行结构化提取。  GOGOGO团队获得本赛题第一名。他们首先是对HTML结构的提取,包括一些数据清理和转换、表格识别等。    FDDC大赛上市公司公告信息抽取赛题第一名GOGOGO团队  在算法中,团队运用了反向标注,然后建立一个NER的模型预测实体。GOGOGO的标注不同之处在于,他们做了直接的实体的全量标注。因为现有的很多通用的实体识别,是识别出一个公司名称或者是不是数值,团队直接把它的类型给定义清楚。    实体标注技巧是模型里面比较重要的地方之一,另一方面,团队还用到奥卡姆剃刀原则。  奥卡姆剃刀原则主要表现在

8、人倾向于用一个简单的方法表现一个内容,会用简单的方法不会用复杂的方法。比如,有很多合同里面没有乙方的表示,默认发公告的一方就是乙方。  模型验证策略方面,团队在研究这个问题的时候,发现召回率是很重要的,信息一旦漏掉了是捞不回来的,因此可以通过人工的方法提高它。第

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。