欢迎来到天天文库
浏览记录
ID:27480728
大小:1.48 MB
页数:12页
时间:2018-12-04
《FDDC大赛见证了AI将如何改变资产管理的未来.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、FDDC大赛见证了AI将如何改变资产管理的未来 不久前刚结束FDDC大赛,武汉大学计算机学院软件工程实验室的Alassealome团队,获得上市公司营业收入预测赛题第一名,而一人团队GOGOGO则摘得上市公司公告信息抽取赛题桂冠,本文主要将冠军的方案以及大赛亮点进行介绍和回顾。 上月底,2018全球金融数据探索与发现大赛(FDDC)的决赛落幕,10支队伍激烈角逐,也让现场观众见证了AI将如何改变资产管理的未来。 FDDC大赛是全球首场专注金融领域、深入投资实战的技术大赛,由中国证券投资基金业协会(以下简称“基金业协会”)金
2、融科技专业委员会主办,易方达基金、华夏基金、通联数据、阿里云共同承办,奖金池一共高达84万元。 大赛共有两个任务,一是利用AI对上市公司进行营收预测,另一个是对上市公司公告进行信息抽取。这两个都是资产管理中最基本而又最重要的两项工作,往往会决定投资决策的成败。 FDDC大赛,旨在挖掘更多顶尖算法人才,提升资产管理行业的科技化程度。在3个多月的时间里,大赛吸引了全球4231支队伍参与,经过线上初赛和复赛,共有10支队伍进入最终决赛。 最终,来自武汉大学计算机学院软件工程实验室的Alassealome团队,将预测误差降低至
3、7%,获得上市公司营业收入预测赛题第一名,而一人团队GOGOGO则摘得上市公司公告信息抽取赛题桂冠。 数值预测准确率最高独特数据处理,将营收预测误差仅7%! Alassealome团队来自于武汉大学计算机学院软件工程实验室,团队的导师为蔡恒进,主要研究领域是人工智能、金融信息工程及服务科学。 FDDC大赛上市公司营收预测赛题第一名AlasseaLome团队 这次的“上市公司营收预测”赛题,官方到的数据包括三大财务报表、宏观数据、行业数据、公司经营数据、行情数据等。比赛评测指标是选手对公司二季度的营业收入比率误差的计算
4、,如何准备预测公司半年报实际营收,是这道赛题取胜的关键。 在训练集生成上,团队首先把三大财务报表里面的数据提取出来,接下来引入申万的行业分类这一类别特征。值得注意的是,申万的一级行业分类由28个被团队拆分成30个,同时还加入了能够表征行业数据的指数行情,以及行业估值信息,这里面所有的指标都会经过团队的独特处理。 在公司的维度,团队加入沪深股票日行情以及个股日资金流向,同时引入财务衍生数据和多因子数据。这些特征的比起基本财务数据的优势在于,它们是经过优秀的研究员精心挑选和计算过,可能更具有解释力。 除了刚刚提到的特征,团队还
5、加入了滑窗特征。滑窗特征是什么呢? 以预测公司二季度的营收为例,除了告诉模型一季度营收之外,还告诉公司前四季度的营收。之所以这样做的原因是,金融数据是一个时序非常强的序列,因此团队还告诉模型它的历史上的一些信息。相应的,团队还加入了比率滑窗的特征。 训练方式采取了滑窗模式,五年一滑,但是有三个验证集。模型的最优参数是在三个验证集上的平均loss最小的参数,还列举了不同的模型算法它的表现。 选了那么多特征之后,怎么把最重要的特征筛选出来呢? 首先团队会多轮预跑,得到所有特征的重要性。然后选出来重要特征重新生成训练集,在
6、训练集上进行网格搜索,确定最优的模型参数。 模型部署方面,时序模型不需要训练,它的loss大概在0.48左右。团队的主模型是xgb,辅助模型是RandomForest。模型融合是线性分类器,模型保存了最终部署的27个模型,从行业的角度去选择最终利用哪个模型。 最终,团队的复赛得分是0.43,如果换算成营业收入的误差,在7%以内。 从不同公告找到共性知识结构,做直接的实体全量标注 赛题二是上市公司公告重要信息抽取。 本赛题要求对“股东增减持”、“重大合同”和“定向增发”3个类型的公司公告进行信息抽取,实际上是对公司关
7、键事件进行结构化提取。 GOGOGO团队获得本赛题第一名。他们首先是对HTML结构的提取,包括一些数据清理和转换、表格识别等。 FDDC大赛上市公司公告信息抽取赛题第一名GOGOGO团队 在算法中,团队运用了反向标注,然后建立一个NER的模型预测实体。GOGOGO的标注不同之处在于,他们做了直接的实体的全量标注。因为现有的很多通用的实体识别,是识别出一个公司名称或者是不是数值,团队直接把它的类型给定义清楚。 实体标注技巧是模型里面比较重要的地方之一,另一方面,团队还用到奥卡姆剃刀原则。 奥卡姆剃刀原则主要表现在
8、人倾向于用一个简单的方法表现一个内容,会用简单的方法不会用复杂的方法。比如,有很多合同里面没有乙方的表示,默认发公告的一方就是乙方。 模型验证策略方面,团队在研究这个问题的时候,发现召回率是很重要的,信息一旦漏掉了是捞不回来的,因此可以通过人工的方法提高它。第
此文档下载收益归作者所有