欢迎来到天天文库
浏览记录
ID:37106884
大小:1.78 MB
页数:71页
时间:2019-05-17
《社交文本驱动的混合深度序列股票预测模型》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、2019届研究生硕士学位论文分类号:学校代码:10269密级:学号:51164500253EastChinaNormalUniversity硕士专业学位论文Master’sDegreeThesis(Professional)论文题目:社交文本驱动的混合深度序列股票预测模型院系:计算机科学与软件工程学院专业名称:软件工程研究方向:文本挖掘,时序建模指导教师:王骏教授学位申请人:吴汇哲2018年9月Dissertationformasterdegreein2019UniversityCode:10269StudentID:51164500253EASTCHINANORMALUNIVERS
2、ITYSඈർංൺඅTൾඑඍ-DඋංඏൾඇHඒൻඋංൽDൾൾඉSൾඊඎൾඇඍංൺඅSඍඈർPඋൾൽංർඍංඈඇMඈൽൾඅDepartment:SchoolofComputerScienceandSoftwareEngineeringMajor:SoftwareEngineeringResearchdirection:TextMining,SequentialModelingSupervisor:Prof.JunWangCandidate:HuizheWu2018.09吴汇哲硕士学位论文答辩委员会成员名单姓名职称单位备注林欣研究员华东师范大学主席严骏驰研究员上海交通大学姚俊杰副研究员华
3、东师范大学i摘要对于股票市场预测问题,除了仅仅考虑股票价格序列,利用例如推特等社交媒体的即时短文本进行股价趋势预测可能会得到更理想的效果。目前在这一领域许多时间序列建模方法已经被尝试和探索,如时间序列自回归预测。然而,由于种种因素,如依赖于情感分析、股票价格时序数据和社交文本序列之间缺乏有效的关联和融合等,极大地影响了最终的预测效果。出于解决这些问题的考虑,本文首先提出了一个成对循环神经网络。利用带标签的隐含狄利克雷分布模型以序列中每天的推特集合为建模对象,依据每个股票的词分布和一个标注的词的情感字典,获取每支股票的主题情感分数,作为更加细粒度的情感特征序列表示,代替原先的股票二值化
4、价格特征,并建立一个长短时记忆网络对其建模。同时,以推特的向量表示作为文本基本输入单元,建立一个两层的长短时记忆网络对社交文本数据进行建模,在上层模型中进一步融合两种不同模态的数据。为缓解社交文本噪声问题对于价格趋势预测的影响,本文进一步提出了一个新颖的基于注意力的跨模态混合循环神经网络。结构上主要有两块模块组成。一部分利用了一个两阶注意力循环神经网络获取不同股票的价格趋势向量表示。另一部分利用了长短时记忆网络单元建模以天为单位表示的社交文本向量。这两部分以以下两种方式紧密地结合起来:1)通过采用一个跨模态的注意力机制,第一个模块得到的价格序列表示被用于选择与股价趋势更相关的社交文本
5、,2)在模型上层,整合文本和股价序列表示。本文爬取了时间跨度为一年的推特文本数据和雅虎金融上的股价数据。通过在真实数据集上的综合实验可以证明,成对循环神经网络结合和两种模态数据,并利用神经网络进行了进一步融合,产生了比较明显的预测提升。而基于注意力的ii跨模态混合循环神经网络中,证明了合理地进行多模态数据的表示和融合,有效地过滤对预测没有帮助的社交文本噪声,能够产生很好的预测效果和投资回报。关键词:深度序列模型,股票预测,社交文本,多模态融合iiiivABSTRACTInadditiontoonlyconsideringstocks’priceseries,utilizingshor
6、tandinstanttextsfromsocialmediaslikeTwitterhaspotentialtoyieldbetterstockmarketprediction.Whilesomepreviousapproacheshaveexploredthisdirection,theirresultsarestillfarfromsatis-factoryduetotheirrelianceonperformanceofsentimentanalysisandlimitedcapabilitiesoflearningdirectrelationsbetweentargetst
7、ocktrendsandtheirdailysocialtexts.Inordertosolvetheseproblems,thispaperfirstproposesacoupledLong-shortTermMemorynetworktoreplacetheoriginalstockpricefeaturesusingthelabeledLatentDirichletAllocationModeltoextractmorefine-grainedfea
此文档下载收益归作者所有