基于股吧文本的主题挖掘及其股票投资应用

基于股吧文本的主题挖掘及其股票投资应用

ID:37062413

大小:4.81 MB

页数:77页

时间:2019-05-17

基于股吧文本的主题挖掘及其股票投资应用_第1页
基于股吧文本的主题挖掘及其股票投资应用_第2页
基于股吧文本的主题挖掘及其股票投资应用_第3页
基于股吧文本的主题挖掘及其股票投资应用_第4页
基于股吧文本的主题挖掘及其股票投资应用_第5页
资源描述:

《基于股吧文本的主题挖掘及其股票投资应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于股吧文本的主题挖掘及其股票投资应用作者姓名张惠玲学科专业概率论与数理统计指导教师梁满发副教授所在学院数学学院论文提交日期2018年4月TheTopicMiningandItsApplicationofstockinvestmentbasedonGubaTextADissertationSubmittedfortheDegreeofMasterCandidate:ZhangHuilingSupervisor:AssociateProf.LiangManfaSouthChinaUniversityofTechnologyGu

2、angzhou,China摘要随着互联网的高速发展,投资者越来越倾向于在网络上通过各种股吧论坛来表达自己对市场的观点,同时获取自己所关注的股市信息,而这些信息会潜移默化地影响着投资者的投资决策。因此,本文从大数据文本挖掘的角度出发,从网络爬取的股吧文本数据中挖掘股票市场的热门主题,再应用到股票投资上。对股吧文本进行主题挖掘首先要选取合适的主题挖掘算法,目前股市上很少采取LDA模型进行主题挖掘,但LDA模型的应用广泛,优势突出,本文选用LDA模型。为了对比LDA模型的效果,本文将其与传统的文本聚类算法做对比,挖掘2018年2月份股吧财经评

3、论吧热帖文本的主题,发现LDA的主题挖掘效果更好、模型拓展性能更强等。主题挖掘方法在股票投资领域中的应用很少,所以本文在挖掘股吧文本热点主题的基础上,提出构建主题投资策略。基于主题数据,构建主题热度因子,综合考虑主题行业热度和主题概念热度两个方面,来描述主题和其个股的关系。构造出主题热度因子后,对其做单因子检验证明其有效性,将其作为主要因子和其他常用类因子构建多因子库,构建多因子量化选股模型。相比于传统的排序打分法,本文把选股模型看成二分类问题,选用逻辑回归模型。逻辑回归易求最优解、直接对分类可能性进行建模,预测结果是近似类别的概率,且

4、概率结果可以作为配资权重。本文使用逻辑回归模型构建多因子选股策略,通过对2016年4月至2017年9月期间的沪深300成分股股池进行回测,策略的年化收益率达到21.1%,净值曲线后期表现远超基准。再剔除主题因子,同样构建逻辑回归多因子选股模型,对比添加主题因子前后的策略效果:随机多次抽样时段构建策略,获得两组样本数据,对两组样本的夏普比率和年化收益率的提高进行显著性检验,夏普比率和年化收益率对应的P值均接近0,说明年化收益率和夏普比率有显著的提升效果,主题因子对策略有显著的改善效果,充分验证了主题挖掘方法的效果。本文的研究成果有利于完善

5、我国关于股市热点主题挖掘的理论研究,充实股市选股中基于主题投资选股的方法和技巧,而且可以为我国股市的投资者提供选股策略上的具体建议。关键词:股吧文本;主题挖掘;LDA模型;主题投资;逻辑回归多因子选股IAbstractWiththerapiddevelopmentoftheInternet,investorsareincreasinglyinclinedtoexpresstheirviewsonthemarketthroughvariousstocksforumontheInternet,andobtainthestockmarketi

6、nformationthattheyareconcernedabout.Thisinformationoftenplaysasubtleroleintheinvestmentdecisionsofinvestors.Therefore,inthispaper,fromtheperspectiveofbigdatatextmining,thehottopicsofstockmarketareminedfromthegubatextdatacrawledontheInternet,andthenappliedtothestockinvest

7、ment.ThefirststepoftopicminingonGubatextistochoosetheappropriatetopicminingalgorithm,thispaperadoptstheLDAmodelwhichisrarelytakenonthestockmarket.Actually,LDAisappliedwidelyandhighlightstheadvantages.InordertocontrasttheLDAmodeleffect,inthispaper,comparedwiththetradition

8、altextclusteringalgorithm,miningthehottopicsofGuba_cjpltoppoststextinFebruary2018,whatturnsoutarethatth

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。