欢迎来到天天文库
浏览记录
ID:5187569
大小:46.50 KB
页数:20页
时间:2017-12-05
《基于语义规则web金融文本情感研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于语义规则Web金融文本情感研究 摘要:为有效提高非结构化Web金融文本情感倾向和强度分析的精度,提出了基于语义规则的Web金融文本情感分析算法(SAFT-SR)。该算法基于Apriori算法对金融文本进行属性抽取,构建金融情感词典和语义规则识别情感单元及强度,进而得到文本的情感倾向和强度。实验结果表明,与Ku提出的算法相比,在情感倾向分类方面,算法SAFT-SR情感分类性能良好,提高了分类器的F值、查全率和查准率;在情感强度计算方面,算法SAFT-SR的误差更小,更接近真实评分,证明了SAFT-SR是一种有效的金融文本情感分析算法。关键词:Web金融文本;情感词典;语义
2、规则;情感分析;情感倾向中图分类号:TP391文献标志码:ASentimentanalysisonWebfinancialtextbasedonsemanticrulesAbstract:InordertoeffectivelyimprovetheaccuracyofsentimentorientationandintensityanalysisofunstructuredWebfinancialtext,asentiment20analyticalalgorithmforWebfinancialtextbasedonsemanticrule(SAFT-SR)waspropo
3、sed.ThealgorithmextractedfeaturesoffinancialtextbasedonApriori,constructedfinancialsentimentlexiconandsemanticrulestorecognizesentimentunitandintensity,andfiguredoutthesentimentorientationandintensityoftext.TheexperimentalresultsdemonstratethatSAFT-SRisapromisingalgorithmforsentimentanalysi
4、sonfinancialtext.ComparedwithKusalgorithm,insentimentorientationclassification,SAFT-SRhasbetterclassificationperformanceandincreasesF-measure,recallandprecision;insentimentintensityanalysis,SAFT-SRreduceserrorandisclosertoexpertmark.Keywords:Webfinancialtext;sentimentlexicon;semanticrule;se
5、ntimentanalysis;sentimentorientation0引言20截至2012年末,我国已拥有超过2494家A股上市公司,然而随着全球金融市场的动荡,股票市场管理与优化及企业财务危机预测成为研究的热点。目前,大部分企业财务危机预测研究是基于财务报表数据来建立金融危机预测模型,但财务报表有以下缺点[1]:1)报表人为操作性强;2)基于静态数据,忽略了企业财务比率的时间序列特点;3)实效性较差;4)未考虑财务比率的历史累积值对现时的影响。因此,单纯利用财务报表进行判断,势必会造成预测结果的偏差。财务报表和金融数据的局限性,使得人们寻求从其他角度着手于股票市场管理和
6、企业财务危机的预测和研究。随着Internet的高速发展,Web信息量得到了前所未有的增长,公众在互联网上发布自己对企业的看法已司空见惯,普通投资者的情感倾向是联系投资者与股票市场、上市公司的桥梁,Web新闻或论坛对上市企业的评论可以直接反映出公众对该企业的看法。Web金融信息所具有的实时性、全面性和覆盖性等特点,不仅为财务危机预测研究提供了新的机遇,也为投资者情感分析提供了廉价且丰富的数据来源。由于Web金融信息是非结构化的文本信息,并具有领域知识,因此,如何对其进行深入挖掘,发现其中的情感倾向和强度,对文本挖掘提出了新的挑战。本文基于语义规则,对Web金融文本进行情感分析
7、,挖掘投资者的情感倾向和强度,并对投资者情感强度变化与股票市场之间的联动关系展开分析,可以为企业财务危机预测和股票市场管理与优化提供新的思路与选择。1相关工作20文本情感分析就是对带有情感色彩的词语、句子以及文本进行分析、处理、归纳和处置的过程[2]。文本情感分析可分为基于机器学习的分类方法和基于语义分析的方法两大类。运用机器学习的方法进行文本分类,先人工标注一些文本的情感倾向,作为训练语料,然后通过训练得到一个分类器,最后将测试语料用已训练好的分类器进行分类测试,得到文本的情感倾向。Pang等[3]运
此文档下载收益归作者所有