财经新闻话题检测研究

财经新闻话题检测研究

ID:42012286

大小:40.50 KB

页数:3页

时间:2019-09-05

财经新闻话题检测研究_第1页
财经新闻话题检测研究_第2页
财经新闻话题检测研究_第3页
资源描述:

《财经新闻话题检测研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、财经新闻话题检测研究1引言互联网媒体的高速发展极大地扩大了财经类新闻的受众面,并因此使得证券市场与财经类新闻的关系变得越来越紧密。Mitchell与Mulherin研究发现[1],股票市场的股票收益及交易量和道琼斯每天发布的公告数量直接相关。Fang与Peress的研究表明[2]受到高度报道的股票收益率比那些很少被媒体关注的上市公司的收益率低。由此可知,股票的走势较易受到财经类新闻的影响。因此,为了让投资者在短期内及时获取投资热点,本文提出了基于财经新闻的话题检测研究。传统的话题检测[3]研究主要

2、有以下几个方向。首先是基于关键词的话题检测,即使用TF-IDF算法或基于TF-TDF算法的改进算法,文献[4]提岀基于VSM改进的DF算法和TF-IDF算法计算文本相似度;文献[5]在传统的TF-IDF基础上提出TF-IDF-KE算法来解决突发式热点话题在聚类时特征不明显的问题。但是传统的基于关键词的话题检测存在二义性问题,为了解决这个问题,人们提出了语义模型[6][7]。最常见的语义模型是LDA模型[8],文献[9]提出使用LDA话题模型检测科技文献话题,并计算冷门或热门话题的影响力,提出趋势分

3、析。文献[10]提出LDA-K-Means算法实现话题检测,且在网络食品安全问题屮验证话题检测的结果;最后是融合关键词和语义模型所做的改进,文献[11]提出计算融合TF-IDF关键词和LDA主题模型的相似度并基于k-means算法聚类获得话题簇;文献[12]提出多特征融合TF-IDF关键词,LDA语义模型以及新闻命名实体的相似度并基于Single-Pass算法聚类获取话题簇。上述研究均针对普通新闻,鉴于财经新闻较普通新闻的实时性要求高,且有极强的领域属性。而冃前各大金融网站,例如新浪财经,和讯网,

4、东方财富网等,大多针对个股新闻进行检测并分类,基于话题检测实现财经新闻分类的网站却较少。因此,短期内如何从海量非结构化财经新闻中有效地检测热门投资话题,成为木文硏究的要点。文章考虑结合财经新闻的特点,从多个角度提取新闻特征,构建财经新闻话题检测模型。另外,针对新闻报道具有突发性和集屮性的特点,为了避免将不同生命周期的新闻聚为一类,通常的做法是使用时间窗来切分新闻流。例如,文献[13]首先对新闻按时间窗划分,对同一个时间窗内的文档使用HAC算法聚类生成候选话题集合,提岀SinglePass-KNN算

5、法进行新话题的聚类;文献[14]提出在每个时间窗口内根据新闻的特点选取岀最有可能谈论新闻事件的微博客文本,使用混合聚类算法聚类获得新闻话题;文献[15]以每个时间窗口上话题的变化情况研究话题内容的演化,并使用1LDA模型根据文本到达时间增量建模。针对以上研究,文章根据财经新闻的特点,基于时间窗切分新闻流,进而提出多特征融合的财经新闻话题检测模型MFFTDM(MultiFeatureFinancialNewsTopicDetectionModel)。财经类新闻的报道成为影响股票走势的重要因素Z-,为

6、了让投资者在短期内及时获取投资热点,本文提出并构建多特征融合的财经新闻话题检测模型,该模型有以下儿个特点:(1)为了防止聚类时,将不同生命周期的财经新闻聚为一类,构建切分新闻流的时间窗。(2)根据财经新闻实时性要求高,领域属性强的特点,从多个不同的角度提取文本特征并构建特征向量模型。(3)鉴于传统凝聚层次聚类算法的时间复杂度高,聚类时耗时长的问题,提出最近邻-凝聚层次聚类算法。3.1基于时间窗切分的新闻流对于财经新闻来说,通常在一个事件发生之后的一到两天内,各大媒体会争相报道该新闻事件,相关的新闻

7、报道将呈爆发式增长。但是,随着时间的推移,关于该事件的报道会逐渐减少并最后消失。也就是对某个热门股票话题来说,它是有生命周期的。生命周期的开始是第一篇被判定为该话题的新闻,期间会有相关事件的报道,但是最终将以某个新闻事件的发生来宣告该话题的结束。文献[16]提出使用时间老化理论为新闻事件建立生命周期模型,该模型包括新闻话题的出牛,成长,衰退以及死亡。文献[17]提出热点话题的牛命周期将经过发酵,活跃和消亡的过程,并统计了2017年热点话题的发酵期,活跃期。3.2多特征融合文本相似度计算对于每篇财经

8、新闻文本,本文将建立3.2.1-3.2.4节中的四种模型并分别计算新闻文本间的相似度。其中,常见的相似度计算方式有:欧氏距离,余弦距离,曼哈顿距离等。在文木聚类中,使用余弦公式来衡量文木相似度较为常见,因此本文计算文本间的余弦值。4话题检测中的文本聚类文本聚类算法的选择对于话题簇的生成至关重要。常见的文本聚类算法[19],例如k-means算法在聚类前需指定K的值,即话题簇的数目。由于本文中话题簇的数目未知,因此,文章选择凝聚层次聚类算法HAC(HierarchicalAgglom

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。