欢迎来到天天文库
浏览记录
ID:10327602
大小:50.50 KB
页数:3页
时间:2018-07-06
《基于支持向量机的消极性文本识别研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于支持向量机的消极性文本识别研究摘要:随着移动互联网技术地不断发展,网民针对各种话题发出的博文、评论呈爆炸式增长。该文针对各大网站产生的海量新闻、微博文及其评论信息,将网络中海量的新闻、微博文及其评论转变为文本信息进行分析,识别出其中的消极性信息,对于现代商业企业、政府舆情监控具有较高应用价值。中国8/vie 关键词:支持向量机;消极性短文本;识别 中图分类号:TP393文献标识码:A:1009-3044(2017)06-0209-03 随着互联网技术、特别是移动互联网的迅速发展,网络已经成为了人们
2、获取信息,发表意见的新媒介。各类网络论坛、新闻点评、微博等渐渐成为了网络舆论重要力量,无处不在的网络,让网民们可以极为容易地通过网络发表自己的意见和观点,各种博文、评论呈爆炸式增长。而在当前的社会意识形态下,因不少网民热衷于对消极性的,甚至带有攻击性、贬低性色彩的帖子进行围观、转发和评论,导致类似负面情绪主导舆论走势,产生了消极甚至恶劣的影响,所以对负面评论较正面或客观性评论的识别在舆情导向中就显得更为重要。 在以往的研究中,人们主要针对网民的情感倾向进行分类研究,也就是褒贬性进行了计算和分析。而在实际的
3、生活、工作、学习中,网民对某一事物进行围观、转发、探讨以及寻求建议,往往更加注意到的是对该事物的消极性评价上,这种特点更加体现在购物和突发舆情事件上面。本文在不同的语言模型下提取文本特征,利用支持向量机分类方式,对消极性文本情感识别进行了研究和对比,取得了一定的效果。 1相关工作研究 情感分析,也称为意见挖掘,是指通过计算技术对文本的主客观性、观点、情绪、极性的挖掘和分析,对说话者的情感倾向做出分类判断。随着移动互联网的发展,人们越来越容易,也越来越趋于在网络上发表自己的观点和意见,同时,也越来越受到网
4、络上他人的观点和意见的影响,这就决定了情感分析研究的重要现实意义。当前,情感分析在网络舆情监测、企业营销策略、突发事件检测、经济分析预测等方面均有着较好应用。在中文情感分析领域,涉及文本预处理、语言模型、文本分类等方面工作。 1.1文本预处理 文本预处理是为了提取文本中对于情感文本分类有价值的信息因素。首先,中文不像英文,词与词之间有用空格符号进行分隔,而是一个句子与另一个的句子之间才有标点符号进行间隔。这样就需要将本是一个个句子的文本处理成为一个个词或者词组,因此,在各项处理前,首先要对文本进行分词。
5、其次,文本中经常性地含有大量人名、地名、时间、助动词等词语,这些词语不仅与情感分析无关,还会提高情感分析的维度,致使分类的复杂度提高,而且还会严重影响分类的效果。文献[1]专门对适应不同领域的中文分词方法进行了研究,对不同专业领域分词起了较好领路作用。 目前,分词技术有基于词典匹配、统计分析和语义分析三类。基于词典匹配是使用已有或者自建的情感词典,采取正/逆向最大匹配方式与词典中的词条进行逐条匹配,匹配成功就认为是一个词,但是,当文本中有新的情感词语出现时不能很好识别。统计分析的方法是基于统计相邻汉字出现
6、的次数,次数越多,说明它们是词的可能性就更大,这就有效地避免了基于词典匹配带来的弊端。常用的分词系统中科院的ICTCLAS分词系统,清华大学的SEGATG中文分词系统,复旦大学的中文分词系统,哈尔滨工业大学的统计分词系统,微软公司汉语句法分析器中的自动分词系统等。 1.2语言模型 词袋模型(Bagofbedding)是自然语言和文本分析中最为常见的两种模型。词袋模型是假定一个文本,不顾词的顺序和语法结构,仅仅将其视为是词的集合,将每一个词都看成是独立的出现,而不是依赖于其他词是否出现。这种假设将文本有效
7、地进行了简化,便于模型化处理。词向量模型则是文本中的词语处理�橄蛄浚�然后将所有向量置于一起形成一个向量空间,每一个向量视为空间中的一个点,这时,在空间中加上“距离”这个概念,这样就可以计算向量间的相似度来衡量文本之间的相似度。下面,对本文使用到的词袋模型中的词频TF(TermFrequency)、词频―逆向文档频率TF―IDF(InverseDocumentFrequency)和词向量模型中的doc2vec特征提取办法进行阐述。 1.2.1词频TF 词频TF是一种常见的、但比较简单的权重计算方法,其思
8、想是统计词语在文本中出现的频数,如果某个词或短语在一篇文章中出现的频数高,TF越大,而在其他文章中却出现不多,则认为该词语具有很好的类别区分能力。 对于某一文档dj来说,假设文档中某一特定词语wi共出现了n次,则该词语对于文档区分的重要性为: ni,j指wi在文档dj出现的次数,则表示文档中所有词出现次数之和。 逆向文档频率(IDF)的思想是统计出现词语出现在文本中的频率,如果包含某词语的文档越少,IDF越
此文档下载收益归作者所有