资源描述:
《基于互信息的微博新词发现算法》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于互信息的微博新词发现算法【摘要】微博是一种近些年来兴起的互联网媒体,每时每刻都会产生各种新生的网络词汇。对于新词发现算法中表现出的缺点,文中提出了一种基于互信息的微博新词发现算法,将互信息合并多字词的方式应用到微博新词的发现中,并且通过实验验证了本文算法对于微博新词发现的有效性。【关键词】微博;新词发现;互信息[Abstract]Micro-blogisanewkindofsocialnetwork,avarietyofnascentnetworkvocabularyisproducedatalltimes.Inordertomakeupfo
2、rthesedeficienciesinthepreviousnewworddetectionalgorithms,thispaperpresentsanewworddetectionalgorithminmicro-blogbasedonmutualinformation.Inthisalgorithm,themutualinformationwithmultiplewordisappliedtothemicro-blognewworddetection.Theexperimentsshowthatthisalgorithmismoreeffe
3、ctiveformicro-blognewworddetection.【Keywords]Micro-blog;Newworddetection;MutualInformation0引言中文新词的识别在数据挖掘和情感分析方面是一个令许多人关注的领域,其对于帮助我们扩展现有的知识领域,提高中文信息的可靠性方面有着非常重要的作用。近些年来,微博是较为积极的互联网媒体,经常会产生一些全新的词汇,其不只有我们一般意义上的新词,也包括了各种经过音译等方式传入的外来词汇。所以,微博新词发现对于文本处理、倾向性分析等领域具有重要意义。本文对于微博上处理多个字词
4、时存在的识别率过低的缺点,算法结合微博新词自身的特性,使用了一种基于互信息的新词发现算法,首先将N-Gmm用于语料的预处理,然后利用互信息合并候选新词,进而更好地发现和识别那些全新的微博词汇。1相关工作近年来,随着新词发现技术的不断深入,人们对于新词的研究主要集中在如下2个方面:基于语言学规则匹配的方法、基于纯统计学的方法。文献[1]通过对词语组成的分析,创建出相异的规则匹配库来发掘新词。Chen等[2]人通过把现代汉语的平均语料库作为训练数据,自动的来产生新词的匹配规则。秦浩伟等[3]人提出的方法中,其将语素生产率(MP)应用到新词的发掘中,在
5、提高新词识别的效果上有了很大的改善。现代社会中,人们在微博中使用的词汇有着非常大的随意性,时时刻刻都会出现一些不同于传统词汇构成的新型词汇,这些新词的组成无规律可循,而对于目前的新词发现规则来说,并不适用于这些网络新词。因为当前对于新词的发现研究一般都是使用的比较传统的文本分析方式,而对于这种新兴的网络词汇来说,这些现有的方式并不适用,对于微博词汇领域的特殊性,传统的方法也没有进行考虑,进而对于微博新词的发现造成了不少的困难。2基于互信息的微博新词法发现2.1互信息互信息(MutualInformation,MI)是一种统计信息的方式,其主要是对
6、两个随机变量相互之间的关联程度的评价。在文本语言的分析处理上,互信息指的就是用来分析在两个语素之中相互间存在的关联性的大小。其公式表述如下:公式(1)中,p(x)代表的是变量x的概率,p(y)代表的为变量y的概率,p(x,y)为两个变量的共现概率。当两个词汇的I(x,y)〉0,那么说明二者有着较强的关联性,I(X,y)越大,关联性也就越强;当I(x,y)=0时,那么说明二者之间的共现是偶然的;而当I(x,y)(6)计算互信息。计算gram之间的互信息,判定gram之间的关联性,从而发现新词。在M(wi_l,wi,m)中,提取出迗到下列要求的内容:
7、(8)在矩阵N里,提取出跟gram分布次序一样的gram对,并将其合并后加入到矩阵M中,如下:N(wi-1,wi,x,n)-*M(wi-lwi,x,n),N(x,wi-1,wi,n)-*M(x,wi-1,wi,n)o(9)移除在矩阵M中的该gram对。(10)重复(6)、(7)、(8)、(9)这几个步骤,即通过互信息来合并预选新词对,同时对达到要求的gram完成(8)-(10)的处理,直至选不出符合要求的gram为止,进而完成候选新词表。(11)再处理。处理后的候选新词表中含有一些我们常用的词汇,这些词汇只是我们日常使用中常出现的,并不属于微博新
8、词,针对这个情况,我们使用词典对其进行过滤,移除不符合要求的新词。3新词发现实验结果与分析文中使用第六届中文倾向性评测会议任务三的标准微