基于adaboost微博垃圾评论识别方法

基于adaboost微博垃圾评论识别方法

ID:6073245

大小:33.50 KB

页数:11页

时间:2018-01-02

基于adaboost微博垃圾评论识别方法_第1页
基于adaboost微博垃圾评论识别方法_第2页
基于adaboost微博垃圾评论识别方法_第3页
基于adaboost微博垃圾评论识别方法_第4页
基于adaboost微博垃圾评论识别方法_第5页
资源描述:

《基于adaboost微博垃圾评论识别方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于AdaBoost微博垃圾评论识别方法  摘要:针对微博上存在的大量垃圾评论,提出一种基于AdaBoost的微博垃圾评论识别方法该方法首先提取表示微博评论的特征值向量,由8个特征值组成,然后通过AdaBoost算法在这些特征上训练出若干个比随机预测好的弱分类器,最后将得到的弱分类器加权集合成高精度的强分类器从实际的热门新浪微博中提取评论数据集进行实验,结果表明所选取的8个特征是有效的,该方法对于微博垃圾评论的识别拥有较高的识别率关键词:微博;垃圾评论识别;特征值向量;AdaBoost算法;弱分类器中图分类号:TP391文献标志码:A0引言微博,即微博客(MicroBl

2、og)的简称,是一个基于用户关系的信息分享、传播以及获取平台,以140字左右的文字更新信息,并实现即时分享随着微博的流行,一些用户出于各种目的,发表了大量的垃圾评论,耗费了宝贵的网络资源,影响读者情绪,严重干扰面向评论的数据挖掘工作[1],因此,研究如何识别这些微博垃圾评论具有重要意义11综合来看,垃圾评论[2]一般分为:1)广告评论与超链接评论;2)与评论无关的信息,例如大量随机字符、数字和标点符号等;3)重复评论,有些评论单独看起来正常,但是从整体来看,会发现相同或相似的评论在同一微博或者不同微博中均大量出现;4)与微博内容不相关的其他评论,比如对其他微博进行的评论

3、等国内外学者提出了一系列方法来识别论坛、博客垃圾评论,主要集中于评论与文章的相关度研究上何海江等[3]提出基于向量空间相关模型的垃圾评论识别方法,根据模型计算的相关度来识别博客垃圾评论;何海江等[4]还提出用Logistic回归方法根据相关度向量空间模型来识别博客、论坛中的垃圾评论;Kolari等[5]提出了基于支持向量机的识别垃圾评论的方法;Ntoulas等[6]提出了基于决策树的识别方法;Bhattarai等[7]研究了博客垃圾评论的垃圾特征,从文章—评论相似度、词重复度、锚文本数量、名词集中度、停用词比例、句子个数和垃圾相似度等方面对评论进行了垃圾特征统计,并利用

4、Cotraining思想通过从已给的数据中主动学习的方法来解决识别不好或是无法识别的评论的问题;邓冰娜等[8]采用改进的相似度公式对博客评论进行K轮识别11现阶段缺乏对微博垃圾评论进行识别的研究,与论坛、博客相比,微博内容短小,可提供的主题信息不多,评论数量动辄上万对于某些第1)类垃圾评论,其前面部分的内容是对微博的正常评论,而后面部分则是广告信息;对于某些第3)类垃圾评论,单独看起来是和微博内容相关的,但是从整体来看,相同或相似的评论在同一微博或者不同的微博中均大量出现,此类评论的目的不是对微博进行评论,而是广而告之如果仅仅考虑评论和微博的相关度,这两类垃圾评论很容易

5、被误判为正常评论因此,本文针对上述问题,提出表示微博评论的特征值向量,在此基础上采用了集成学习算法AdaBoost,通过集成弱分类器构建高精度的强分类器,在微博垃圾评论的识别上取得了较好的效果1AdaBoost算法AdaBoost[9]是一种迭代算法,其基本思想是找到若干个分类精度比随机预测略高的弱分类器,再将这些弱分类器集合起来构建成一个高精度的强分类器实验证明,AdaBoost算法能大幅提高弱分类器的分类精度[10-11]AdaBoost算法是通过改变数据分布来实现的,它根据每次训练集中每个样本的分类是否正确,以及上一个弱分类器的分类错误率,来改变每个样本的权值被正

6、确分类的样本权值减小,被错误分类的样本权值增加,这样分错的样本就被凸显出来,以便下一个弱分类器将注意力放在这些“难分”的样本上将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的弱分类器线性加权集合起来,作为最终的强分类器,弱分类器的错误率越低,则其权重越大本文采用的AdaBoost算法步骤如下:112基于AdaBoost的微博垃圾评论识别方法2.1识别流程2.2数据预处理本文所做的数据预处理分为两个方面,一方面采用中国科学院计算技术研究所分词系统ICTCLAS对微博和评论进行分词,以便于下一步特征提取时计算评论的特征值;另一方面剔除全是数字、字母或者标点

7、符号的第2)类垃圾评论,此类垃圾评论不予考虑2.3特征提取特征提取是微博垃圾评论识别流程中的重要步骤,识别效果很大程度上取决于所选特征是否能够较好地区分正常评论与垃圾评论本文根据微博以及微博评论的特点,引入以下8个特征来表示微博评论并提取其特征值:1)相似度相似度是指两对比物具有的共性大小,是常见的用于度量评论是否垃圾评论的特征指标,相似度越小,就越有可能是垃圾评论本文采用余弦相似度和字符串相似度[12]来度量评论与微博的相似性余弦相似度公式如式(6)所示:然而,采用词语的余弦相似度来度量相似度有一个问题,即分词后可能会破坏微博与评论的相

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。