基于文本内容分析的微博广告过滤模型研究-论文.pdf

基于文本内容分析的微博广告过滤模型研究-论文.pdf

ID:53763050

大小:270.72 KB

页数:4页

时间:2020-04-24

基于文本内容分析的微博广告过滤模型研究-论文.pdf_第1页
基于文本内容分析的微博广告过滤模型研究-论文.pdf_第2页
基于文本内容分析的微博广告过滤模型研究-论文.pdf_第3页
基于文本内容分析的微博广告过滤模型研究-论文.pdf_第4页
资源描述:

《基于文本内容分析的微博广告过滤模型研究-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第40卷第5期计算机工程2014年5月Vl0l_40No.5ComputerEngineeringMay2014·移动社交专题·文章编号:1000—3428(2014)05—0017-04文献标识码:A中图分类号:TP391基于文本内容分析的微博广告过滤模型研究高俊波,梅波(上海海事大学信息工程学院,上海201306)摘要:针对新浪、腾讯等微博平台出现大量广告的问题,提出一个微博广告过滤模型。通过对数据的预处理,将采集到的微博原始数据转换成干净且计算机易处理的数据。在预处理阶段,根据微博文本的特点,对停用词表进行改进,以提高查准率,然后基于支持向量机构建一个训练分类器对数据进行

2、训练,经过不断的学习和反馈,取得较好的分类效果。实验结果表明,该模型进行广告过滤时准确率超过90%,效果优于基于关键字的方法。关键词:微博;文本处理;向量空间模型;支持向量机;文本分类;广告过滤Research0nMicroblogAdvertisementFilteringModelBased0nTextContentAnalysisGAoJun-bo.MEIBo(CollegeofInformationEngineering,ShanghaiMaritimeUniversity,Shanghai201306,China)[Abstract]Inordertosolvethe

3、problemofalargenumberofadvertisementsonSina,Tencentmicroblogplatform,thispaperproposesamicroblogadvertisementfilteringmode1.Throughthedatapretreatrnent,therawdataareconvertedintocleandataandeasytobehandledbythecomputer.Inthepretreatmentstage,accordingtothecharacteristicsofthemicroblog,thispa

4、peremphaticallyimprovesthestopwordlist,anditplaysakeyroleinimprovingprecision.Thenitbuildsaclassifierbasedonsupportvectormachinefortrainingdata,andthroughcontinuouslearningandfeedback,be~erclassificationresultsareachieved.Experimentalresultsshowthatthemodelofadvertisementfilterachievesbeaere

5、ffect,whenfilteringaccuracyismorethan90%,whichisbe~erthanthemethodbasedonkeywords.[Keywords]microblog;textprocessing;vectorspacemodel;SupportVectorMachine(SVM);textclassification;advertisementfilteringDOI:1O.3969/j.issn.1000—3428.2014.05.004了信息过滤的实时性,该方法需要大量的训练样本进行训1概述练,而且随着网络的变化,需要不断加入新的训练样

6、本,随着微博在广大网民中日益火热,微博广告也悄然而以保证其准确率。生。但是微博广告的增多也使得微博的总体质量下滑,甚本文以微博作为研究对象,基于文本内容分析,对微至人们在浏览微博的时候,出现整个页面有一半以上的微博广告过滤模型进行研究,提出一个高准确率的过滤模型。博是广告的情况,而真正感兴趣的信息却没有几条,严重2微博特性影响了人们正常的浏览,该现象依靠一般的手段很难进行监管。因此,如何有效控制这些广告的传播,进行广告的作为新兴的网络社交平台,越来越多的研究人员开始过滤成为了一个亟待解决的问题。研究微博。它相对于传统的网络文本有以下特点L5J:信息过滤一般指从动态信息流中将用户

7、感兴趣的信息(1)文本短:微博文本字数不多于140字,而传统的网提取出来J。微博广告过滤是信息过滤的一种,主要指从络文本(如博客、新闻)一般都有几百字甚至几千字。因此信大量的微博中把微博广告删除,保留非广告内容供用户浏息量少,用户可以在空闲很短的时间内就能理解文本内容。览。文本内容分析的方法一般有2类:(1)基于知识的方(2)源数据易获取:现有微博平台都提供了数据接口,法【jJ,该方法主要优点是准确率高,对文本内容的理解更好,研究人员可以很方便地获取大量的数据,网络上也有研究但是该方法在处理

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。