一种基于支持向量机的垃圾微博识别方法

ID：33485901

大小：3.05 MB

页数：52页

时间：2019-02-26

资源描述：

《一种基于支持向量机的垃圾微博识别方法》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、目录摘要近年来微博逐渐成为广泛的在线社交方式，然而伴随在线社交网络而生的垃圾用户严重影响了用户的微博体验。基于特征提取的垃圾分类技术是常用的垃圾识别技术，特征的选择与提取将影响识别的精确度。国内外当前多数研究对象均为英文微博，以twitter为主。针对中文微博领域的空缺，本文采用机器学习的方法对中文微博特征进行了深入研究，并且对相关学习算法进行了详细分析及应用，设计并初步实现了一个可行的垃圾微博识别系统，主要工作如下：1)数据获取。本文采用新浪官方提供的java版本的sdk，通过调用API接口，

2、获取实验数据。其中为解决访问上限问题，本文使用了多用户授权码来获取足够的数据。2)预处理及微博特征提取。本文中的分类需要基于向量空间模型的中文文本相似度、长短链接相似度、发文时间规律等新的分类特征来提高识别准确率。在提取方法中，本文首先提取微博中的内容以及用户的相关信息，然后将其相关特征表示成向量，作为分类器的输入，利用支持向量机分类器对其进行建模分类。3)分类。对于新样本，经过对微博内容及用户信息预处理及特征提取之后，可以利用之前得到的模型对之进行分类。4)系统构建。本文从系统架构和各模块工作

3、流对系统进行描述，系统由多个模块构成，使用java实现各模块功能。该系统可以实现获取用户数据、构建模型、判断用户类型等功能。实验结果表明，该方法是一种有效的垃圾微博识别技术。实验采用新浪数据，但对中文微博具有通用性。关键词：中文微博；垃圾用户；支持向量机；特征；分类II万方数据目录AbstractRecentlymicrobloggingbecomesthemostpopularonlinesocialcommunication.However,rawgarbageusersthatcomeou

4、talongwithonlinesocialnetworkseriouslyaffectthecurrentusermicrobloggingexperience.Andit’sanregularmethodtousemachinelearningalgorithmforidentifyingspammersbasedonfeatures-extraction,andhow-to-chooseandhow-to-extractfeatureswillplayanimportantrolefort

5、heaccuracy.HowevercurrentlythemainstudyobjectisEnglishmicrobloglikeTwitter.Inviewofshortofstudyforthat,thispapermakedepthstudyusingmachineleaning.Besidesthat,thispaperalsomakeadetailedanalysisandapplicationonrelevantlearningalgorithm,anddesignandachi

6、eveasimplefeasiblegarbagerecognitionsystem.Ourworkisbelow:1)Dataacquisition.OurexperimentmainlyusejavasdkofSinamicroblogopenAPIfordataacquisition.Usingrelevantinterfaces,wegetdataforexperiment.Andweuseseveraltokenstogetmoredata.2)Datapreprocessandfea

7、turesextraction.ThispaperproposedanewmethodusingChinesetextsimilaritybasedonVSM,longandshortURLsimilarity,andpostingregulationsetaltoachievehigherprecision.Thismethodfirstlyextractedusefulstatuscontentanduserinformationfrompreviouslyobtaineddata,andt

8、hentransformittointovectorastheinputforclassifier.LastlyusingLibSVMtoolswecangettheclassifyingmodel.3)Classify.Forthenewsample,afterthepreprocessandfeatureextractionofmicroblogcontentanduserinformation,wecantakeadvantageofthemodelpreviouslygottojudge

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 52



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

一种基于支持向量机的垃圾微博识别方法

一种基于支持向量机的垃圾微博识别方法

相关文章

相关标签