欢迎来到天天文库
浏览记录
ID:35061924
大小:2.19 MB
页数:62页
时间:2019-03-17
《基于协同训练的社交网络垃圾用户检测的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文基于协同训练的社交网络垃圾用户检测的研究SocialSpammerDetectionBasedonCo-training作者姓名:白海军学科、专业:软件工程学号:21317001指导教师:张宪超完成日期:2016年9月20日大连理工大学DalianUniversityofTechnology摘要近年来,随着web2.0技术的不断发展与成熟,社交网络作为人类社会的一种交流工具,给人们之间的沟通和交流带来了极大的便利。然而,社交网络中的大量垃圾信息和垃圾用户严重影响了人们之间的交流。这些垃圾信息和垃圾用户不但消耗大量的网络资源,而且有可能使合法用户的权益
2、受到损害。现有的社交网络垃圾信息和垃圾用户检测技术通常以大量的标记数据为基础,采用监督学习的策略。然而,人工标记数据是一件复杂易出错的工作,且需要消耗大量的人力和物力。因此,有必要研究如何使用较少的标记数据来检测垃圾信息和垃圾用户。为了解决上述问题,本文提出一种半监督分类框架来检测社交网络中的垃圾用户。此框架将协同训练与聚类算法相结合,首先通过K中心点聚类算法来识别和标记一些信息量大并且有代表性的样本作为半监督学习的初始种子集,然后利用用户的内容特征和行为特征进行协同训练。协同训练分类框架不断预测用户的标记,将置信度较高且满足一定阈值的用户作为新的训练集,重新训
3、练学习模型。通过不断地迭代最终得到一个优化的分类模型。本文首先介绍了社交网络垃圾的危害及检测社交网络垃圾用户的必要性,接着对社交网络中垃圾作弊检测技术与相关理论进行了概述,然后详细阐述了本文所提出的基于协同训练的半监督分类检测框架的算法与实现,最后在真实的Twitter数据集上进行了实验和分析,结果验证了本文所提出框架的有效性与正确性。实验结果表明本文提出的检测框架在标记样本较少的情况下,依然能训练出正确的模型并且实验效果显著。关键词:社交网络垃圾;半监督学习;协同训练;K中心点聚类算法-I-SocialSpammerDetectionBasedonCo-tra
4、iningAbstractInrecentyears,withthedevelopmentandmaturityofweb2.0technology,asacommunicationtoolofhumansocietyforcommunicatingandexchanging,thesocialnetworkhasbroughtgreatconvenienceforpeople.However,alargenumberofsocialspamsandspammersseriouslyaffectthecommunicatingbetweenpeople.They
5、willnotonlyconsumealargeamountofnetworkresources,butalsohavethepotentialdamagetotherightsoflegitimateusers.Existingspamandspammerdetectiontechniquesareusuallybasedonalargenumberoflabeleddata,usingsupervisedlearningstrategy.However,manuallylabelingdatasetisacomplexanderror-pronework,b
6、utalsoconsumesalotofmanpowerandmaterialresources.Therefore,itisnecessarytostudyhowtouselesslabeleddatatodetectspamsandspammers.Inordertosolvetheaboveproblems,thispaperproposesasemisupervisedclassificationframeworktodetectspammersinsocialnetworks.Thisframeworkcoordinatesco-trainingand
7、clusteringalgorithm.Firstofall,weidentifyandlabelsomeinformativeandrepresentativesamplesbyk-medoidsclusteringalgorithmastheinitialseedsetforsemi-supervisedlearning,andthenweusethecontentandbehaviorcharacteristicsofusersforco-training.Thisclassificationframeworkcontinuouslypredictsuse
8、rs’marks,and
此文档下载收益归作者所有