欢迎来到天天文库
浏览记录
ID:35053980
大小:3.63 MB
页数:74页
时间:2019-03-17
《在线社交网络用户的特征分析与分类检测》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中图分类号:TP311密级:公开UDC:004学校代码:10094硕士学位论文(学历硕士)在线社交网络用户的特征分析与分类检测CharacteristicAnalysisandClassificationDetectionofOnlineSocialNetworkUsers研究生姓名:冯科展指导教师:解建军副教授学科专业名称:软件工程研究方向:智能信息系统论文开题日期:2015年04月16日二〇一六年三月二十一日中图分类号:TP311密级:公开UDC:004学校代码:10094硕士学位论文(学历硕士)在线社交网络用户的特征分析与分类检测Cha
2、racteristicAnalysisandClassificationDetectionofOnlineSocialNetworkUsers研究生姓名:冯科展指导教师:解建军副教授学科专业名称:软件工程研究方向:智能信息系统论文开题日期:2015年04月16日I学位论文原创性声明本人所提交的学位论文《在线狂交网络用户的特征分析与分类检测》,是在。导师的指导下,独立进行研巧工作所取得的原创性成果除文中己经注明引用的巧容外。对本,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果文的研巧做出重要贡献的个人和集体,均己在文中
3、标明。本声明的法律后果由本人承担。?(I论文作者签名):指导教师滿认(签名)巧々|真年^月处曰2^,;年r月2^曰71学位论文版权使用授权书本学位论文作者完全了解河北师范大学有权保留并向国家有关部口或机构。送交学位论文的复印件和撼盘,允许论文被查阔和借阅本人授权河北师范大学*可故将学位论文的全部或部分内容编入有关数据库进行检索,可W采用影印、缩巧或其它复制手段保存、汇编学位论文。(保密的学位论文在)年解密后适用本授权书论文作者(签名)::指导教师(签名)''月^W年r月日年3^?日{|摘
4、要近年来,随着互联网技术的不断发展,在线社交网站已逐渐成为人们生活中不可或缺的交往方式之一。不同于现实中的社交网络,信息在在线社交网络中的传播速度更快,覆盖人群更多,交互更频繁。微博是一种已经被广泛应用的信息传播载体,是人们互动交流的重要方式。随着时间的发展,微博平台产生多种不同性质的用户,包括僵尸账户、马甲账户、垃圾账户等,它们出于不同的目的,扰乱着微博秩序。作为衡量微博用户知名度及受欢迎程度的重要指标,粉丝数的真实性越发受到人们的关注。投机者受到经济利益的驱使,制造大量的机器用户,引发信任危机。机器用户作为僵尸用户的进化,它与僵尸用户具有
5、许多相似之处:同样是利用程序产生的账户,一样主要以“买卖粉丝”为存在的目的。不同的是这类进化的僵尸用户更具活性,它们的行为更加接近正常用户,以至于新浪微博不能检测出这类账户,而对其封号。如何快速有效的识别机器用户,已成为维护微博平台正常秩序亟待解决的问题。为了探究这一问题,采用机器学习的方法,以新浪微博为例,对中文微博用户特征进行了深入研究,并且对相关的分类算法进行了详细学习及分析,提出了一种最优分类模型,具体工作如下:1、数据采集。介绍了本研究数据采集的步骤,首先分别基于热门话题及“买粉”获得非机器用户集和机器用户集,又详细介绍了新浪API
6、的调用原理,最后通过本文提出的多方法组合的数据提取方案,得到用户和微博的基本信息,构成了本研究的原始数据集。2、特征分析。首先结合新浪微博的特点,获得13项原始特征。再通过分析用户关系特征、用户行为特征、微博内容特征,对原始特征进行再加工,得到9项有效特征,将其表示成向量,作为分类器的输入。最后用累积分布函数图对这些特征进行特征分析。3、最优分类模型。本文首先运用SVM算法验证了特征组合的有效性,用BP神经网络和决策树两种曾经运用在用户分类中的分类算法进行分类,其结果与SVM比较以期得到更好的分类效果。在结果不令人满意的情况下,创造性的引入随
7、机森林算法,提高了分类效果。然后,为了进一步提高分类效率,采用剔减特III征法得到最优特征组合,提出了本研究的最优分类模型SBS-RandomForest。4、实例验证。本文随机选取一个用户,采用多方法组合的数据提取方案获取其粉丝的信息,生成粉丝用户的特征集,用SBS-RandomForest分类模型对这些用户进行分类,再与人工投票结果进行比较,最终发现分类效果在接受范围内,得到了用户的机器用户粉丝的比例,再与其他方法进行比较,证明本研究提出的分类模型有效可行,对机器用户的甄别有积极的促进意义。关键词:社交网络;微博;机器用户;数据挖掘;用户
8、行为分析;机器学习IVAbstractInrecentyears,withthecontinuousdevelopmentofInternettechnology,
此文档下载收益归作者所有