欢迎来到天天文库
浏览记录
ID:35185422
大小:7.46 MB
页数:81页
时间:2019-03-21
《基于微博挖掘的流行趋势预测》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、矣击种成丈葦MDT巨CHNOINAUNIVERSITYOFELECTRONICSCI巨NCEALOGYOFCH硕±学位论文jMASTERTHESIS.k.?.杯論--.*07^公安论文题目基于微博挖掘的流行趋势预测学科专业计算机软件与狸论学号201321060232作者姓名李错^指营教师尚明生教授I独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,
2、除了文中特别加W标注和致谢的地方夕h论文中不包含其他人己经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我…同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表不谢意。《1作者签名:《拥日期:以/年i月>日论文使用授杖本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部口或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可将学位论文的全部或部分内容编入有关数据库进
3、行检秦,可采用影印、缩印或扫描等复制手段保存。、汇编学位论文(保密的学位论文在解密后应遵守此规定)作者签名:_支奶导师签名:1日期;ToiL年&月1日分类号密级注1UDC基于微博挖掘的流行趋势预测(题名和副题名)李锴(作者姓名)指导教师尚明生教授电子科技大学成都(姓名、职称、单位名称)申请学位级别硕士学科专业计算机软件与理论提交论文日期2016.3.28论文答辩日期2016.5.18学位授予单位和日期答辩委员会主席评阅人注1:注明《国际十进分类法UDC》的类号。PopularityPredicti
4、onBasedonMicroblogMiningAMasterThesisSubmittedtoUniversityofElectronicScienceandTechnologyofChinaMajor:ComputerSoftwareandTheoryAuthor:LiKaiSupervisor:Prof.ShangMingshengSchool:SchoolofComputerScience&Engineering摘要摘要近年来,随着Web2.0和移动互联网的飞速发展,互联网上涌现了大量的社交网络平台。微博作为其中
5、一种社交网络平台,以其高便捷性、高原创性、强交互性和强草根性的特点吸引了大量用户,成为人们生活中获取与分享信息的重要平台。研究如何及时准确地预测微博未来的流行趋势,对内容推荐、广告营销以及舆情监控等领域都具有重要意义。本文以新浪微博为研究对象,对微博流行趋势预测进行了研究,具体工作如下:1.分别分析了内容、时序和网络这三类因素对微博转发过程的影响。实验结果表明,不包含链接的微博更容易被转发;微博中提及的人数越多,其最终转发数的分布范围越小,且转发数都比较少;不同时间段发布的微博,其最终转发数差别较大;微博最终转发数与其最
6、小转发时间间隔之间存在一定的负相关性;初期曝光量较小的微博,其最终转发数的分布范围也较小,且大部分的转发数都较少;微博最终转发数与其早期转发网络的链接密度之间近似呈现负线性相关。2.分析了现有研究中常用微博特征存在的不足,然后在此基础上从微博的内容、时序和网络三个方面提取了一系列新特征,将新特征与常用特征相结合,对逻辑斯蒂回归、朴素贝叶斯、支持向量机和随机森林等分类模型进行训练并对目标微博的流行度范围进行预测。实验结果显示,在加入本文提取的新特征后,这四种模型的预测正确率分别提高了1.91%,14.80%,2.92%和6
7、.92%。3.将提取的微博特征应用到基于相似度的微博流行趋势预测方法中,给出了基于加权马氏距离的微博相似度计算方法,根据提取的微博特征选取与目标微博最相似的?条历史微博,将其加权平均流行度作为目标微博的最终流行度。在此基础上,还利用粒子群算法对选取的历史微博数量和特征权重进行了优化。实验结果显示,与仅使用常用特征时的最优结果相比,相对绝对误差降低了0.0801,正确率提高了9.00%;与未经过粒子群算法优化的方法相比,相对绝对误差降低了0.0640,正确率提高了6.00%。关键词:微博,流行趋势预测,特征融合,相似度,粒
8、子群优化IABSTRACTABSTRACTInrecentyears,withtherapiddevelopmentofWeb2.0andmobileinternet,alargenumberofsocialnetworkplatformshaveemerged.Asoneofthem,microbloghasat-
此文档下载收益归作者所有