欢迎来到天天文库
浏览记录
ID:35083608
大小:4.30 MB
页数:60页
时间:2019-03-17
《新浪微博用户行为分析及预测》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、'-'."■?'巧-■?i:..:"^...V/,—.A■'、*....,,、..,*、'Ifs^",'JII.;tI^'■知■."^^一;::-rr.::..A‘■.''‘''一、’、:■:...:'--.''..,'....v,.W'巧*二山t,4‘x—v’‘’?.密级:无;分类号;知;护\'I.."-■乂-,:.8*';1011.?>:.单位代码*UDC.:.,.巧與熱诚'''"識
2、'.'"-'^''■':、?:'/一-;V.:m.:辱:X(是IVSSJ):^:^、、‘.始.'-'.萃..v挪.;.>:;;;寒礙皆:詞耀嘴山西师范大学猿热‘?'’护'、.J.V:x,糸扣..;繁墓诚研究生硕±学位论文舊麵"''■■"?::人n:''■‘,’":,-■:一、V."J.hv\《巧把.;心'■尽鮮"■V.—,NX-*i.一■.”\、.八乂'--.命'.、Vt'I‘、‘.新浪微博用户行为分析及预测t奸;再
3、巧占奈苗沁;^:'''.‘..".—..V娘神盤至批飾將'.’或‘>./'..'祭‘献-如站心一,嫂..Kr,,、,.:<'?■适:-.、^茂..公蜂指导教师结名邢进生教授山西师范大学数学与计其机科学学院"争?蕊f宗、一皆,:方V巧骚C/申请学位级别理学硕壬^专业名称计算机科学与整圣__.;:.污也L;,-■?If'I.-VJ,I''^r ̄-''::w,,.鸟:、.的;’-巧.,一-V'.U。,论文提交日期20化年3月20日论文答辩日期2016年S月
4、24曰't-'-.?一;^:一:*-'一、‘'.荷'貧'^?知一>户如'一,.1'J.、、\??-"'.’;;吟堂化聘予单你山西师范大学学位授予日期2016年月日-.、'V*‘.5-于’严-,r山''立^.‘‘,,‘:—!ii矿‘.^知答豁零员会主席安秋生教授己--心/、...却社‘:一.'苗去八"、‘评阅人徐欠化教授智敏教授"迸'可:..并一"‘|'.’、.—’;V...;vK;V為。;.,玲:丫谋;;*^胆-V,為巧、:沪
5、…i记?,:、、了瓜.;‘,.巧;-;i歡,;作.:巧'線:^带^。每^苗.繁貧’’..'.,扣考茄'‘.''>門节A护V.結:户;:.矿賊‘,'-;‘/...').-V-.i,——■.V.,L..?*.摘要论文题目:新浪微博用户行为分析及预测专业:计算机科学与技术硕士生:解军签名:__________指导教师:邢进生教授签名:__________摘要在线社交网络已成为信息时代人们沟通和交流的一个主要平台,微博在社交网络中占有重要的地位,已经成为社交网络中重要的媒体之一。
6、新浪微博作为国内最大微博平台,对新浪微博用户在线行为分析及预测,直接的支撑着社会舆论导向,企业微博营销活动,因此微博用户行为的研究为企业和政府部门的决策提供了重要参考。为此主要完成了以下工作:首先,分析了中文文本特征词提取的理论和方法,包括切词问题、主干词的提取、权值的设置、特征词的理论和DF、MI、CHI、TFIDF、信息增益方法;研究了文本分类算法模型和不足,包括KNN算法、类中心向量算法、贝叶斯算法、逻辑回归算法。其次,从微博训练集整体角度进行了统计分析,得到没有用户行为的微博与具有用户行为的微博比例因子,具有完整用户行为的微
7、博数与具有用户行为的微博数比例因子;用户行为与微博数量关系符合幂律分布;同一个用户行为符合“点赞>评价>转发”的规律;用户转发、评价及点赞行为都具有较高的聚类系数和较小的平均距离,每个用户的每种用户行为都存在一个中心点。依据微博的特点使用模糊集与信息增益算法相结合抽取不同用户行为的特征词;根据每个用户创建微博的时间进行了聚类分析,得到了每个用户撰写微博的时间与微博用户行为之间的关系。最后,把类中心向量算法与模糊集相结合,形成了新的类中心向量算法;针对传统的KNN算法K值的不易确定性,使用类别集合代替传统的求距离的方法对KNN进行了改
8、进,并与新类中心向量算法相结合,实现了用户行为的预测。【关键词】KNN微博TFIDF信息增益【论文类型】应用研究IAbstractTitle:SinaMicroblogUserBehaviorAnalysisandPrediction
此文档下载收益归作者所有