基于在线学习的微博过滤技术-研究

基于在线学习的微博过滤技术-研究

ID:34598922

大小:2.39 MB

页数:69页

时间:2019-03-08

基于在线学习的微博过滤技术-研究_第1页
基于在线学习的微博过滤技术-研究_第2页
基于在线学习的微博过滤技术-研究_第3页
基于在线学习的微博过滤技术-研究_第4页
基于在线学习的微博过滤技术-研究_第5页
资源描述:

《基于在线学习的微博过滤技术-研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、ClassifiedIndex:U.D.C:ADissertationfortheDegreeofM.EngResearchonOnlineLearingBasedMicroblogFilteringCandidate:ZengFanHuSupervisor:AssociateProf.NingHuiAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerAppliedTechnologyDateofSubmission:Dec,2012DateofOralExamination:Mar,2013University:Ha

2、rbinEngineeringUniversity哈尔滨工程大学学位论文原创性声明本人郑重声明:本论文的所有工作,是在导师的指导下,由作者本人独立完成的。有关观点、方法、数据和文献的引用已在文中指出,并与参考文献相对应。除文中已注明引用的内容外,本论文不包含任何其他个人或集体已经公开发表的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。作者(签字):日期:年月日哈尔滨工程大学学位论文授权使用声明本人完全了解学校保护知识产权的有关规定,即研究生在校攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨工程大学有权保留并向国

3、家有关部门或机构送交论文的复印件。本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本学位论文,可以公布论文的全部内容。同时本人保证毕业后结合学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈尔滨工程大学。涉密学位论文待解密后适用本声明。本论文(□在授予学位后即可□在授予学位12个月后□解密后)由哈尔滨工程大学送交有关部门进行保存、汇编等。作者(签字):导师(签字):日期:年月日年月日基于在线学习的微博过滤技术研究摘要随着Internet的普及和信息技术的发展,微博用户人数迅速增长,微博数据呈爆炸式的增长。当用户登陆进微博之

4、后所面对的就是大量的更新微博,使用户完全被眼前多种多样的微博信息所掩盖,很难在短时间获得自己感兴趣的微博。微博过滤技术已经成为微博服务不可或缺的重要组成部分。微博过滤技术主要解决两个问题:一方面向用户提供个人感兴趣的微博及相关信息,另一方面过滤掉垃圾微博信息(如反动信息、色情、暴力和广告等)。随着时间的变化,由于用户的兴趣也在发生变化,传统的批处理学习方式不适应用户兴趣模型更新的需要,而基于在线学习进行更新的机器学习方式在一定程度上解决了这些问题。本文研究内容主要有如下几个部分:首先,研究微博过滤系统的整体框架,微博过滤系统包括微博特征提取、微博特征选择、微博特征权重计算以及用机器学习的方

5、法进行微博过滤。详细介绍了逻辑回归算法、支持向量机算法、K近邻算法和朴素贝叶斯算法等机器学习模型,并分析这几种机器学习模型的优缺点。其次,研究基于在线学习的微博过滤技术框架和微博过滤器。重点研究在线逻辑回归模型的微博过滤和在线支持向量机的微博过滤,通过微博过滤器的时间复杂度和性能两方面来分析这两种在线学习的微博过滤的优缺点,实验也验证了这两种微博过滤方法的优缺点。再次,研究改进的在线支持向量机模型的微博过滤方法。在线支持向量机过滤器性能优于在线逻辑回归模型,但是存在运行时间长的缺点,本文通过减少训练集合的大小、减少训练的次数和减少迭代的次数三种方法提升在线支持向量机过滤器的时间效率。通过实

6、验证明了虽然过滤性能略有波动,但比起效率提高的优势几乎可以忽略不计,而且当数据量越大,效率提高的优势就越明显。最后,研究全反馈和半反馈学习的微博过滤方法。用户对看过的微博会选择性的给出反馈信息,比如评论微博、转发微博和收藏微博。利用用户的这些反馈信息可以知道用户对哪些微博感兴趣,从而进行微博分类。并且通过实验验证了全反馈学习可以提高微博过滤器的过滤性能。关键词:微博过滤;特征提取;在线学习;反馈学习I基于在线学习的微博过滤技术研究AbstractWiththepopularityoftheInternetandthedevelopmentofinformationtechnology,th

7、enumberofmicroblogusersgrowsrapidly,microblogdatahasanexplosiveincrease.Whenloggingin,usersusuallyfacealotofupdatessothattheyhavedifficultytogettheirinterestingblog.Microblogfilteringtechnologyhasalreadybecameani

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。