欢迎来到天天文库
浏览记录
ID:35062060
大小:2.01 MB
页数:67页
时间:2019-03-17
《基于博文质量评估的微博过滤研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中文图书分类号:TP391密级:公开UDC:004学校代码:10005硕士学位论文MASTERALDISSERTATION论文题目:基于博文质量评估的微博过滤研究论文作者:刘陆阳学科:计算机科学与技术指导教师:杨震副教授论文提交日期:2016年6月UDC:004学校代码:10005中文图书分类号:TP391学号:S201307093密级:公开北京工业大学工学硕士学位论文题目:基于博文质量评估的微博过滤研究英文题目:QualityModelingBasedMicrobloggingFiltering论文作者:刘陆阳学科专业:计算机科学与技术研究方向:信息安全申请学位:工学硕士指导教师:杨震副
2、教授所在单位:计算机学院答辩日期:2016年6月授予学位单位:北京工业大学独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:刘陆阳日期:2016年6月24日关于论文使用授权的说明本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内
3、容,可以采用影印、缩印或其他复制手段保存论文。(保密的论文在解密后应遵守此规定)签名:刘陆阳日期:2016年6月24日导师签名:杨震日期:2016年6月24日摘要摘要目前社交网络媒体已逐渐取代传统新闻媒体,成为人们获取信息、交流观点、发表意见的主要平台。但是随着微博参与者数量的爆发式增长,用户面临“信息过载,知识缺乏”的窘境。微博过滤技术能够帮助用户过滤无关垃圾信息,并根据用户兴趣挖掘相关内容,因而得到研究者的广泛关注。已有的研究表明,将微博过滤建模成简单信息检索问题无助于提高微博过滤性能。这主要是因为微博作为典型的短文本,微博过滤面临极端的词稀疏问题,导致传统检索模型无法有效估计参数而失
4、效。有鉴于此,本文通过引入了微博博文质量模型,将微博过滤问题建模成根据博文质量,对检索出的相关博文进行深化排序的问题,提出了一种新颖的微博信息过滤处理框架。本文的主要贡献包括:首先,本文给出了基于质量模型的微博过滤系统设计。在对研究涉及的相关知识进行综述的基础上,将微博过滤任务建模成依据博文质量进行的博文排序问题,提出了一种新颖的微博信息过滤处理框架,并详细介绍了微博过滤系统的结构设计、关键模块和功能描述。其次,本文研究了基于同质性约束的微博内容最优低秩表达方法。考虑到微博内容表达的不规范性,微博内容特征往往很高但特征极其稀疏,给微博的分析和研究带来了很大的不便。基于上述考虑,对微博“内容
5、—文档”矩阵进行因子化分解,用分解得到的低秩矩阵和微博检索特征矩阵综合得到了微博内容特征表达,并通过引入同质性系数约束进一步优化表达矩阵。再次,本文研究了基于稀疏特征约束的博文质量评估模型方法。我们根据微博内容最优低秩表达,建立了微博博文质量评估模型,根据博文质量实现相关博文推荐和无关博文过滤。同时为了减少微博质量评估模型的复杂度、降低回归模型的分类风险,使用基于稀疏特征约束的广义线性回归模型,进一步降低微博博文质量评估模型函数的特征变量依赖性。最后,本文在公开数据集上验证了算法的有效性,在TRECMicroblogTrack2015实验数据集上的实验结果表明,和现有的微博过滤方法相比,本
6、文提出的微博质量模型可以对微博过滤系统的排序性能进行优化,平均NDCG值有了一定提高。关键词:微博过滤;模型;分解;性约束;约束IAbstractAbstractMicrobloggingarisingfromsocializedinteraction,includingtheTwitter,Facebook,LinkedIn,andWeibo,aregraduallypredominantinnetworkinformationstreams.Socialmediahasbeenwidelyusedforpeopletoact,react,andsharesomethingoreve
7、rythinggoingonthescene.However,withtherapidgrowthofthemicroblogparticipants,usersfacingadilemmaof“shortageofknowledgeandtheoverloadoftheinformation”.Microbloggingfilteringtechniquescanhelpuserstofilterouttheirrel
此文档下载收益归作者所有