欢迎来到天天文库
浏览记录
ID:32966601
大小:2.66 MB
页数:73页
时间:2019-02-18
《基于微博的知识词条推荐算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文基于微博的知识词条推荐算法研究RESEARCHONKNOWLEDGEENTRYRECOMMENDATIONMETHODSBASEDONMICROBLOG汤斌哈尔滨工业大学2014年12月国内图书分类号:TP391.3学校代码:10213国际图书分类号:621.3密级:公开工学硕士学位论文基于微博的知识词条推荐算法研究硕士研究生:汤斌导师:陈清财教授申请学位:工学硕士学科:计算机科学与技术所在单位:深圳研究生院答辩日期:2014年12月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.1U.D.C:621.3Diss
2、ertationfortheMasterDegreeinEngineeringRESEARCHONKNOWLEDGEENTRYRECOMMENDATIONMETHODSBASEDONMICROBLOGCandidate:BinTangSupervisor:Prof.QingcaiChenAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerScienceandTechnologyAffiliation:ShenzhenGraduateSchoolDateofDefense:Dec
3、ember,2014Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要随着互联网的发展,人们的社交生活及信息获取方式发生了巨大的变化。微博的兴起让人们能够快速获取海量信息,如何从海量信息中自动发现有价值的内容并推荐给用户具有重要意义。利用知识发现的相关方法来挖掘海量数据中的有用信息,利用用户的社交关系解决传统推荐算法所面临的数据稀疏问题是当前研究的热点。基于微博的知识词条发现及推荐是在大数据和个性化时代的大背景下提出的。从海量微博数据中抽取知识词条,并
4、将其推荐给感兴趣的微博用户是本课题研究的重点。在语料库构建任务上,知识词条发现语料库大多基于长文本构建,尚无利用微博构建的标准语料库。基于社交网络的推荐语料库,主要推荐音乐、好友等内容,没有推荐微博知识词条相关的公开语料库。针对语料库存在的问题,本文利用微博爬虫从新浪微博中获取大量微博数据及微博用户社交关系数据,并构造了微博知识词条发现语料库及微博知识词条推荐语料库。在微博知识词条发现任务上,本文利用基于条件随机场(ConditionalRandomFields,简称CRFs)的方法从微博中识别知识词条。为了解决基于传统文本特征的CRFs模型在微博
5、知识词条发现任务上召回率偏低的问题,本文从大规模非结构化数据中学习词聚类特征并从训练集中构造知识词条词典,最后将词聚类特征及知识词条词典融入CRFs模型。在评测集上,融合词聚类特征的微博知识词条发现算法比采用基本特征的微博知识词条发现算法的F1值提高了6.56%,引入训练集词典特征的微博知识词条发现算法相比基本算法提高了8.05%,结合两类特征的方法则提高了8.43%。此外,本文还研究了聚类类别数和语料库规模对词聚类特征的影响。在微博知识词条推荐任务上,本文利用微博中的社交关系及时间因子改进了传统的协同过滤算法,并将其与传统的协同过滤算法、基于内容
6、的推荐算法作对比。实验结果表明,社交关系及时间因子能够显著提升推荐算法的性能,本文提出的利用社交关系和时间因子改进的协同过滤算法的F1值相比传统协同过滤算法提高了20.37%。最后,基于以上研究工作,本文实现了一个基于新浪微博平台的微博知识词条推荐系统。关键词:知识词条发现;知识词条推荐;条件随机场;词聚类;微博I哈尔滨工业大学工学硕士学位论文AbstractWiththedevelopmentoftheInternet,thewayofoursociallifeandinformationacquiringhaschangeddramatical
7、ly.Theriseofmicroblogsallowspeopletorapidlyaccesstheenormousamountofinformation,soitisimportanttodiscoverusefulinformationautomaticallyandrecommendtousers.Takingadvantageofknowledgediscoverymethodstodiscoverusefulinformationinmassivedataandusingsocialnetworkstosolvethesparsene
8、ssprobleminthetraditionalrecommendationalgorithmsareissuesofc
此文档下载收益归作者所有