基于多源异构大数据的学者用户画像关键技术研究

基于多源异构大数据的学者用户画像关键技术研究

ID:37062374

大小:6.56 MB

页数:92页

时间:2019-05-17

基于多源异构大数据的学者用户画像关键技术研究_第1页
基于多源异构大数据的学者用户画像关键技术研究_第2页
基于多源异构大数据的学者用户画像关键技术研究_第3页
基于多源异构大数据的学者用户画像关键技术研究_第4页
基于多源异构大数据的学者用户画像关键技术研究_第5页
资源描述:

《基于多源异构大数据的学者用户画像关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、SouthChinaUniversitofTechnoloygy工程硕士学位论文基于多源异构大数据的学者用户画像关键技术研究作者姓名温昂展工程领域计算机技术校内指导教师林伟伟教授校外指导教师邓健爽高级工程师所在学院计算机科学与工程学院论文提交日期2018年4月StudyontheKeyTechnologyofScholarlyUserProfile-basedonMultiSourceandHeteroeneousBiDataggADissertationSubmi

2、ttedfortheDereeofMastergCandidate:WenAngzhanSuervisor:Prof.LinWeiweipSouthChinaUniversitofTechnoloygyGuangzhouChina,分类号:TP3学校代号10561学号:201521031706华南理工大学硕士学位论文基于多源异构大数据的学者用户画像的关键技术研究:温昂展指导教师姓名:作者姓名、职称林伟伟教授申请学位级别:工程硕士工程领域名称:计算机技术论文形式:□产品研发□工程设计0

3、应用研宄□工程/项目管理□调研报告研宄方向:分布式计算与大数据论文提交日期:2018年4月20日论文答辩日期:2018年6月1日学位授予单位:华南理工大学学位授予日期:年月日答辩委员会成员:主席:孙长银:韩国强徐雪妙林伟伟李家春委员华南理工大学学位论文原创性声明立进行研宂所本人郑重声明:所呈交的论文是本人在导师的指导下独取得的研宄成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡。献的个人和集体,均己在文中以明确方式标明本人完全意识到本

4、声明的法律后果由本人承担。作者签名:4I日期:yW年J月&日/学位论文版权使用授权书■本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:.研究生在校攻读学位期间论文工作的知识产权单位属华南理工大学。学校有权保存并向国家有关部门或机构送交论文的复印件和电子版,允许学位论文被查阅(除在保密期内的保密论文外);学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文一。本人电子文档的内容和纸质论文的内容相致。本学位论文属于:□,保密(校保密委员会审定为涉密学位时间:年月日)_

5、_于_年_月_日解密后适用本授权书。切木保密,同意在校园网上发布,供校内师生和与学校有共享协议的单位浏览;同意将本人学位论文提交中国学术期刊(光盘版)电子杂志社全文出版和编入CNKI《中国知识资源总库》,传播学位论文的全部或部分内容。请在以上相应方框“”(内打V)作者签名:I日期:夂锊指导教师签名日期;T作者联系电话:电子邮箱:联系地址(含邮编摘要随着科学研宄的飞速发展,积累了海量的学者用户属性信息和学术行为信息,这为学者用户画像构建提供了更多的数据基础,也带来了更高的挑战。本文首先介绍了学者用户画像相关的研宄背景

6、和现状,接着深入分析相关技术,将学者用户画像模型划分为画像基本信息抽取、学者兴趣标签发现、未来学术影响力预测三个模块,分别提出相应的模型并进行实验评估。最后,采用分布式存储与并行计算框架实现上述模型,构建了一个基于多源异构大数据的学者用户画像原型系统。本文的研宄工作主要包括以下几个方面:一(1)提出了种基于双向长短期记忆网络和条件随机场的学者画像信息抽取模型(i-MEAW)。相比以往研宄提出的基于的抽取模型,该模型通过深度神经网络自动提取文本的字符级和上下文特征,实现了模型的端到端训练,同时有效地解决了抽取实体间的长时期依赖关系问题,提

7、高了学者基本属性信息抽取的精度。2构建了一种融合文本语义信息和学术网络关系的学者兴趣标签多分类模型()一(ZZMM:)。+同于已往研宄只是单采用文本挖掘或标签传播方法,该模型将所有学一整合到主题模型中术实体的文本语义信息统,同时利用大规模网络表征学习方法对学术异构网络连接结构进行特征提取,最后结合方法进行特征融合,提升了兴趣标签发现能力。一(3)设计种学者未来学术影响力预测模型并结合分类筛选算法使模型适应数据长尾分布特性。该模型考虑论文发表的时间和作者署名顺序的因素,提出基于网络随机游走的学者影响力评估方法并将该特征融

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。