欢迎来到天天文库
浏览记录
ID:34954685
大小:2.25 MB
页数:69页
时间:2019-03-15
《基于科研知识库的文档推荐系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文基于科研知识库的文档推荐系统的设计与实现DOCUMENTRECOMMENDATIONSYSTEMBASEDONSCIENTIFICRESEARCHKNOWLEDGEBASEDESIGNANDIMPLEMENTATION曾冠桦哈尔滨工业大学2018年6月国内图书分类号:TP311学校代码:10213国际图书分类号:621.3密级:公开工程硕士学位论文基于科研知识库的文档推荐系统的设计与实现硕士研究生:曾冠桦导师:战德臣教授副导师:王益静工程师申请学位:工程硕士学科:软件工程所在单位:软件学院答辩日期:2018年6月授予学位单位:哈尔滨工业
2、大学ClassifiedIndex:TP311U.D.C.:621.3DissertationfortheMaster’sDegreeinEngineeringDESIGNANDIMPLEMENTATIONOFDOCUMENTRECOMMENDATIONSYSTEMBASEDONSCIENTIFICRESEARCHKNOWLEDGEBASECandidate:ZengGuanhuaSupervisor:ProfessorZhanDechenAssociateSupervisor:SeniorEngineerWangYijingAcademicDeg
3、reeAppliedfor:MasterofEngineeringSpeciality:SoftwareEngineeringAffiliation:SchoolofSoftwareDateofDefence:June,2018Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工程硕士学位论文摘要近年来,随着科研工作的不断加深以及扩展,越来越多的科研相关的文档出现在了网上。而科研文档的数量变多,也就导致科研人员想要找到自己感兴趣的文章变慢,效率变低。本论文基于这一点设计了
4、一个科研文档推荐系统,根据用户的历史浏览记录,总结用户的浏览规律,然后给用户推荐他们可能感兴趣的科研文档。本论文主要研究内容有以下几个方面,本文所说的科研知识库就是包含上百万篇科研文档的数据库,那么首先是科研文档的爬取,为了更好的丰富科研知识库,,本系统首先要从网上爬取更多的文档以保证科研知识库的文档丰富,满足使用需求,并且为了保证爬取的速度,采用分布式主从结构的爬虫,使爬取速度变快。并且在URL上固定小域名保证爬虫在指定网站上爬取科研方面的文档。然后是科研文档的解析以及用户数据的获取,因为爬取的文档并不都是统一格式满足需求的,所以需要利用大数据技
5、术进行清洗之后方可入库使用,系统中的文档搜索功能并不是本系统实现的部分,而是整个大系统下其他部分的实现,本系统可以直接获得用户的浏览操作数据,之后经过清洗得到统一结构的数据以便使用,接下来对文档进行特征提取,给文档打上标签,使它们拥有明确的属性而不是长篇的文本,最后根据这些标签依据本文设计的基于文档标签的混合过滤算法,首先按照算法给用户推荐标签列表,然后按照标签权重给用户推荐最相关的科研文档。关键词:大数据;提取特征;协同过滤算法;文档推荐I哈尔滨工业大学工程硕士学位论文AbstractInrecentyears,asscientificresea
6、rchhascontinuedtodeepenandexpand,moreandmoreresearch-relateddocumentshaveappearedontheInternet.Theincreaseinthenumberofresearchdocumentshasledresearcherstofindarticlesthattheyareinterestedinbecomingslowerandinefficient.Thispaperdesignsascientificdocumentrecommendationsystembas
7、edonthispoint,accordingtotheuser'shistorybrowsingrecords,summarizestheuser'sbrowsingrules,andthenrecommendstousersthescientificdocumentsthattheymaybeinterestedin.Themainresearchcontentsofthisthesisincludethefollowingaspects.Thescientificresearchknowledgebasementionedinthispape
8、risadatabasecontainingmillionsofscientificresearchdocuments.T
此文档下载收益归作者所有