学术搜索推荐系统的设计与实现

学术搜索推荐系统的设计与实现

ID:32377214

大小:6.24 MB

页数:41页

时间:2019-02-03

学术搜索推荐系统的设计与实现_第1页
学术搜索推荐系统的设计与实现_第2页
学术搜索推荐系统的设计与实现_第3页
学术搜索推荐系统的设计与实现_第4页
学术搜索推荐系统的设计与实现_第5页
资源描述:

《学术搜索推荐系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、学术搜索推荐系统的设计与实现TheDesignandImplementationofanAcademicSearchSystem答辩人:袁增文学号:5110309479导师:王新兵专业:信息工程2015年6月23日目录一课题概述二方案设计三模块举要四结果分析五课题总结21课题概述1课题研究缘起2课题研究现状3课题目标及内容3课题研究缘起科研实力是国家核心竞争力的重要表现论文发表数量(%)[1]2012年中国科研经费投入超过一万亿中国其他11%2014年世界论文发表总量[2]:中国占11%32%美国26%学术搜索愈发重要欧盟31%高效地查找并阅读文献成为重要科研

2、需求电子数据库局限性大(学科单一、更新慢)现有的主流学术搜索不能满足需求以关键词匹配,关注引用次数无法有效反映学科主题多数仍然处在初级阶段4课题研究现状学术搜索推荐的研究逐渐得到重视现有研究的主要方向语义分析——使用主题模型等算法分析引用分析——使用引用网络建模分析推荐系统——使用协同过滤算法等针对参考文献推荐现有研究的主要不足论文样本量小,无法反映学科真实情况没有关注主题空间上论文之间的发展关系系统未成型,实用价值不高5课题目标及内容课题目标设计和实现一个基于主题的学术搜索推荐系统为用户搜索的论文主题提供结果推荐展现论文主题在学科中所处位置以及来源关系有效地

3、帮助搜索用户了解相关学科发展的脉络课题内容获取和构建大样本量的论文数据库采用主题模型算法分析论文隐性主题采用论文引用网络分析主题变化和发展趋势搭建学术搜索推荐系统网站供用户使用62方案设计1系统界面及功能概念图2系统设计思路3系统总体架构7系统界面及功能概念图8系统界面及功能概念图8系统界面及功能概念图8系统设计思路设计原则自顶向下+模块化主要步骤整合和采集论文数据构建论文数据集主题模型分析抽取出论文的隐性主题建立引用网络分析论文主题地位和发展关系搭建学术搜索网站系统架构设计出发点语义分析和网络分析相结合宏观尺度和微观尺度相结合9系统总体架构103模块举要1论

4、文数据库模块2主题模型模块3引用网络模块4搜索引擎模块11论文数据库模块获取对象论文元信息(metadata)•标题、作者、摘要、关键词、时间、发表会议、引用文献获取方法网络爬虫•Python程序(UrlLib,BeautifulSoup)公开数据集[3]•DBLP(290万篇论文数据)数据库构建文本数据库,XML格式12主题模型模块模块目标处理论文语义,寻找隐含主题(宏观尺度)采用概率主题模型语言模型→主题模型→概率主题模型(LDA模型)衡量语义相似度;解决同义词和多义词问题;无监督核心思想13主题模型模块主题文档(语料库)主题分布[4][5]LDA模型14

5、引用网络模块模块目标分析论文主题的来源关系和发展地位(微观尺度)引用网络建模与分析将论文数据和引用关系建模为引用网络•将论文视为结点,引用关系视为边•将论文主题视为结点→主题引用网络分析方法•基于社区聚类——未考虑论文语义•基于链接的引用网络分析PageRank[6];HITS[7];……15引用网络模块采用PageRank算法计算结点中心度PageRank算法——以Google公司创始人L.Page命名主题空间上计算结点重要性(中心度)分析论文主题的来源贡献生成主题引用网络Gt统计主题结点间边的权重主题引用网络Gt的临接矩阵表示16搜索引擎模块模块目标部署和

6、优化搜索引擎,搭建系统网站[8]定制的开源搜索引擎ApacheSolr基于Java的企业级搜索服务器基于HTTP请求的API对文档进行索引和搜索结合LDA算法和论文关键词优化搜索结果学科主题树展示来自IEEE学科分类目录[9]系统搜索网站AceMap搭建采用AmazeUI[10]框架,基于HTML5开发174结果分析1论文数据分析2主题抽取预处理及结果3主题中心度和来源分析4系统网站分析18论文数据分析论文数据爬虫速度1.2篇/秒有效论文数据比例96.36%——按照论文摘要是否缺失计算目前数据库中的论文数据量2,672,638——网页爬虫获取的论文数量2,98

7、9,985——DBLP公开数据集的数量论文被引用情况分析1.86——论文平均被引用次数4.49%——他引次数超过10次的论文比例19论文主题抽取预处理随机抽取167,064篇论文格式预处理,去除停用词生成的语料库包含130,006个互异单词平均每篇文档包含86.88个单词LDA算法(采用吉布斯采样)参数设置超参数α=0.50,β=0.01主题个数T=30,总迭代次数N=100020论文主题抽取结果21论文主题抽取结果Topic#0Topic#4Topic#6Topic#12Topic#15Topic#2021论文主题引用网络分析采用PageRank中心度算法对

8、论文引用网络进行分析409,267篇论

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。