领域重要文献和作者发现.ppt

领域重要文献和作者发现.ppt

ID:52495713

大小:371.50 KB

页数:15页

时间:2020-04-08

领域重要文献和作者发现.ppt_第1页
领域重要文献和作者发现.ppt_第2页
领域重要文献和作者发现.ppt_第3页
领域重要文献和作者发现.ppt_第4页
领域重要文献和作者发现.ppt_第5页
资源描述:

《领域重要文献和作者发现.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库

1、领域重要文献和作者发现组员:唐建,刘国俊,章彦星,封盛,燕飞指导老师:张铭目录方法总体介绍文献、作者质量评价文献、作者与领域相关度领域重要文献和作者发现2方法总体介绍我们把领域重要文献和作者发现问题分解为两个子问题:文献、作者本身的质量;文献、作者与领域的相关度。对于文献、作者质量评价的问题,我们综合考虑了文献,作者,会议之间的关系,我们认为如果一篇文献的作者有很高的知名度,并且这篇文献发表在重要的会议上,那么文献本身的质量很高;对于作者,会议也有类似的假设。总之,这三者是一种相互促进的关系(mutua

2、lreinforcement)。我们采用了图上的RandomWalk模型来评价文献、作者的质量问题。3方法总体介绍对于文献、作者与领域的相关度问题,我们认为如果一篇文献与某个领域相关,那么它的作者也与该领域相关;同样,如果如果一个作者与某个领域相关,那么他发表的文献也与该领域相关。我们采用了一个类似于HITS的算法求解该子问题。4文献、作者质量评价采用了在图上多种类型节点之间的RandomWalk模型求解,具体算法包括以下几个步骤构建学术网络图学术网络上的随机游走邻接子矩阵定义文献网络图上的随机游走5构

3、建学术网络图有向图G=(V,E)顶点集V=VA∪VD∪VCVA:作者VD:文献VC:期刊/会议定义在V上的二元关系E顶点i到j有边当且仅当∈E关系类型文献→文献:引用文献↔期刊/会议:发表作者↔文献:著作6VAVDVC学术网络图上的随机游走图上的随机游走给定一个图和一个出发点,随机地移动到一个邻居结点上,然后把当前结点作为出发点,重复以上过程稳态情况下(足够长时间后),每个点会有一个被访问的概率,它可以作为点的重要程度的度量定义W(G)为图G的带权邻接矩阵7邻接子矩阵定义8最近发表的文献影响更

4、大排名靠前的作者影响更大文献网络图上的随机游走子矩阵标准化顶点度对角阵标准化子矩阵转移概率矩阵随机游走9文献、作者与领域相关度采用了一个类似于HITS的算法来计算文献、作者与领域的相关度,具体包括以下几个步骤:构造作者、文献发表的二部图利用LanguageModel计算文献与领域的初始相关度利用类似于HITS算法计算文献、作者与领域的相关度10作者、文献发表二部图构造根据作者与论文的发表情况构造带权二部图G=。V中的顶点包括两种,一种代表作者,另外一种代表文献,其中边的定义为,如果是的作者

5、;权的定义为,如果,否则为0.11计算文献与领域的初始相关度首先抽取文献的标题、摘要、关键词,把这些信息当作文献的内容。然后利用LanguageModel(LM)计算查询领域关键词与文献的初始相关度。假设查询领域为q,根据LM它与文献d的初始相关度定义为:其中tf(w,d)为词w在文献d的频率,tf(w,D)为词w在整个文献集D的平率,分别代表文献d,文献集D总词数。12计算作者、文献与领域相关度经过上一步计算得到了文献d与查询词q的初始相关度,假设记为(1)如果作者发表的文献与领域相关,那么作者也与该

6、领域相关(2)如果作者与领域相关,那么他发表的文献也与该领域相关重复(1)(2),直到收敛。13领域重要文献和作者发现假设通过求解第一个子问题计算得到作者a、文献d的重要程度分别为aImportanceScore(a),dImportanceScore(d);求解第二该子问题得到作者a,文献d与查询领域q的相关度为aScore(a,q),dScore(d,q).其中aImportanceScore(a),dImportanceScore(d),aScore(a,q),dScore(d,q)最终作者a,文

7、献d与查询领域q的aFinalScore(a,q),dFinalScore(d,q)可通过如下两种方式计算14领域重要文献和作者发现方案1:aFinalScore(a,q)=aImportanceScore(a)xaScore(a,q)dFinalScore(d,q)=dImportanceScore(d)xdScore(d,q)方案2:aFinalScore(a,q)=aImportanceScore(a)^2xaScore(a,q)dFinalScore(d,q)=dImportanceScore(

8、d)^2xdScore(d,q)其中采用方案2的理由是由于aImportanceScore(a),dImportanceScore(d)都是(0,1)之间的数,通过此方法可以惩罚那些相关度较低,但重要程度很高的文献和作者。因为我们的查询结果首先是要保证与查询领域相关的前提下进行的。15

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。