科技文献中作者探究兴趣动态发现

科技文献中作者探究兴趣动态发现

ID:6213509

大小:32.00 KB

页数:9页

时间:2018-01-06

科技文献中作者探究兴趣动态发现_第1页
科技文献中作者探究兴趣动态发现_第2页
科技文献中作者探究兴趣动态发现_第3页
科技文献中作者探究兴趣动态发现_第4页
科技文献中作者探究兴趣动态发现_第5页
资源描述:

《科技文献中作者探究兴趣动态发现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、科技文献中作者探究兴趣动态发现  摘要:针对挖掘大规模科技文献中作者、主题和时间及其关系的问题,考虑科技文献的内外部特征,提出了一个作者主题演化(AToT)模型。模型中文档表示为一定概率比例的主题混合体,每个主题对应一个词项上的多项分布和一个随时间变化的贝塔分布,主题词项分布不仅由文档中单词共现决定,同时受文档时间戳影响,每个作者也对应一个主题上的多项分布。主题词项分布与作者主题分布分别用来描述主题随时间变化的规律和作者研究兴趣的变化规律。采用吉布斯采样的方法,通过学习文档集可以获得模型的参数。在1700篇NIPS会议论文集上的实验结果显示,作者主题

2、演化模型可以描述文档集中潜在的主题演化规律,动态发现作者研究兴趣的变化,可以预测与主题相关的作者,与作者主题模型相比计算困惑度更低。关键词:主题模型;时序分析;无监督学习;文本模型;困惑度0引言9科技文献资源的利用长期以来受到学术界的重视,早期的研究是利用传统的信息检索方法对科技文献进行计量分析、提供共享服务等。这些仅靠词频统计的方法难于发现文档中潜在的语义联系,无法满足用户对科技信息深层次的需求[1-2]。2003年,Blei等[3]提出了潜在狄利克雷分配(LatentDirichletAllocation,LDA)模型,在挖掘海量文档数据隐含信息

3、方面取得了很好的效果。在学术挖掘方面,对LDA模型的扩展已有大量的研究。RosenZvi等[4-5]在LDA模型中引入作者,用作者主题分布取代LDA模型中文档主题分布,提出作者主题(AuthorTopic,AT)模型,用于发现作者与主题之间的联系。在AT模型中,将文档按时间划分到不同的时间片内,然后计算不同时间点的作者、主题的后验概率可以分析作者、主题随时间的变化规律[6]。但这种方法在主题、作者采样时没有考虑时间的影响,而且分析效果取决于“时间粒度”的选择。Blei等[7]利用状态空间模型将时间因素加入LDA中提出了动态主题模型(DynamicTo

4、picModel,DTM),DTM模型将文档划分到不同时间窗口下,分析了主题随时间变化规律。在DTM基础上,Wang等[8]利用布朗运动模型提出了连续动态主题模型(continuoustimeDynamicTopicModel,cDTM),解决了DTM模型时间片划分的问题。文献[9-10]研究了文档集中主题稀疏的问题。DTM等模型都是在马尔可夫假设的基础上分析主题演化规律,Wang等[11]不依赖于马尔可夫假设提出了Topicsover9Time(ToT)模型。ToT模型中每篇文档都有一个时间戳,看成连续的观察值,服从贝塔分布,主题词项分布的产生同时

5、考虑单词共现和文档时间戳。ToT模型中时间是连续的,不需要考虑“时间粒度”选择的问题。上述模型分析的都是科技文献的内容,而科技文献的一些外部特征如作者等都没有涉及,不能分析文献作者的研究兴趣的变化情况。结合AT、ToT模型提出了一个作者主题演化(AuthorTopicoverTime,AToT)模型,用来分析科技文献中作者与主题的关系、主题随时间的变化规律。在AToT模型基础上可以有很多应用,如引导研究人员快速了解相关领域专家,跟踪专家研究兴趣变化;帮助政府机关即时寻找基金资助对象,编辑即时寻找审稿专家等。1作者主题演化模型作者主题演化模型是在作者主

6、题模型中加入时间因素,主题的产生同时依赖于单词共现和文档时间戳。概率图表示如图1所示,符号说明见表1。9图1中环形表示观察值,圆形表示隐含变量,箭头表示变量的依赖关系,矩形表示重复次数[12]。AToT模型中,文档表示为一定概率比例的主题混合体,每个主题对应一个词项上的多项分布和一个随时间变化的贝塔分布,主题词项分布不仅由文档中单词共现决定,同时受文档时间戳影响,时间戳对应于这篇文档中的所有单词,服从贝塔分布。每个作者也对应一个主题上的多项分布。文档集中单词的产生过程描述如下。3实验分析3.1数据集及实验环境使用的数据集是1987年到1999年NIP

7、S(NeuralInformationProcessingSystem)会议的论文全文,经过去停用词等预处理得到的文本数据包括:共1740篇文档,13649个词项,2301375个单词,2037个作者。实验环境是英特尔酷2双核E84003.00GHz处理器,4GB内存。一些参数设置为:主题数量固定为100,超参数设定为α=50/K,β=0.1,迭代次数为2000。上述条件下,Gibbs采样用时为4.5h(每8s完成一次迭代)。3.2泛化能力分析困惑度(perplexity)是评价模型泛化能力的标准指标,一般情况下困惑度值越小模型泛化能力越强。AToT

8、模型困惑度计算公式如式(6)所示:3.3主题演化分析与AT模型中的实验一样,选取8个主题对实验结果进行说明,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。