欢迎来到天天文库
浏览记录
ID:31474960
大小:314.00 KB
页数:10页
时间:2019-01-11
《从文本表示看nlpir》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、中国科学院软件研究所InstituteofSoftware,ChineseAcademyofSciences从文本表示看NLP与IR孙乐中国科学院软件研究所CIPS2008大纲NLP与IR文本表示IR模型文本表示下的融合方案小结2008-11-242NLP与IRQuery(查询条件)&Collection(文档集)NLP传统的基于关键词的检索系统无法处理由于同义词,多义词带来的性能损失,也不能判断用户对所输入的几个关键词的关注程度,用户也很难通过关键词来设定准确的需求将各个层面的NLP技术引入IR
2、在九十年代初期曾引起人们的普遍关注,特别是对词义排歧WSD技术在IR中的应用进行了集中研究。然而,大部分的研究结果令人沮丧,不少实验结果甚至表明采用WSD技术会带来检索性能的下降。目前人们普遍的看法是NLP不会对IR的性能带来明显的益处2008-11-243NLP与IR但是给出这样的一个结论缺乏足够的依据:大部分自诩为采用NLP技术的IR系统实际上只是采用了较低层次的NLP技术,比如词形变化现有的大部分系统只是对查询条件采用了NLP技术,而不是对查询条件和整个文档集由于较高层NLP的技术实现的复杂性
3、,大多数IR领域的研究人员并不了解如何正确引入较高层次的NLP技术缺少真正的能够给出每层NLP技术对IR性能贡献的实验结果传统文本检索系统本质上只是将文本看作一组无序的词串,利用简单的词频统计来模糊计算相关性,不利于引入相对复杂和精确的NLP技术2008-11-244NLP与IR但是给出这样的一个结论缺乏足够的依据:大部分自诩为采用NLP技术的IR系统实际上只是采用了较低层次的NLP技术,比如词形变化现有的大部分系统只是对查询条件采用了NLP技术,而不是对查询条件和整个文档集由于较高层NLP的技术实
4、现的复杂性,大多数IR领域的研究人员并不了解如何正确引入较高层次的NLP技术缺少真正的能够给出每层NLP技术对IR性能贡献的实验结果传统文本检索系统本质上只是将文本看作一组无序的词串,利用简单的词频统计来模糊计算相关性,不利于引入相对复杂和精确的NLP技术2008-11-245文本表示文本表示模型A类表层信息(局部)词N-gramPOS,短语(句法)B类深层信息(全局)DWC(DistributionalWordsClustering)LSI(LatentSemanticIndexing)LDA(L
5、atentDirichletAllocation)2008-11-246文本表示几种文本表示模型的比较BOW(BagofWords,词袋)优点:简单方便,缺点:信息量低VSM(向量空间模型)优点:支持各种权重策略,缺点:不支持概念建模LSI(隐含语义索引)优点:支持概念建模缺点:不支持大规模语料建模(模型参数和文档数成正比)LDA(LatentDirichletAllocation)优点:支持概念建模,支持大规模语料建模缺点:模型较复杂2008-11-247IR模型IR模型布尔模型向量空间模型
6、概率模型语言模型模型模型范数模型广义向量空间模型潜在语义索引模型推理网络模型模型统计翻译模型概率模型2008-11-248MMMP-HMMPaiceLSIIR模型四种模型之间的比较2008-11-249模型布尔模型向量空间模型概率模型语言模型提出时间20世纪50年代20世纪60年代20世纪80年代20世纪90年代末理论基础集合论代数理论概率论概率论/随机过程相关文档判断二元无序非二元有序非二元有序非二元有序系统实现难度简单简单较难简单部分匹配支持不支持支持支持支持文本表示方法词词
7、向量词N-gram学术代表系统无SMARTINQUERYLEMUR商业运用情况采用常采用采用未采用NLP技术与IR相融合的体系结构直接方法语用话语语义句法查询条件表示匹配空间文档集的表示词汇查询条件匹配文档集词形C1传统方法查询条件q和文档集d之间的表示距离C2
此文档下载收益归作者所有