资源描述:
《改进的基于关系的ir技术分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、改进的基于关系的IR技术分析摘要:基于关系的信息检索技术或基于语义的ir技术仍存在显而易见的缺陷,即不能明确关系本身。本文介绍了一种改进的基于关系的ir技术,明确关系的取值和属性,整合概念对和关系的信息为三元组表达式,通过适当的匹配方法获取未知信息。关键词:信息检索技术;基于关系;ir一、引言在众多的文本信息处理技术中,ir技术是最常用,也是大规模文献数据挖掘技术中的重要部分。随着社会发展,ir几乎涉及到了每一个人的每一天,如使用ls,al/permanentrelationship)和临时关系(temporaryrelationship)。2)ir领域的关系抽取有别于ie的关系抽
2、取,由于二者的功能和目的不同,后者偏重于固有关系或者长久关系,在抽取出的实体的基础上,在脱离文本的情况下,通过一定的手段,如知识库或机器学习,获取实体间的关系,其中关系的类型可采用ace测评给出的预先定义。3)在ltmls,ls中的关系是定义在语义类型上的关系(如:isa);query):这种查询方式还在普遍使用,其特点为多个(>=1)查询项(term)组成一个查询,项之间可能会存在较强的关联。2)问句查询(questionquery):问句查询是近年来应用的趋势,很多解释叙述型查询都可以转化为问句形式。(2)查询与文本的三元组表示1)概念的表示:鉴于基于关系的ir系统要在概
3、念的基础上定义关系,所以应该支持对概念的表示格式,其中cui(uniqueidentifierofconcept)是概念的唯一识别码,tui(uniqueidentifierofsemantictype)是概念的语义类型的唯一识别码,str(string)记录文本中出现的字符串,attribute记录文本中概念的属性(不同于umls定义的attribute),location用来记录概念在文本语句中的偏移量,用以定位概念对(conceptpair)之间的关系;是需要检索的未知(unknoicrelation),即关系中无并列成分,是保证完整语义的最小单位;rcui(uniqueid
4、entifierofrelation)是关系作为某种意义上的概念在y)。(二)关系的抽取与整合1、抽取关系首先,动词也存在同义词和近义词,但是对于名词的同义词和近义词,某些领域本体库已经给出了它们对应的概念及其编号(umls中记为cud,大大减少了多词同义、多词近义而词形不同带来的麻烦,但是这些本体库并不涉及动词;其次,有些其他词性的词,如某些特殊的名词代表某种动词的涵义。如果将此类情况忽略,一定会影响检索性能。但是,如果可以根据同义近义将关系归类编号,压缩为数量不多(umls中有50多个)的语义关系,就可以很好的解决上述问题,这也是处理体现关系的动词的最实用的方法。幸运的是wor
5、d提供了可以解决以上问题的机制,我们的系统就是将领域本体库umls和广泛本体库word结合起来用于概念和关系的抽取。2、表示关系获取关系的工作完成后就要用适当的方式表示关系,关系表示的正确性和简便性直接影响了irir系统实现的复杂度,也关系到检索的性能。(三)关系的整合首先计算概念对的中心位置;关于概念配对,我们采用关于实体一实体关系生成的方法。概念对(conceptpair)与关系列表(relationlist)中第n个的关系组合形成三元组,即表明该关系与概念对在同一个句子中,并且距离概念对的中心位置最近。在得到triple三个分量的值以后,就可以应用不同的策略界定与triple
6、对应的文字段(passage)的偏移量和长度了。文字段的界定策略有多种,本文使用的是以句子为最小单位组成文字段的策略,即文字段的起始(offset)是关系所在的句子的偏移量,文字段的长度(length)是该句的长度。(四)相关判定一排序机制相关判定一排序原则:1)匹配最佳优先原则:文本triple匹配上查询triple的分量越多排序在前:2)概念匹配优先原则:概念包含的专业信息更丰富,因此匹配时概念较多的文本triple排序在前,只有关系分量匹配上的不判定为相关;3)当topic处理为多个triple,每个triple按相同权重(=1)分别进行检索。相关判定一排序(judginge
7、sranking)方法将第k个文本triple比对第i个topic的第j个查询triple,根据匹配上的分量类型和数量打分,概念分量匹配上多的分值较高(=文本triple[k]分值*加权值0.4,文本triple分值即为该triple在语料库中出现的次数),关系分量匹配上的分值较低(-文本triple[k]分值*加权值0.2):对于查询triple中关系是多义的情况,首词义(a)或次词义匹配上时文本triple的排序计算公式(见算法2中式((1))的加权值((weig