基于机器学习的实体关系抽取方法

基于机器学习的实体关系抽取方法

ID:9200966

大小:84.00 KB

页数:8页

时间:2018-04-22

上传者:U-5097
基于机器学习的实体关系抽取方法_第1页
基于机器学习的实体关系抽取方法_第2页
基于机器学习的实体关系抽取方法_第3页
基于机器学习的实体关系抽取方法_第4页
基于机器学习的实体关系抽取方法_第5页
资源描述:

《基于机器学习的实体关系抽取方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

第9期刘方驰等:基于机器学习的实体关系抽取方法•63•2013-0932(9)兵工自动化OrdnanceIndustryAutomation©1994-2013ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved,http://www.cnki.net第9期刘方驰等:基于机器学习的实体关系抽取方法•63•©1994-2013ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved,http://www.cnki.net第9期刘方驰等:基于机器学习的实体关系抽取方法•63•doi:10.7690/bgzdh.2013.09.017©1994-2013ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved,http://www.cnki.net第9期刘方驰等:基于机器学习的实体关系抽取方法•63•©1994-2013ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved,http://www.cnki.net第9期刘方驰等:基于机器学习的实体关系抽取方法•63•基于机器学习的实体关系抽取方法刘方驰,钟志农,雷霖,吴烨(国防科学技术大学电子科学与工程学院,长沙)摘要:实体关系抽取是信息抽取的一项重要内容,总结现有的方法对于该领域的发展具有指导和借鉴意义。结合当前的研究进展,分析和比较了有监督、无监督和弱监督3类关系抽取方法的原理和代表性算法,总结了各类方法的特性并对关系抽取的发展趋势进行了展望。关键词:实体关系抽取;机器学习;有监督;无监督;弱监督中图分类号:TP303文献标志码:AEntityRelationExtractionMethodBasedonMachineLearningLiuFangchi,ZhongZhinong,LeiLin,WuYe(SchoolofElectronicScience&Engineering,NationalUniversityofDefenseTechnology,Changsha,China)Abstract:Relationextractionisanimportantsectionofinformationextraction,summarizationoftheexistingmethodsisinstructionalforthedevelopingofthisfield.Combinedwiththecurrentresearchstatus,firstly,analyzedandcomparedtheprincipleandrepresentativealgorithmsofthreerelationextractionmethods,includingsupervised,unsupervisedandsemi-supervisedbasedonmachineleaning,thensummarizedthecharacteristicofallthethreemethods.Finally,putforwardoutlookfordevelopmenttendency.Keywords:entityrelationextraction;machinelearning;supervised;unsupervised;semi-supervised©1994-2013ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved,http://www.cnki.net第9期刘方驰等:基于机器学习的实体关系抽取方法•63•©1994-2013ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved,http://www.cnki.net第9期刘方驰等:基于机器学习的实体关系抽取方法•63•0引言面对着来自互联网和其他渠道的文本数据的爆炸式増长,如何从这些非结构化数据中获取所需要的信息成为困扰人们的一个难题,在这种情况下,信息抽取技术应运而生。信息抽取(informationextraction)技术,是指从一段文本或其他形式的非结构化数据中抽取特定的实体、事件、关系等信息,形成结构化的数据存储成关系数据库、XML数据形式,供用户查询和使用的过程。信息抽取的任务包括命名实体识别、句法分析、关系抽取、篇章分析与推理、知识获取等,其中命名实体识别是信息抽取系统中最基础的工作,是从待处理文本中找出代表现实世界中具体或抽象的实体(人名、地名、组织机构名……)的词语。关系抽取则是在此基础上识别出命名实体间存在的语义关系,比如将“联想集团总裁杨元庆”语句中“联想集团”和“杨元庆”2个实体间存在的雇佣关系抽取出来。这2项任务是完成其他任务的前提,也是对数据进行结构化存储最重要的步骤。由于在现实世界中,关系的种类远比实体复杂,在自然语句中出现的形式也更为灵活,因此文本中实体间关系的抽取比实体识别更为困难。如何快速有效地提取出大规模文本数据中实体间的关系并将其正确归类,是当前信息抽取领域研宄的热点。具体到常用的抽取方法上,有学者[1]将其归为5类:基于模式匹配的、基于词典驱动、基于机器学习、基于本体和混合方法。模式匹配和词典驱动依靠人工制定规则,不仅费时费力,而且领域可移植性极差。本体方法本身的构造极为复杂,并且理论尚不成熟。基于机器学习的方法采用自然语言处理技术中统计语言模型为基础,研宄思路非常明确,方法相对简单并取得不错的性能,成为当下关系抽取的主流方法。基于机器学习的关系抽取方法按照有无标注好的训练语料可分为有监督、无监督和弱监督方法。训练语料是严格按照制定规则和格式将实体及其类别以及语句中实体间的关系和关系类别标注出来的一定规模的数据,如ACE语料[2]。笔者结合该领域当前的进展对各类方法的原理、思想、算法局限性等方面进行了分析和总结,并从2个方面对关系抽取的发展趋势进行展望。1有监督的关系抽取有监督方法从训练数据集中学习模型,对测试数据的关系类型进行预测。系统的输入空间是自然语句,输出空间是预先定义好的关系种类的集合。©1994-2013ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved,http://www.cnki.net第9期刘方驰等:基于机器学习的实体关系抽取方法•63•©1994-2013ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved,http://www.cnki.net第9期刘方驰等:基于机器学习的实体关系抽取方法•63•收稿日期:2013-07-07;修回日期:2013-08-22©1994-2013ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved,http://www.cnki.net 第9期刘方驰等:基于机器学习的实体关系抽取方法•63•基金项目:国家高技术研究发展计划(863计划)主题项目(2011AA)湖南省自然科学基金资助项目(11JJ4028)作者筒介:刘方驰(1989—),男,山东人,硕士,从事信息处理与信息系统技术研究。©1994-2013ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved,http://www.cnki.net 第9期刘方驰等:基于机器学习的实体关系抽取方法•63•因为在关系抽取任务中的载体都是无结构的自然语言,要使得机器能够识别以进行学习和预测,必须要将文本的各级语言单位进行形式化的表达。根据对语句的处理方式不同可以分为基于特征向量方法和基于核函数方法2类。1.1基于特征向量的方法通过使用向量空间模型,基于特征向量方法将自然语句映射成特征向量。向量空间模型(vectorspacemodel)是一种应用广泛的将文本特征转化为数字特征的模型,该模型由0.8也〇:^3]在20世纪60年代提出,现己成为自然语言处理领域中常用模型。使用向量空间模型进行关系抽取时,将训练集和测试集中语句按照预先设定好的特征项赋予特定的特征值,形成多维的特征向量,之后根据选定的分类器训练训练集中的特征向量,用得到的训练模型对测试集进行预测。该方法将相似度高的语言单位归结为具有同一种语义关系,可以看成是一个分类问题。和一般的分类问题一样,基于特征向量的关系抽取需要解决3个基本问题:特征选择、特征权重计算和分类器选择。特征项是向量模型的骨架,特征项的选择要求既要包含较多的语义信息来更完全地表征自然语句,又要对语义关系具有较高的区分度。特征的选取范围非常广泛,比如词法、实体、句法、语义及结构化信息等,但特征并不是越多越好。很多特征对于提高特征向量的语义含量没有帮助,却降低了其统计质量,造成向量稀疏问题和“维数灾难”[4],使机器学习算法难以提取分类的统计特征并且降低了训练效率,因此如何进行特征选择至关重要。特征选择是通过设定的准则滤除掉对分类贡献较小的特征。关系抽取中常用的特征选择方法有:基于统计信息的文档频率(DF)的特征提取法、x2统计量法及基于信息论的信息増益法和互信息法。通过特征选择选取的众多特征对于分类的贡献率不可能完全相同,可通过计算特征权重来衡量某个特征的重要程度。比如语句中实体的类别特征往往比实体词的长度特征更重要,有必要对两者赋予不同的权值。权重计算方法有2种思路:一是利用公式计算各特征的权值并排序,如布尔权重、特征频度等[5];二是利用优化算法来搜索最优特征权向量[6]。权重的计算方法越复杂其对于特征表示的精确度越高,但计算成本也剧増。特征选择以及权重计算方法解决了构造特征向量的问题,下一个过程就是选择合适的分类器将具有相似特征的向量归为一类。具有代表性的应用于关系抽取的分类器有K近邻(KNN)分类器、支持矢量机(SVM)、最大熵(MaxEnt)等。Kambhatla[7]使用最大熵模型将词法、语法以及语义特征组合起来抽取语义关系。Zhao与Grishman[8]将文字特征,语句解析和深层语法依存特征组合,并使用SVM进行分类。Zhou[9]在使用句法解析树特征的同时将最基本的组块信息特征组合,来提高关系抽取的效能。Sun[10]在常用的上下文特征的基础上加入了2个实体间的长期相关性特征,实体顺序特征,实体间顺序特征以及标点符号特征,采用贝叶斯和感知器的混合算法进行分类。】1&〇@[11]系统地选取词法、句法等各种类型的特征,并且评估了不同特征的分类贡献,他们发现每一小类特征中选取最基本的单位特征就可以达到相当高的精度,而不同特征间如果不相互独立的话,反而会影响最后的性能。另外有些研宄者也用到了语句序列的各种特征,但并没有使用它们构造特征向量,而是采用其他统计方法实现关系抽取。Miao等人[12]通过引入字特征,分词特征,句法特征,将关系抽取转化为标注问题,采用CRF(条件随机场)方法进行估计。基于特征向量方法是目前关系抽取最常见的方法,通过选择适当的特征可以获得很好的性能,但该方法存在着自身的局限性。首先特征向量方法致力于寻找有效的特征,对于语法结构的应用十分有限[13]。Cristianini.N等人[14]通过研宄表明,用有限维的特征向量来表示某些特定语句的句法信息是不可能的。其次,特征向量方法提高性能的方式是通过不同特征的组合,但当前使用的特征己经覆盖了大多数可以利用的语言现象,性能的提升较为困难。1.2基于核函数的方法针对特征向量方法的局限性,部分学者使用核函数来避免上述缺陷。它不需要构造特征向量,而是直接使用字符串的原始形式作为处理对象,来计算任何2个对象间的核相似度(Kenrelsimilarity)函数。基于核函数的方法可使实体关系的表示更加灵活,通过核函数的映射还可综合多方面的知识信息。核函数是指一个函数尤,使得所有定义域里的x,zeZ,X是输入空间k(x,z)=^>{x),^(z))这里的^是从空间X到内积特征空间F的映射。©1994-2013ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved,http://www.cnki.net 第9期刘方驰等:基于机器学习的实体关系抽取方法•63•核函数将原始空间中的数据点映射到一个新的特征空间,在该特征空间中训练线性分类器,而且潜在地避开了具体的计算特征映射的过程[15],其本质是将句子背后隐式的特征向量投影到特征空间,通过计算投影的内积来表示输入空间特征向量的相似性,进而判断实体间关系的相似性[16]。核函数的类型很多,比如多项式核函数,向量空间核函数,P-光谱核函数,全序列核函数等,并且核函数对于线性变换是封闭集合,因此利于该性质可以将多个不同信息来源的个体核函数进行复合来设计出适合特定任务的核函数,这也是该方法灵活性的一个重要体现。使用核函数方法来抽取实体关系一般分为3个过程[16]:1)选择合适的解析结构来承载语句中隐含的特征信息,如使用语法树等剖析语句;2)在解析结构基础上选择适合的基础核函数,定量地计算解析结构中子成分的相似性;3)为了充分利用各种特征,可以将多个核函数复合,提高分类精度。2003年,Zelenco.D[17]首次使用核函数方法进行关系抽取,他首先使用自然语言处理工具对语句进行标注和浅层语法分析,在此基础上构建树核函数,通过使用连续子树核和稀疏子树核函数递归的计算2个子树的相似度,来提取个人从属关系和机构位置关系,并且获得了较高的准确率。2004年,Culotta等[18]在Zelenco提出的树核函数的基础上使用了依存树核函数,并引入知识库WordNet,扩展子树节点间的匹配函数。2005年,Bunescu等[19]使用最短路径依存核函数来计算2个命名实体间的依存路径,实验证明最短依存路径信息适合于进行关系分类,但它要求2个实体对之间的最短依赖路径相同,因此限制了它的应用。次年,2人提出使用子序列核函数来抽取关系[20],他们没有使用复杂的语法结构,而仅将最基本的词法信息引入核函数,不需要大量的预处理过程,并具有极快的训练速度,但性能还有待提高。2006年,Zhang等人[21]首次使用复合核函数方法进行关系抽取,他们将卷积树核函数(convolutionparsetreekernel)语实体特征核函数复合组建成一个新函数,实验表明复合核函数的表现比任一单一核函数要好。此后学者的研宄主要2个方面:一是不断完善现有核函数或者发现新的核函数,如Nguyen[22#PReichartz[23];二是利用现有核函数组建出性能更好的复合核函数,如Choi.S等[24]。在中文关系抽取领域,刘克彬等[25]通过在词序列核里加入语义信息组成语义序列核函数,结合KNN机器学习算法构造分类器来分类并标注关系的类型。张骥等[26]将表征实体相关特征相似度的实体核函数和表征上下文文本相关相似度的字符串语义相似度核函数复合,设计出更能全面体现2个关系实例相似度的而复合核函数,并且设计出了基于实体形态树的核函数。核函数可以充分搜索长距离特征和结构化特征[27],比特征向量方法更能够充分利用语义信息。但是利用文本的解析树仍然不能彻底的表达词性、语义语境等方面的含义,不断开发新的解析结构是核方法的一个努力方向。另外,核方法将不同核函数复合可以表达高维甚至无穷维的特征空间[28],但这也造成基于核函数方法学习和训练速度都比较慢,不适合大规模的数据抽取,同时核函数的选择多基于经验判断,缺乏严谨的理论支撑。1.3有监督方法总结由于有监督方法以标注完好的训练集为依据,可以在同类型的测试集上取得很好的准确率和召回率。但与此同时,有监督方法又受制于训练语料,无法识别出训练语料中不包含的语义关系,因此该方法并不适合处理开放域的大规模语料。有监督方法相对成熟,其充分利用语句中各种特征信息的方式方法值得无监督等方法借鉴。具体到2类有监督方法的对比,如果说基于特征的方法是最大限度的表征单个学习实例,那么基于核函数的方法则是尽可能地挖掘出任意2个学习实例的相似性。前者的出发点是不断寻找具有区分度的特征,后者则为选择和创造使得同类关系2个实例的相似度更大的核函数而努力。前者也使用核函数,比如在SVM中用到的线性核,多项式核等,但是在向量层面上使用核函数,后者核函数的选择范围更加宽泛,可以再字符串层面进行处理。2无监督的关系抽取无监督方法不需要任何预先处理的语料支撑,能自动地提取文本中包含的实体关系。无监督方法可以克服人工设定关系模式的弊端,避免遗漏设定的关系模式中不包含的关系实例,而且由于不依赖于特定的训练语料,该方法对各领域的适应性很高。由于无监督方法是先确定关系实体对再确定关系类型,因此也叫做不定义关系类别的关系抽取方法。©1994-2013ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved,http://www.cnki.net 第9期刘方驰等:基于机器学习的实体关系抽取方法•63•无监督方法包含实体对聚类和关系标记2个过程,即首先采用某种聚类方法将语义相似度高的实体对聚为一类,再选择具有代表性的词语来标记这类关系。无监督的关系抽取方法最早是由Hasegawa[29]在2004年的ACL会议上提出的,之后的方法多是在Hasegawa的基础上改进而来的。Hasegawa方法大致分为以下步骤:首先,提取出语句中的命名实体对,把其中出现频率很低的实例剔除,将保留下来的同一命名实体对所有实例的上下文合并作为该实体对的上下文;然后,使用全联通聚类(completelinkage)方法对实体对的上下文进行聚类;最后,在同一类中寻找出现频率最高的词语作为该类命名实体对的关系描述。Hasegawa引出了无监督关系抽取方法都遵循的假设:即有着相同语义关系的实体对的上下文语境也具有相似性,上下文集合代表该实体对的语义关系。基于这种假设,无监督关系抽取可分为3个过程[30]:1)命名实体及其上下文的获取;2)对命名实体对进行聚类;3)选择核心词汇标注各类的语义关系。但是该假设并不能保证完全正确,因为最常出现的那些实体对中可能包含一些实例,它们具有多种关系。针对这一问题,Bmjamm等[31]提出了2种解决办法:一种是限定进行聚类的实体对来自同一领域的语料库;另一种是通过实体的统计特性过滤掉具有多种关系的候选实体对,比如,如果2个实体单独出现的概率较小而同时出现的概率很大,这种实体对往往只有一种关系。同时Binjamin用更为灵活的基于上下文特征的模式(patterns)来代替实例的上下文,极大地提高了抽取的准确率。张志田[32]对Hasegawa的方法进行了改进,把实体对的上下文特征词利用一定方法加权形成特征向量,并使用改进的尤均值算法进行关系聚类,在ACE语料上测试发现性能优于Hasegawa方法。EdgarGonzalez[33]将判断实例相似性的过程改进为判断是否相关,提出一种面向大规模语料的无监督关系抽取方法。Shinyama和Sekine[34]提出一种多层级聚类的无监督关系抽取方法。首先经过网络爬虫获得新闻文本,并且按文章的来源进行初始的分类。之后,根据语句的语义结构图,在满足一系列约束的情况下抽取出基础模式聚类的实体,这些实体根据基本模式进行映射,形成次生聚类,如此循环往复,每个次生聚类里都包含具有相同关系的实体对。总体而言,无监督方法不需要人工的干预指导,具有良好的领域移植性,在处理大规模开放领域数据时具有其他方法无法比拟的优势。但当前无监督方法判别实例的相似性仅用到实体对的上下文特征,对其他包含语义信息的特征未加利用,同时聚类方法的选择具有盲目性,致使无监督方法的准确率和召回率都比较低。3弱监督的关系抽取有的监督方法具有较高的准确性,但是过分依赖标注语料,不能够有效地提取语料中不包含的关系实例,无监督方法尽管领域可移植性强但是现阶段性能较差而且无法确定提取出别的关系类别。在这种情况下,人们提出了弱监督方法的概念,即使用少量的标注语料作为初始种子集,并充分利用大规模的未标注语料来获取较好性能。具体来说,弱监督方法以预先定义关系模式和关系实例作为种子,通过机器学习,发现新的关系模板和实例。弱监督也称为远监督(distantsupervision)[35],用这种方法提取实体关系大致包括2个过程:寻找包含己知关系的2个实体的语句,以这些语句作为训练集进行分类。最早的弱监督方法是已4^36]于1998年提出的DIPPRE方法,利用实体间的关系(Relation)和描述这些关系的模式(Pattern)间的对应关系,从一个种子关系集合出发,从Web网页中发现这些种子出现的上下文,然后从这些上下文中产生对应的模式,利用这些模式从Web网页中发现更多的关系实例,然后,从这些关系实例中选择新的种子集合,重复上述过程,迭代地从Web上得到相应关系和模式。Agichtein等[37]在Brin基础上提出了Snowball系统。Snowball在关系抽取时标注了命名实体的类型,通过限定2个命名实体类型的方法来改进Brin的方法,并且Snowball对模式的定义更加灵活。但是Snowball仅针对于单一的关系类型,2010年,Liu[38]提出可以提取多类型关系的架构:MultiSnowball,该系统致力于从一个提取模式中抽取不同的关系类型并且可以迭代地发现新的关系类型,同时可以使不同关系类型间共享模式。以上方法都是基于自举(Bootstrapping)的思想,即通过现有模式不断扩展出新的模式,属于启发式的方法,文献[39-41]对启发式方法做了改进,©1994-2013ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved,http://www.cnki.net 第9期刘方驰等:基于机器学习的实体关系抽取方法•63•集,M.F.Moens等[44]在这方面进行过研宄,核心思表13类方法对比但这类方法的缺陷是在扩展过程中很多不正确的模式进入模式集中,并且使得错误不断累积,影响后面的关系分类。学者试图通过研宄新的方法来避免上述缺陷。2006年,JinxiuChen等[42]在ACL会议上提出标注传播算法(LabelPropagation),这是一种基于图的弱监督学习方法。将所有的实体对看作是图上的节点,将实体对间的距离看作边。把一部分标注好的节点看作源头向其他节点传播,而权重值越高的边上传播的速度越快。将相似度高的节点聚为一类,类别则息通过传播过来的标注信息来判别。2011年,A.Cvitas[43]提出了一种新的弱监督方法协同学习(Co-learning)方法,其基本流程:选择2个不同的分类器,使用相互独立的特征在2个训练集上训练,并分别在未标注集上测试,选取置信度高的实例扩展到另一个分类器的训练集中,如此迭代若干次,当精度达到阈值时停止。协同学习方法的关键是寻找2个或多个相互独立的特征想是根据特征相对于2个实体的位置分类,这为协同学习方法引入多个分类器进行扩展提供了依据。弱监督方法结合了前2种方法的优势,不需要过多的训练语料,并且可以发现种子集中不包含的关系实例,因此成为关系抽取研宄的热点。很多学者将在其他领域表现不俗的算法或思想引入到弱监督方法中,使其更加完善,如Enrique[35]引入主题模型(TopicModel)来计算模式隶属于某类关系的概率,MikeMintz[45]尝试使用知识库FreeBase来代替手工选取种子集等。但弱监督方法的2个主要问题[46]:如何减少选取种子集的人工干预以及如何控制扩展过程中的噪声并没有完全解决,这也限制了该方法的性能。笔者将基于机器学习的实体关系抽取3类方法的相关内容和研宄进展进行了分析,并指出各种方法的优势与不足。实体关系抽取是信息抽取中的关键任务,根据数据资源和任务需求合理选择抽取方法是实现关系抽取的核心所在。表1是对3类方法几个方面的比较总结。©1994-2013ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved,http://www.cnki.net第9期刘方驰等:基于机器学习的实体关系抽取方法•63•©1994-2013ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved,http://www.cnki.net第9期刘方驰等:基于机器学习的实体关系抽取方法•63•项目领域移植性人工干预研究思路性能性能提升方法有监督弱强分类高改进特征和核函数弱监督中弱分类中改进模式扩展方法无监督强弱聚类低扩展特征,改进聚类算法©1994-2013ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved,http://www.cnki.net第9期刘方驰等:基于机器学习的实体关系抽取方法•63•©1994-2013ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved,http://www.cnki.net第9期刘方驰等:基于机器学习的实体关系抽取方法•63•4结束语现今的关系抽取方法多面向于1个语句中的2个实体,对于跨句子、段落甚至跨篇章的2个或多个实体间复杂关系的研宄很少,这也是阻碍关系抽取达不到真正实用的一个原因。其次,现有的实体关系类型都是人工制定的,如何使系统自动发现关系类型是今后关系抽取研宄的一个方向。另外,有监督方法己经比较成熟,现有的方法多是对经典算法的改进和补充,难有太大的突破,而且其基于训练语料的思想使它面向开放领域时的领域迁移能力较弱。随着数据和各类信息的爆炸式増长,面向特定类型或特定领域的关系抽取己经难以满足要求,无监督和弱监督方法必然会成为主流。不断提高这2种方法的准确率和召回率是今后研宄的重点。参考文献:[1]徐建,张智雄,吴振新.实体关系抽取的技术方法综述[J].现代图书情报技术,2008,168(8):18-23.[2]www.ldc.upenn.edu/Projects/ACE.[3]SaltonG.,MeGillMJ.IntroductiontoModernInformationRetrieval[M].NewYork:McGraw-HillBookCompany,1983:400-403.[4]宗成庆.统计自然语言处理[M].北京:清华大学出版社.[5]鲁松,李晓黎,白硕,等.文档中词语权重计算方法的改进[J].中文信息学报,2000,4(6):8-14.[6]赵宇.关系抽取中学习算法的研究[D].哈尔滨:哈尔滨工业大学,2006.[7]KambhatlaN.,Combininglexical.syntacticandsemanticfeatureswithMaximumEntropymodelsforextractingrelations[C].InProceedingsofACL'2004,2004,Barcelona,Spain.[8]ZhaoS.,GrishmanR.Extractingrelationswithintegratedinformationusingkernelmethods[C].InProceedingsoftheACL'2005,2005,AnnArbor,USA.[9]ZhouG.D,SuJ,ZhangJ,etal.Exploringvariousknowledgeinrelationextraction[C].InProceedingsoftheACL'2005,2005,AnnArbor,USA.[10]SunXia,DongLehong.Feature-basedApproachtoChineseTermRelationExtraction[C].2009InternationalConferenceonSignalProcessingSystems,410-414.[11]JiangJing,ZhaiChengxiang.ASystematicExplorationoftheFeatureSpaceforRelationExtraction[C].InproceedingsofNAACL/HLT,2007:113-120.[12]MiaoQingliang,ZhangShu,ZhangBo,etal.ExtractingandVisualizingSemanticRelationshipsfromChinese©1994-2013ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved,http://www.cnki.net 第9期刘方驰等:基于机器学习的实体关系抽取方法•63•BiomedicalText[C].26thPacificAsiaConferenceonLanguage,InformationandComputation,99—107.[1]JungHanmin,Sung-PilChoi,SeungwooLee,etal.©1994-2013ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved,http://www.cnki.net 第9期刘方驰等:基于机器学习的实体关系抽取方法•63•SurveyonKernel-BasedRelationExtraction[S.l],[1]Cristianini.N,ShaweTaylor.J.AnIntroductiontoSupportVectorMachinesandOtherKernel-basedLearningMethods[C].CambridgeUniversityPress.[2]Scholkopf,SmolaA.J.LearningwithKernels:SVM,Regularization,OptimizationandBeyond[C].MITPress,Cambridge,MA,2001:407-423.[3]ZhangXiaofeng,GaoZhiqiang,ManZhu.KernelmethodsanditsapplicationinRelationExtraction.2011IEEE,1362-1365.[4]Zelenco.D,Aone.C,Richardella.A.KernelMethodsforRelationExtraction[J].JournalofMachineLeanringResearch,3,1083-1106.[5]Culotta.A,Sorensen.J.DependencyTreeKernelsforRelationExtraction[C].Proceedingsofthe42ndAnnualMeetingonAssociationforComputationalLinguistics.[6]Bunescu.R.,Mooney.R.J.AShortestPathDependencyKernelforRelationExtraction[C].ProceedingsoftheHumanLanguageTechnologyConferenceandConferenceonEmpiricalMethodsinNaturalLanguageProcessing,724-731.[7]Bunescu.R,Mooney.R.J.SubsequenceKernelsforRelationExtraction[C].ProceedingoftheNinthConferenceonNaturalLanguageLearning,2005.[8]Zhang.M,Zhang.J,Su.J,etal.ACompositeKerneltoExtractRelationsbetweenEntitieswithbothFlatandStructuredFeatures[C].21stInternationalConferenceonComputationalLinguisticsand44thAnnualMeetingoftheACL,2006:825-832.[9]Nguyen.T,Moschitti.A,Riccardi.G.Convolutionkernelsonconstituent,dependencyandsequentialstructuresforrelationextraction[C].Proceedingsofthe2009ConferenceonEmpiricalMethodsinNaturalLanguageProcessing,2009,1378-1387.[10]Reichartz.F,Korte.H,Paass.G.Dependencytreekernelsforrelationextractionfromnaturallanguagetext[J].MachineLearningandKnowledgeDiscoveryinDatabases,2009:270-285.[11]Choi.S,Jeong.C,Choi.Y,etal.RelationExtractionbasedonExtendedCompositeKernelusingFlatLexicalFeatures[J].JournalofKIISE:SoftwareandApplications,2009,36(8).[12]刘克彬,李芳,刘磊,等.基于核函数中文关系自动抽取系统的实现[J].计算机研究与发展,2007,44(8):1406-1411.[13]张骥.基于核函数的中文实体关系抽取新方法[D].天津:天津大学.[14]林如琦,陈锦绣,杨肖方,等.多信息融合中文关系抽取技术研究[J].厦门大学学报,2011,5(3):540-545.[15]ShaweTaylorJ.,CristianiniN.KernelMethodsforPatternAnalysis[C].CambridgeUniversityPress,Cambridge,2004.[16]Hasegawa.T,Sekine.S,Grishman.R.DiscoveringRelationsamongNamedEntitiesfromLargeCorpora[C].InProc.ofACL-2004,2004:415-422.[17]邸楠.Web中实体关系分析与面向实体的社会网络分析研究[M].北京:北京大学网络实验室.[18]BinjaminRozenfeld,RonenFeldman.High-PerformanceUnsupervisedRelationExtractionfromLargeCorpora[C].ProceedingsoftheSixthInternationalConferenceonDataMining(ICDM'06),2006.[19]张志田.无监督关系抽取方法研究[D].哈尔滨:哈尔滨工业大学,2007.[20]EdgarGonzalez,JordiTurmo.UnsupervisedRelationExtractionbyMassiveClustering[C].2009NinthIEEEInternationalConferenceonDataMining,782-787.[21]ShinyamaY.,SekineS.Preemptiveinformationextrac-tionusingunrestrictedrelationdiscovery[C].inHumanLan-guageTechnologyConferenceandNorthAmericanchapteroftheAssociationofComputationalLinguisticsAnualMeeting(HLT-NAACL),2006:304-311.[22]EnriqueAlfonseca,KatjaFilippova,Jean-Yves,etal.PatternLearningforRelationExtractionwithaHierarchicalTopicModel[C].Proceedingsofthe50thAnnualMeetingoftheAssociationforComputationalLinguistics,54-59.[23]BrinS.Extractingpatternsandrelationsfromtheworldwideweb[C].WebDBWorkshopat6thInternationalConferenceonExtendingDatabaseTechnology,EDBT98,1998:172-183.[24]AgichteinE.,GravanoL.Snowball:extractingrelationsfromlargeplain-textcollections[C].ProceedingsofthefifthACMconferenceonDigitallibraries,2000:85-94.[25]LiuXiaojiang,YuNenghai.MultiTypeWebRelationExtractionBasedonBootstrapping[C].2010WASEInternationalConferenceonInformationEngineering,2010:24-27.[26]MintzM.,BillsS.,SnowR.,etal.Distantsupervisionforrelationextractionwithoutlabeleddata[C].InProceedingsoftheJointConferenceofthe47thAnnualMeetingoftheACLandthe4thInternationalJointConferenceonNaturalLanguageProcessingoftheAFNLP:Volume2-Volume2:1003-1011.[27]Hoffmann.R,Zhang.C,Ling.X,etal.Knowledge-basedweaksupervisionforinformationextractionofoverlappingrelations[C].InProceedingsofthe49thAnnualMeetingoftheAssociationforComputationalLinguistics:HumanLanguageTechnologies-Volume1,2011:541-550.[28]WangC.,FanJ.,KalyanpurA.,etal.Relationextractionwithrelationtopics[C].InProceedingsofEmpiricalMethodsinNaturalLanguageProcessing,2011.[29]ChenJinxiu,DongHong,etal.RelationExtractionUsingLabelPropagationBasedSemi-supervisedlearning[C].Proceedingsofthe21stInternationalConferenceonComputationalLinguisticsand44thAnnualMeetingoftheACL.[30]CvitasA.RelationExtractionfromTextDocument[J].MIPRO2011,Opatija,Croatia,2011:23-27.[31]MoensM.F.InformationExtraction:AlgorithmsandProspectsinaRetrevalContext[R].Springer,2006[32]MikeMintz,StevenBills,RionSnow,etal.Distantsupervisionforrelationextractionwithoutlabeleddata[C].Proceedingsofthe47thAnnualMeetingoftheACLandthe4thIJCNLPoftheAFNLP,1003-1011.[33]毛小丽.基于特征向量的实体间语义关系抽取研究[D].重庆:重庆大学,2011.©1994-2013ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved,http://www.cnki.net

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭