《基于网络数据的中文公司实体关系抽取研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
学校代码:10004密级:公开又邊乂學BEIJINGJIAOTONGUNIVERSITY顿士学位论文基于网络数据的中文公司实体关系抽取研究作者姓名孟蕾学科专业软件工程指导教师魏小涛副教授培养院系软件学院二零一八年三月 硕士学位论文基于网络数据的中文公司实体关系抽取研究ResearchonRelationshipExtractionofChineseCompanyEntitiesBasedonWebData作者:孟蕾导师:魏小涛北京交通大学2018年3月 学位论文版权使用授权书本学位论文作者完全了解北京交通大学有关保留。、使用学位论文的规定特授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索,。提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅同意学校向国家有关部门或机构送交论文的复印件和磁盘。学校可以为存在馆际合作关系的兄弟高校用户提供文献传递服务和交换服务。(保密的学位论文在解密后适用本授权说明)学位论文作者签名:、备泰导师签名:签字日期:年<月日签字日期年月日>^丨Y 密级:公开学校代码:10004北京交通大学硕士学位论文基于网络数据的中文公司实体关系抽取的研究RetheRelationshiExtractionofChineseComansearchonppyEntitiesBasedonWebData15121689:作者姓名:孟蕾学号:副教授导师姓名:魏小涛职称:硕士学位类别:工学学位级别学科专业:软件工程研宂方向:自然语言处理北京交通大学2018年3月i 致谢在硕士学位论文完成之际,硕士研究生生涯也进入尾声。回顾将近三年硕士一,,研宄生学习与科研历程,感慨颇多在即将毕业之际衷心感谢每位支持和关。心我的老师,、同学、朋友和家人并感谢北京交通大学的精心培养这次毕业论文的完成得到了许多帮助与指导,在这些帮助和指导下我才得以顺利完成我的论文。首先感谢北京交通大学软件学院这两年半以来对我的精心培养,学院为我们,,营造了浓厚的学术研宄氛围,提供了先进的学习资源国际化的教学模式我在这样的学习环境中快速成长,使自己变的越来越优秀。祝福北京交通大学在今后的岁月里越来越辉煌。其次要由衷的感谢我的指导老师在研宂生生涯中,为我的学习研究提供的各,种机会与条件,在生活上给予的帮助给我在书写论文的过程中不厌其烦的修改与建议。,,再次要感谢跟我并肩作战学习的同学,我们相互讨论,交流思路研宄方法,,在遇到问题时,相互帮助,互相解决在进行实验过程中。感谢同学们的帮助,他们都给予了很大的帮助。在老师与同学们的帮助下我快速找到解决方案使我论文顺利完成。同时还要感谢我的家人对我攻读硕士学位的无限支持。 北京交通大学硕士学位论文摘要摘要公司实体关系抽取作为实体关系抽取的研宄分支,是信息抽取任务的重要组成部分,在开放性数据中抽取公司关系在了解和分析行业、做出管理决定选择商业伙伴等方面均具有重大意义,传统的实体关系抽取方法存在分类颗粒粗、不够细致等问题,而中文公司实体关系抽取中存在着语法复杂、组成灵活等问题,直接将传统的方法应用到此领域效果较差。因此,本文主要研究中文公司实体识别以及中文公司实体关系抽取。一本文研究的内容包含两个部分:第,研究中文公司实体识别的方法。中文公司名称和简称的识别是自然语言处理一(NLP)中实体识别的个重要的挑战性的任务。传统的公司名称识别的方法存在未登录的公司名称难识别以及简称识别存一在实效性差和训练语料库构建困难等问题,基于这些问题本文提出了种基于规SF-UNION则和词典匹配以及统计的机器学习方法融合的算法(),以公司名称作为标准语料库,有机结合提高了中文公司名称与简称识别的性能,在开放测试中,该方法的公司名称与简称识别的召回率1、准确率、F值分别取得较好的效果。第二,研究中文公司实体关系抽取的方法。中文公司实体关系抽取中存在着诸多一,问题,传统的方法应用性较差。为了解决以上问题本文提出了种基于依存句法分析(DependencyParsing,DP)的注意力机制(Atentionmechanism,ATT)Short-TermMemor与长短期记忆网络(Longy,LSTM)网络融合的算法(DPATTLSTM),对输入文本,__句子进行依存句法分析操作根据公司实体关系一的特点获取到由依存弧进行判断的谓语动词序列,输入到个LSTM网络中,同一LTM时将单句输入到另外个S的输入层,相应的谓语动词信息是作为先验知识并入,以自适应地计算注意力用于生成句子表示的权重,然后将计算得到的特征向量输入到分类器中,进行实体关系的分类,本文的算法得到较好的。实验证明效果,准确率、召回率和F1值分别取得较好成绩。关键词:;中文公司实体识别关系抽取;中文公司关系抽取;LSTM;句法分析iii 北京交通大学硕士学位论文ABSTRACTABSTRACTAsaresearchbranchdrawnfromtheentityrelationshiextraction,comanentitppyyrelationshiextractionisanimortantartoftheiionextractiontask.Extractppnformatinpgcomanrelationshisinoendataissinificantnunderstandlpyppgiingandanayzingindustriesmakinmanaementdecisionsandchoosinsinesst.,ggbuparnersetcTheg,traditionalmethodofenttrelationsitrtibliyhpexaconhassomeproemssuchascoarseclassificationandinsufficientdetails.However,intheChinesecontext,problemssuchascomplicatedgrammarandflexiblecompositionofwordsarefacedintheapplicationofChinesecomanentitrelationshiextraction.Itislessefifectivetoaltradtipyypppyionalmethodsinthisareadirectly.ThereforethisaermainlstudiesChinesecoman,ppypyentitreconitionandChinesecomanrelationshiextractionygpyp.Thecontentofthispapercontainstwoparts.Firstly,inthispaper,themethodofChineseentityrecognitionisstudied.TheidentificationofChinesecompanynamesandacronymsisanimportantandchallengingtaskforentityidentificationinNaturalLanguageProcessing(NLP).Thetraditionalmethodofcompanynameidentificationhasthefollowingproblems.Notonlyitisdifficulttoidentifthenamesofcomaniesypthatarenotyetregistered,butitisalsopooreffectivetoidentiftheabbreviationnamesy,aswellasitisdifficutttrtthtraiiusloconsucenngcorp.Basedontheseproblemsthis,aperpresentsalearninalorithmbasedonrulesanddictionarmatchpggyingand-UNIONstatisticsfusionalgorithmSF.Usinthecomannameasthestandard()gpycorusoraniccombinationimrovestheerformanceofChinnameandp,gppesecompanyshortnamereconton.Intheoentesttthlgiip,hismehodasachievedgoodresutsoftherecallrateaccuracFvltiitheco,aueresecvelnmannameidentificationandthy,,pypyeabbreviationrecognition.Secondly,themethodofextractinghinesecomanentitCpyyrelationshiisstudiedinthisaer.TheextractionofChinesecomanentippppytyrelationshiisanimortantartofentitrelationshiextractiontask.Howeverduetopppyp,manroblemsintherocessofnesecomantitltitrtiyppChipyenyreaonshipexacion,drectalicationoftraditionalmethodsislesseffectiveinPracticalalicationInotpppp.rderosolvetheaboveroblemsthisaerroosesaDPATTLSTMalorithmbas,edonppppp__g-AttentionmechanismATTandLonShortTermMemorLSTMnetworkfusion()gy()basedonDeendencParsinDPAccorintthDePithiutpyg(.doeendencarsnofen)gpygpsentence,thesequenceofredicateverbsudedbthedeendencarcisobtainedpjgypyrintothtritithttliaccodgecharacescsofeeniyreatonsandinputtoaLSTMnetwork.iv 北京交通大学硕士学位论文ABSTRACTWhileinuttsentintotetlaerofanotherLSTMthepingasingleencehinpuy,correspondingpredicateverbinformationisincorporatedasaprioriknowledgetoihf.taittttresentationadapivelycalculatethewegtottentonusedogeneraehesenencerepnThenthecalculatedeienvectorsareinuttotheclassifiertoclassifytheetity,gpreiExrimentsshowthatthealorithmroosedinthisaeretsbetterresults.latons.pegppppgTheaccuracrecaltFIvleofthealorithmachievedbettererformancelraeandauy,gprespectively.KEYWORDS:RelationshiextractionChinesecomanentitreconition;Chinesep;pyygcomanrelationshiextractionLSTMdeendencarsinpyp;pypg;V 北京交通大学硕士学位论文目录目录擬IIIABSTRACTVI1弓丨胃11.1研宄的背景及意义11.2国内外研究现状213_本文主要内容以及贡献414.本论文的结构安排62相关工作72.1中文公司实体识别7212..中文实体识别相关技术82.1.3基于规则和词典的方法82.1.4基于统计的机器学习方法82.1.5二者混合的方法92.2中文公司实体关系抽取102.2.1实体关系相关介绍1022..2基于模式匹配的实体关系抽取方法112.2.3基于特征向量的实体关系抽取方法122.2.4基于核函数的实体关系抽取方法13225..基于深度学习的实体关系抽取方法4123.本章小结153中文公司实体识别163.1命名实体识别163.2现有方法的不足以及问题提出1633.基于规则和词典匹配以及统计机器学习融合的方法173.3.19分词词库的构建与扩充13.3.2实体识别工具选择2033.3.中文公司简称命名规则分析21334..候选简称选取233.3.5筛选与验证24vi 北京交通大学硕士学位论文目录3.4实验设计以及结果分析26263.4.1实验数据34226..实验评价以及指标34327..实验结果以及对比分析3.5本章小结2934中文公司实体关系抽取14131.现有方法的不足以及问题提出4.2中文公司实体关系定义324.3中文公司实体关系语料库构建334.3.1公司实体关系语料库的获取与预处理3443234..公司实体关系语料库标注4.4LSTM基于句法分析的注意力机制融合的方法344.4.1词表不输入层构建354.4.2长短期记忆层构建364.4.3基于句法依存的注意力机制层构建394.5实验设计以及结果分析4145141..实验数据_4.52实验评价指标424.5.3参数设置4245442..实验结果以及对比分析4.6本章小结485结论495149.结论52展望50.参考文献5155作者简历及攻读硕士学位期间取得的研究成果56独创性声明学位论文数据集57vii 北京交通大学硕士学位论文1引言,现代金融领域的竞争方式逐渐演变为全方位随着信息技术的迅猛发展、全球化的信息情报的竞争。在我国经济迅速发展的大背景下,不断的挖掘和处理来自企业公司内外部的信息,从而形成情报资源,这种方式更是战略性的需求。在这样的环境下,公司(企业)竞争情报系统(EnterseCometitiveIntelliencepripgSystem,ECIS)因竞争的需求性以及科技信息的不断发展而迅猛发展起来。近年来国内外在ECIS的投入均不断的扩大,其重要途径是运用数据挖掘等相关技术手段,并且在实际应用中取得了相应的成果,。但是作为重要的情报类型一直未能得到相关的重视和研宄公司关系抽取。因此本文在研宄中文公司实体识别的基础上,加之实体关系抽取的相关技术的研究,结合ECIS的文本特点,对中文公司实体间关系抽取任务进行了探讨和研宄。1.1研究的背景及意义近年来,随着互联网和信息技术的迅速发展,海量信息以文本方式渗透至社会经济各个环节,如何从这些非结构化或者半结构化的数据中找到重要信息,成,由此催生了信息抽取技术为近年来人们关注的热点。随着基于互联网上的海量文本数据挖掘应用的层出不穷,对于信息抽取的需求也不断提高,。对于公司来讲通过互联网搜集公司信息,可以快速找到销售渠道,以及在全球范围内寻找竞争对手和合作伙伴。一公司实体关系抽取作为实体关系抽取的重要组成部分,直是工业界和学术,基于网络数据的公司关系的抽取具有重要的理论意义和应用前景界关注的问题。在情报领域,公司关系抽取有助于改进情报检索技术,更新与促进领域技术的发展,;在金融领域中文公司之间的关系抽取能够为金融活动中的投资者以及融资者提供了极具价值的商业情报;在自动问答系统和翻译系统中,公司实体关系抽取为其提供结构化以及半结构化数据支持,;对公司本身来讲基于网络数据的公司关系抽取在协助公司构建本体库和公司实体关系网方面具有重要作用,提高公司的核心竞争力。公司实体间的关系是竞争情报最重要的研究部分,更是管理者较为关注的方面。目前,己有很多国际知名公司如IBM、壳牌国际、保洁公司等都建立了自己的情报系统,目,。但是前国内的关系抽取系统产品多为对情报信息进行浅层特1 北京交通大学硕士学位论文引言,征抽取的处理,没有涉及到公司间实体关系的抽取,其研究也较为浅层效果也不尽如人意。实体关系抽取是信息抽取任务的研宄分支,而公司关系抽取属于实体关系抽一-11取的子项,具有定的关系,如图所示。-图11信息抽取、实体关系抽取、公司关系抽取三者关系-Fliiitiiitliittiiure11Reatonshamonnformaonextractonentreatonshexraconandgp,gypcomanrelationhipysiextractonp公司实体关系抽取的应用范围十分广泛,。例如在公司关系的发现与检索领域,,能够让用户清晰看到不同公司之间存在的股权投资通过公司关系、债权债,务等关系,这种关系能够直接用于公司的风险评级、研宄分析等等己经。目前出现大量可以供用户检索公司关系的应用,但其大多基于工商数据,检索范围有一工商系统注册过的公司及股权投资关系的查询限,般仅限于在。而开放的互联网数据却蕴含着大量的各类其他关系信息,例如,媒体公开报道中可能会包含公司之间的合作关系,、风险关联关系等。但令人遗憾的是国内外对公司实体关系抽取,尤其是中文公司实体关系抽取领域的研究很少。本文的研宄意义:对金融文本数据进行分析探讨,为该领域的公司实体关系抽取提供了理论基础,准确高效的获取有价值;随着互联网文本数量的大规模增涨的信息以及在建立各个领域知识库等方面均具有重要的实际应用意义。12.国内外研究现状1[]一信息抽取是种文本处理技术,研究始于20世纪60年代,关系抽取的研究与发展以MUC(MessageUnderstandingConferences,MUC)评测会议和后来的自动内容抽取(AutomaticContentExtraction,ACE)评测会议为主线进行的,MUC会议的发展使得信息抽取逐渐演变为自然语言处理领域的重要组成部分,ACE评测研宄方法主要从新闻文本中抽取实体、关系、事件等相关内容。2 北京交通大学硕士学位论文引言(1)公司实体识别研宄现状在命名实体识别方面,中文公司实体识别借鉴实体识别的相关方法,自1996-年MUC6会议上提出命名实体的概念,其研宄方法主要分为人工规则的方法、统计学方法以及规则结合统计方法,在。随着近年来深度学习的广泛应用命名实体识别方面深度学习也取得了部分研宄成果。,基于规则的方法,必须要构建大量的规则集,以及丰富的专家知识应用扩展性不高。因此统计学方法应运而生,主要包括决策树(DT)、最大熵(ME)、条件随机场(CRF)、隐马尔可夫(HMM)等模型。这些方法都是从标注好的语料中进行实体识别,然后创建相关的实体特征。随着实体识别在实际应用领域的逐渐扩展,人们逐渐采用基于规则和统计结合的方法进行实体识别任务,。其优势体现在不但减少了人工规则的成本而且能一。抽象出定的规则,以此来减低某些规则在某些语料集上的依赖性K[2]azama等将条件随机场模型结合分类标示信息应用到命名实体识别的任务3Y[],取得了较好的效果onhuiWu(DNN)利用大量上。g等人使用深度神经网络,未标注的语料,通过训练词向量,在生物学语料上取得了很好的效果超过了当wCRF.8Hu时最好的模型,其F1达到了92%。Zhihengang等人使用双向循环神经网络和条件随机场进行命名实体识别,在CON112001数据集上,其F1值达到了9010.%。以上研究均是在英文实体识别领域取得较好的成绩,但由于中文句子存在结构复杂,、松散、表达多样性等问题传统的实体识别方法直接应用到中文公司实体识别抽取任务中不能达到很好的效果。(2)公司实体关系抽取研宄现状,目前,公司实体关系抽取沿用实体关系抽取的相关方法在基于网络数据的,中文公司实体关系抽取领域,少有研宄针对公司实体现有的公司实体关系抽取一,己定的研宄成果方法借鉴传统的实体关系的抽取方法取得了。,关于模式匹配的实体关系抽取的方法,主要依赖于相关领域专家针对相关领域的实体目标关系,人工制定出此领域的实体对集合模板,并构建大规模的实体关系模板库,,,将待处理数据与模板库进行模式匹配若成功匹配则认为该实例具有模板库中对应的模板属性,这种方法适用于开发特定领域的知识抽取系统并取得较高的准确率。56一[,],文献介绍了系列基于规则的实体关系抽取系统。此方法应用于特定领域需要构建规则者对相关领域特点具有深入的了解,成本投入大,而系统的移植性3 北京交通大学硕士学位论文引言差,并且很难建立完整与精确的关系模式集合,取得的召回率较低,而且模式匹,,配的方法对于语料要求较高具有很强的依赖性,后期需要大量的修改与重写一虽然扩展的模式匹配方法可在定程度上缓解该问题,但其思想是定义少量种子集合,再进行模式集合的扩展,仍然存在很多的不足。基于特征向量的关系抽取方法,主要通过基于语义的词法分析以及句法分析等方法,从相关实体上下文、词性标注等相关信息中提取特征转换为平面特征向,SuortVtMine量从而利用抽取的特征向量训练分类器,例如支持向量机(ppecorach,SVM)MaximumEntr,ME),、最大摘(opy等利用向量之间的相似度进行分类。一该方法视实体关系抽取为个分类问题,并且在ACE2005语料库上取得了较好的效果,重。基于特征向量的抽取方法不需专业领域专家的知识存储点在于提取完整,、丰富的特征和选择合适的分类器模型特征的提取在于最大限度的包,括实体关系信息,用来提高特征区分度基于特征向量的抽取方法的缺点。另外还在于中文语法特征结构复杂多样,以及需要大量的人工进行特征标注工作,在基于特征向量的工程上有一定的难度。基于核函数的实体关系抽取方法,主要通过利用核函数直接计算两个非线性数据结构的相似度,从,也不需要提取相关特征而不需要构建模式集合,因此不一会产生维度灾难,此方法重点在于设计个计算两个实例之间相似度的函数,用于代替特征向量的内积计算,进行分类训练。近年来,基于核函数的实体关系抽取方法在英文关系抽取任务中,已经取得11[],优于特征向量的实体抽取方法例如基于语义序列的核函数方法、基于最短路13径的核函数方法[12][]、基于依赖树的核函数方法以及基于卷积语法树核函数的方14[]法等,均取得较高的准确率,但由于中文句子自身存在句法结构复杂、表达方式多样性等问题,基于核函数的抽取方法直接应用到中文公司实体关系抽取任务中亦不能达到期望的效果。1.3本文主要内容以及贡献在公司方面来讲,更注重的是公司之间的相关信息。因此,文本主要通过中文公司实体识别和公司实体关系抽取两部分的研究对中文公司实体关系抽取进行研宄。(1)基于网络数据的中文公司实体全称和简称的识别方法在中文公司实体识别方面,有大量的未登录词以及包含词语歧义等问题,而中文的构造复杂性给中文实体识别更是带来了困难,由于其内在特点,中文的命4 北京交通大学硕士学位论文引言名实体识别相较于西方语言来说更为困难,中文命名实体识别同时要考虑到中文分词,、词性标注、词性消歧、实体标注等方面在其识别效果上也不如西方语言。英文中的命名实体具有较为明显的形态标注,如地名、人名等均有首字母大写的,,而中文则复杂的多,规范所以实体边界识别较为容易。在中文处理中人名、一地名和机构名的构成方式随意性较高,虽然存在着定的规律,但是无法通过简单的规则匹配进行识别。总之,由于中文公司名称的复杂特征等问题,中文公司实体全称以及简称的确认与识别是很困难的。1语料库建设困难:别名多样,包括汉语拼音,缩写,以前的名字,音译,)“”“”“”,首字母缩写等等,。例如中国农业银行的别名包括农业银行农行一些公司名称甚“”“”等。其他至没有任何规定,例如中国人民银行(简称中行)“”“”缩写为央行或央妈。这使得语料库的建设比较困难。2时效性差:由于互联网的发展,自然语言的应用互联网沟通中的处理更加)“”“”一频繁和随意,如微博和微信。这也是别名识别的另个挑战。针对以上问题本文提出一种基于规则和词典匹配以及统计机器学习方法融合的算法,利用实体识别工具在识别公司实体全称以及简称方面进行结合,获取召回率较高的公司实体的全称和简称的候选集,然后通过字符匹配方法与相关规则进行全称和简称的筛选,然后通过最短路径以及共现算法对公司实体的全称和简..称进行验证,该方法最终取得准确率9675%,8905%、召回率以及F1值分别为和92.74%。(2)基于网络数据的中文公司实体关系抽取的方法公司实体关系抽取作为实体关系抽取的研究子项,是信息抽取的重要组成部分,从开放性数据中抽取公司关系在了解和分析行业、做出管理决定选择商业伙伴等方面具有重大意义,但中文公司实体关系抽取中存在着语法复杂,组成灵活,直接将传统的方法应用到此领域效果较差等问题。针对以上问题本文在中文公司实体识别的基础上,选取包含2个以及2个以上中文公司实体的句子进行研究一,并提出种基于依存句法分析的自适应注意力机制与长短期记忆网络融合的方法(DPATTLSTM)。在实体识别的基础上,首__先,将分词后的文本向量化操作,输入到LSTM网络,得到句子的文本特征表示,采用基于句法分析的自适应注意力机制,计算文本特征的权重,最后将计算得到的特征向量输入到分类器中,进行实体关系的抽取。实验证明,本文的方法得到...较好的效果,准确率8423%、8955%、8681%。、召回率和F1值分别达到:5 北京交通大学硕士学位论文1.4本论文的结构安排本论文主要通过对中文公司实体关系抽取的研究,并对其相关算法进行研宄优化与改进,全文的组织结构安排如下:一第章引言?总结了中文公司实体关。介绍了本文课题的研宄背景以及意义,系抽取国内外的研究现状;概述了本文的主要贡献;介绍了本文的结构安排。第二章相关工作。主要介绍了实体识别以及实体关系抽取的相关工作。第三章中文公司实体识别。首先对中文公司实体识别进行了概述;介绍了中文公司实体识别的相关技术的不足之处以及问题的提出;并且提出中文公司实体全称与简称的识别方法即基于规则和词典匹配以及统计的学习方法融合的算法F-UNION(S),构建了相关词库,扩展了分词词库,介绍了数据的获取形式和评估方法,并对实验结果进行研究与分析。。第四章中文公司实体关系抽取首先对中文公司实体关系抽取进行介绍;总结了中文公司实体关系抽取的相关技术的不足之处以及问题的提出;重点介绍基于句法依存分析的注意力机制与长短期记忆网络的方法,分析了句法分析谓词关系的重要性,以及注意力机制在LSTM网络中的重要应用,介绍了数据的获取方式以及评估方法,并对实验结果进行研宄与分析。第五章总结与展望,。总结了本文所做出的实体关系抽取的贡献并对未来工作进行了展望。6 北京交通大学硕士学位论文相关工作2相关工作2.1中文公司实体识别中文公司是依照公司法在中国境内设立的有限责任公司和股份有限公司,是以营利为目的的企业法人以及包含音译或者翻译成中文的国外公司名称。命名实体识别在一定程度上可以帮助公司名称识别任务。命名实体识别是中文信息处理任务的前提和基础,其中公司名称识别在名称实体识别(NER)中占有很大的比例,并且是最难识别的部分。211..什么是命名实体识别一一命名实体识别是个序列标注的问题,即将输入的文本作为个序列,而输出的序列为该句中每个词所对应的标签,其输入格式InutStrin)和(pg输出格式Ou-(tputString)如图21所示。i:InputStrng以阔为单位的输入,)(句子文本做为原始输入词与词之N以空格分幵极光网络为三七S娱子公司。OututStrin:pg以词为单位的输出结!li(标注单儿用空格分开)极光M络/org为/v三七互娱/org子公H/n。其中,,,v为动词标识org为组织机构标识/〇为名称标识;V^2-图1中文命名实体的输入格式与输出格式-ffFChiiigure21InputormatandoutputormatofnesenamedenttyX=1x23a4,=l234在这里用x:用Y〇,,,)来表示输入序列(y,y,y,y)表示输出X对=2=标注序列,则对应图中的例子则有:应的序列为{xl极光网络,x为,======x3三七互娱,x4子公司}Y对应的序列为{yl〇rg,y2v,y3org,y4n}。一XV=il23般的标注,可以有如下的定义:)...m对于训练的样本语料(w,w,,,,,其中^一m为语料中语句的句子总数。^个输入序列)表示语料中的某7 北京交通大学硕士学位论文相关工作一,n;yAon,其中为当前语句的分词词语个数w则表示为每个输入序列;T1所对应的标注的输出序列得到每个词语i所对应的命名实体。W下面主要介绍实体识别的相关技术,基于规则和词典的方法、基于统计学的,以及本文所提出的基于规则和词典融合方法极其方法以及两者混合的方法。2.1.2中文实体识别相关技术早期的任务大多基于人工构造规则的方法,这种方法简单有效,但是需要大一量的人力投入,些基于监督学习的方。随着机器学习和人工智能的发展发展出法。监督学习需要人工获得带有大量标注的文档,在其上学习命名实体的特征,训练出模型。这种方法的主要问题是,语料库的构造需要高昂的成本。随后,也一些半监督学习和无监督学习的方法发展出,来解决语料库匮乏的问题。15实体识别与组织结构识别的方法主要分为如下三种[]:基于规则和词典的方法、基于统计的机器学习方法,以及规则与统计相结合的方法。2.1.3基于规则和词典的方法早期的命名实体识别常常使用基于规则和词典的方法,它是通过在文本中确定命名实体的左右边界来实现的。例如:首先借助机构称谓词库获得组织机构的右边界,而后运用统计的机器学习方法和人工辅助相结合的方法,寻找到特征词词典和机构名称的组成规则集合,利用规则来确定实体的左边界。当遇到规则冲一16[],突的时候般通过机器学习的方法来进行校正,。例如沈嘉懿等利用规则和词典结合的方法对开放式语料进行了机构全称与简称的识别。由于开放性测试集会出现大量的未登录词作为机构名称,使得规则的方法效果不是很好。测试的结一一果显示了基于规则方法具有定的局限性,尤其是对于些多义词组成的命名实体的识别。2.1.4基于统计的机器学习方法基于统计机器学习的方法,大多需要通过人工标注语料的方式获得训练数据,即将文本中的相应词组在训练集中被注释为实体。基于统计的实体识别方法主要包括如下几种:隐马尔可夫模型(HiddenMarkovModel,HMM)、最大熵模型(MaximumEntropy,ME)、支持向量机模型(Support8 北京交通大学硕士学位论文相关工作7[1]VectorMachine,SVM和条件随机场模型(ConditionalRandomFields,CRFs)等。)一隐马尔可夫模型作为种基于统计的机器学习的算法,是由马尔可夫过程演一变而来,其将自然语言的形成看作是个隐马尔可夫过程。这种方法被广泛应用于自然语言处理的各个领域,、词性标注如实体识别、语音识别、分词、机器翻译等。一BNE的i最大熵模型是种常用有监督的分类方法,最早由orthwck引入到英文一,识别中,把中文命名实体识别问题看成为个多分类问题,通过最大熵模型利用训练得到的参数进行命名实体标注,从而获取命名实体的识别。n一支持向量机是由VladimirN.Vapik等人提出的种机器学习方法,将命名实体一识别任务当作种分类问题,通过获取语料库中的单词和特征,增加标注标签,组成训练样本,训练支持向量机分类器,并且对未标注语句进行识别。条件随机场集成了最大熵模型和隐马尔可夫模型的特点,是基于词标注和分18[],割序列的条件概率模型,与其他统计模型相比该方法能够综合利用上下文信,包括字、词息、词性等等;此外还能利用到外部特征。国内学术界对于条件随机场模型的研究还相对较少,该方法具有较高的研究价值和应用前景。基于统计的机器学习方法对特征选取的要求较高,需要从文本中提取出各种19[]能够显著影响分类的特征。陈超等使用统计的方法构建出启发式模型,同样也2<)不能够区分出不同全称对应相同简称的情况[]。张祝玉等针对条件随机场的特征选取与组合进行了比较研宄,通过实验对比得出在训练时应优先选择贡献度大的21][特征,;另外使用组合特征也可以提升系统的性能。周俊生等使用层叠条件随22Sun[]基于类的语言模型把中文机场模型对中文机构名自动识别进行了研宄,等j23一[]起,在公司名称识别上也有较好的效果分词和命名实体识别结合在。俞鸿魁等,Viterb,在角引入了角色标注的方法采取i算法对切分结果进行角色的自动标注色序列的基础上,最终通过机器学习实现中文机构名的识别。215二..者混合的方法统计与机器学习的实体识别方法必需有大量标注数据,即对语料库要求极高,而公开的实体识别、组织机构识别的语料库相对较少,且标注起来较为复杂,成本极为昂贵,。如果能够事先通过规则进行过滤则可以减少对语料库的依赖。此夕,卜,规则与统计的融合方法恰好能够互相弥补彼此的缺点因为基于词典与规则的方式往往能够获得更高的准确率,却无法处理未登词;而机器学习的方法能够处理部分未登词,却不能获得较好的准确率。故在实体识别的实际应用中,很少9 北京交通大学硕士学位论文相关工作有单纯使用机器学习方法,而不使用规则及人工知识的命名实体识别系统。将三者进行融合,往往会得到更好的效果,而融合的方法则成为研宄的重点。24[]例如,Lin等使用最大熵作为融合的方法,首先使用最大熵方法识别文本一,中的实体,识别过程中会产生定程度的边界识别错误和语义分类错误随后通过词典和规则模式匹配的方法进行处理,修正实体边界和语义歧义,提高了系统的准确率与召回率。25[]|张艳丽等同样运用统计和规则相结合的方法对中文机构名称进行识别,仓J建了机构的名称识别模型。22中.文公司实体关系抽取2.2.1实体关系相关介绍实体关系抽取作为信息抽取的研宄分支,是自然语言处理aturalLanuae(Ngg26一[]Processin,NLP重要组成部分,g)的是种典型的信息检索问题。而在金融领域来看,如何从浩瀚的Internet上获取公司信息,以及如何分析公司的竞争对手以及合作公司,对公司的经营决策和生存发展都有着极其重要的意义,因此公司实体关系挖掘技术研究在公司实体识别的基础上产生。近年来国内外的实体关系抽27[],取的研究工作取得了巨大进步其中英文实体关系抽取的研究已经比较成熟,但由于相关语料库构建的匮乏,以及中文语法复杂以及组成多样化,使得中文实体关系抽取的发展较为缓慢。主流的实体关系抽取方法主要包括基于模式匹配的方法、基于机器学习的关系抽取方法以及基于深度学习的关系抽取方法,近年来国内外学者在深度学习方法做了大量的研究,。较其他传统方法取得了有效的特征其准确率和召回率比较一RRNNSTM是ecurrentNeuralNetworks高,)的,。L种循环神经网络(改进模型通过构建记忆单元存储历史信息,有效的缓解了RNN和卷积神经网络(ConvolutionalNeuralNetwork,CNN)的长距离依赖问题,该模型应用在自然28语言处理领域[]一,取得了很好的效果。Lin等人提出了种基于句子级别注意力机制的神经网络模型,该方法可以根据特定关系为实体对的每个句子调配权重,一与其他的模型比较,该方法得到了较大提升。注意力机制是种模拟人脑注意力机制的模型,通过计算注意力概率分布,突出某些关键性输入,增加对输出特征的影响作用,对于神经网络模型有很好的优化作用。依存句法分析的目的是通过,,从而对句子进行句法分析分析句子的各个成分得到各个成分之间的依赖关系。10 北京交通大学硕士学位论文相关工作句子成分之间相互依存和被依存的现象在中文中普遍存在,利用句法分析可得到29[]相关的结构化数据。BankoM等人应用句法依存设计并实现了TextRunner系统,3()[]i将动词作为关系表述。EtzicmO等人利用句法分析,以动词表示实体关系,准确率在开放式实体识别中达到80%。本文在以上的研宄基础上,提出了基于依存句法分析的注意力机制融合LSTM网络的方法(DPATTLSTM),旨在解决__传统方法在中文金融领域公司实体关系准确率低的现状,以及中文在不同的语义环境下,语法的表达较为多样性等问题。一公司实体关系抽取主要借鉴般的实体关系抽取方法,极少有研究专门针对公司,并且鲜有学者在开放性互联网数据中对公司实体关系抽取进行研究,又因为中文语法具有许多固有性质的限定,将英文实体关系抽取的方法直接用在中文上是非常困难的,以至于关于中文的公司实体关系抽取的研宄效果较差。目前,实体关系抽取的方法主要有基于模式匹配的关系抽取方法、基于特征向量的关系抽取方法、基于核函数的关系抽取方法、基于深度学习的关系抽取方法。22..2基于模式匹配的实体关系抽取方法在实体关系抽取领域,最早普遍使用的方法就是基于模式匹配的关系抽取方法。这种方法运用语言学知识,构造出若干基于词语、词性等基于语义的模式集合,,。将预处理的句子与模式集合进行匹配若匹配成功则认为该语句与对应的模式之间存在相关的关系属性,,。这样的方法存在编制模式周期长应用成本高以及应用到某种领域时需要重新编制关系的问题,在实际应用中较为困难。对此,有学者提出了新思路。31[]J.Aitken等人通过对自然语言数据应用归纳逻辑编程(ILP)技术来学习信息提取规则,。通过ILP系统来学习属性值关系这使得这些关系的实例能够在文[32一]本中被识别.MeDonald,。D等人在生物医学领域的关系抽取将来自单的语法和语义信息的访问结合起来,通过语义过滤方法以及专家评估显示解析器以0.89的精度提取生物相关关系。33“AD[]”ppehE等人提出的FASTUS关系抽取系统,通过引入宏概念将各个领域“”内的依赖规则通过扩展以及通用方式进行表达。使用者只需配置宏的34[]相关参数,即可配置相关领域任务的关系模式anY。Om等人采用基于样本泛化的关系模式,建立了Proteus系统,用户通过此系统对含有某种关系的语句进行分析,识别出关系要素,然后对关系要素进行泛化,得到相关模式。,在应用模式匹配方法进行关系抽取时需要建立关系模式,而建立完整有效11 北京交通大学硕士学位论文相关工作的模式关系又是此方法最重要的步骤,最初的关系建立依赖于语言学专家进行语,,也需料的深入分析与研究,穷举出可能的表达关系以及后来的关系抽取系统一,,实现非常困难要专家参与编制关系模式而这处理模式在实际应用中。2.2.3基于特征向量的实体关系抽取方法基于特征向量的实体关系抽取主要在于有效特征的表示,主要从自由文本以及句法结构中抽取词性、实体类型等特征训练分类模型。基于特征向量的关系抽取关键在于如何从实体的上下文提取有效特征。35[]KambhatlaN等结合了实体词,运用最大熵、实体类型以及依存树等特征模型进行关系分类,以ACE2004语料库为数据集,取得F1值为0.528的结果。Zhou36[]GD等人研宄了基本词语在内的各种特征广泛的融合,讨论了各种语言特征对37一[]针对不同实,于关系抽取的性能,取得了定的效果但召回率依然过低。文献,体关系的差异,提出新的句法特征,构建不同的特征向量依赖实体和动词路径38[]一个朴等特征,利用条件随机场模型进行分类用语义、句法特征构造了。文献-素贝叶斯分类器,在TRECQA2008语料库的实验显示比Snowball系统性能提39[]-高1015%。文献通过句法语义组合特征,实现了SVM模型的关系抽取,该研[4()]Winnow和究表明组合特征能够提升关系抽取的性能。车万翔等构造出的基于SVM的特征2-2所示向量如图。£1.TYPE^ZTYPE^lSUBTYPE,E2.SUBTYPE:Or缸一---- ̄--- ̄+wWiWiWi+1...waw1...ti11._1Wiuw1...1Wi1,t;,#es,,ss--------f+-wWww...tt...tW...11...1W\vst9t11,1swljLss,,,s,j,jjjjjj-图22特征向量的构造Fi2-2Constructionofurefeaturevectorg.EOrder其中,E.TYPE代表实体大类,ESUBTYP表示实体子类。代表实体之,W间的相关位置关系,i和分别表示两个先后实体出现的位置k和tk分别为位j置k处的分词与词性。,基于特征向量的关系抽取方法较易理解,效率较高,但传统的特征向量方法,,从词法表面提取特征,存在维度较高特征稀疏等问题所以出现了基于核函数12 北京交通大学硕士学位论文相关工作的关系抽取方法。224基..于核函数的实体关系抽取方法41一[]种核函数方法最早应用到关系抽取任务中,是由文献提出,文中设计了核函数算法,通过计算两个浅层句法分析树,计算这两个样本之间相似度,最终将此核函数应用于SVM分类器中,取得了较好的效果。42[]文献提出对编辑距离核函数进行改进,分别利用投票感知模型和SVM进行43[]试验,在某个单个关系类别上达到了91%的F1值。文献利用卷积树核函数对实,体关系进行抽取,表明句法树种的句法信息对关系抽取是非常有用的并且卷积树核函数能够捕捉到这些句法特征。实验结果表明,在ACE子类型关系上,卷积树核函数的关系抽取方法取得了最好的效果。例如:两棵解析树T1和T2,他们“”“”--,d和acat之间的相似度,思路如图23,见公式(21)。例如名词短语aog-,23所示之间相似度的计算如图。INPNPNPINPNPNF/\/\/\/\八/\N{DNDNDIDNDNDNIIIIIIII’'Iadoa^^acatcadoggita1IIIIIDN1DNINPINP|adog/acat\II|/\||DNIDNaadogcali图2-3名词短语子树相似度计算思路-lliFigure23SimilarityCacuatonofNounPhraseSubtree2-KT1T2=Annl(1),SCt)C(_)n^^e^,其中…是7的节点集合,Anln212为根的共同子树个数按下列}(,)计算以^和的递归的方法步骤进行计算:=0,1假如nl与n2节点处的产生式有差异,则有A(nln2否则转向(2);,)()一=x入32nl和n2都是叶子前的,则有A(nln2l,(假如个节点,)否则转向();)2-23递归地计算A(nln2,由公式()进行计算。(),)13 北京交通大学硕士学位论文相关工作n(^Anln2=lch(nlk2-2)(,)A+h,chn2fc(rifc=i{,)(,))(j其中#£:/!是节点n的孩子节点数目,c/in/c是节点n的第k个孩子节点,(&))(,)入〇<入<1是衰退因子〇A,"。()。卷积树核函数计算的时间复杂度为(|M丨2丨)核函数方法主要利用语料库本身的信息,定义了与其相同的结构,有利于缓,解高维特征带来的复杂工作但由于多样语义表达方式不同所产生不同的结构,以及对于长短差距较大的文本处理能力有限等原因,影响了核函数方法的性能。2.2.5基于深度学习的实体关系抽取方法不管是最初的模式匹配的关系抽取方法、基于特征向量的关系抽取方法还是基于核函数的方法一,都存在着些问题:模式匹配方法存在人工参与较多的问题;而基于特征向量的方法则存在维度较高,特征稀疏等问题;基于核函数的关系抽取方法对于长短距离较大的文本处理能力弱等问题。随着深度学习的发展,可以较好的解决以上问题,。近年来神经网络以及深度学习己经成为研究实体关系抽取的重要研宄方法,并在具体领域中发挥重要作用。44Soch[]erR等人首先提出使用递归神经网络(RecursiveNN)的深度学习模型一,实验结果表明在关系抽取中,定的效果进行分析树的特征学习结构表示具有。但是当基于句子树的RecursiveNN神经网络模型,在句子长度比较长的时候,其2一时间复杂度为〇(n),因此在处理较长句子的情况下,定的限制性此方法具有。45[],LaiS在此基础之上等人提出基于词输入的文本特征抽取的循环神经网络模型,此模型在算法的时间复杂度上为0(n),由于此模型是偏置模型,对语义的影响46][逐级递减,文献通过最大池化层进行问题的解决。ZengD等人,通过词汇与句法特征,采用了多实例学习对过拟合现象进行优化,提出了分段式的卷机神经网络模型对关系抽取任务。在卷积神经网络进行关系抽取过程中采用词向量和词位置作为输入,句子中的句义能够很好的考虑到关系抽取中。47[]提出使用循环神经网络文献(RNN)网络解决关系抽取,利用句法树节点学习向量,按照句法迭代,用于关系分类,证明此模型有效,但无法很好的考虑48[]实体在句子中的位置采用新的卷积神经网络,,。文献设计了新的损失函数能49[]展示了长短期记忆网络-RNNs)够有效的提高类别之间的区别。文献(LSTM在关系抽取中的有效性。14 北京交通大学硕士学位论文相关工作2.3本章小结2.本章.1节介绍了命名实体的定义、中文公司实体识别的相关技术;22节介绍了中文公司实体关系抽取的相关技术,在进行相关技术研宄的基础上,总结了相关技术的优缺点,基于以上研究的最新的设计思路,鉴于LSTM良好的学习能LSTM进,力,优先考虑选择了行全局特征提取作;结合实验任务特点用基于依存句法的谓词序列的注意力机制计算特征权重,作为分类器的输入,进行公司实体关系任务的抽取。15 北京交通大学硕士学位论文中文公司实体识别3中文公司实体识别本章将详细阐述中文公司实体识别,首先阐述实体识别的原理及特点,然后一介绍了中文公司实体识别的相关技术,最后阐述了本文提出了种基于规则和词典匹配以及统计的机器学习方法融合的算法。3.1命名实体识别命名实体识别在一定程度上可以帮助公司名称识别的任务。命名实体识别是中文信息处理任务的前提和基础,其中公司名称识别在名称实体识别(NER)中占有很大的比例,并且是最难识别的部分。其识别精确度远低于实际的需求。中,这给自然语言带来了很大的处理困难文公司的名称中的大部分是未登录的词汇。在许多公司新闻文本中,公司实体中有时会存在潜在的关键信息。在金融信息提取领域,公司实体识别起着非常重要的作用。如何正确识别出现在新闻文本中的公司实体是一个非常重要的研宂课题,也。除了公司全称的识别应该明确其别名一来掌握完整的信息。该公司实体的别名是指实体的另个不同的名称,包括缩写,首字母,翻译成其他语言等等。公司实体识别在社交媒体分析中起着非常重要的°[5]作用,而且是广泛的应用于很多领域,如:舆情分析、公司关系提取、公司风险分析、公众意见分析等。3.2现有方法的不足以及问题提出目前的中文命名实体识别在技术和应用方面都存在很大的进步空间一:方面,与英文的实体识别不同的是,处理中文首先要对文本进行分词,而分词的准确性直接影响着命名实体的识别效果,而在金融领域中,很多公司实体作为未登录词并不能直接被识别出,且不同词语用于不同的情景之下会产生词义的歧义性,例“”一一一如:苹果词,可看作是种水果,也可以看作是种手机品牌,所以对词语的标识直接影响到实体的识别。一,,经过改进的模式在实际的复杂应用中另方面在实际的应用生产中,也并不能取得预期的好效果,往往都需要添加相关规则和字典才能更有效的保证召回率和准确率。统计模型具有的缺陷使得其在实际应用中,主要存在以下几个不足之处。16 北京交通大学硕士学位论文中文公司实体识别(1)语料库的匮乏一业内缺少统的标注规范,使得不同领域在进行实体识别时具有不同的标准,一另外,在标注时,底层所采用的分词系统也并不统,使得准确率不尽相同,因此难以做到统一用半监督等方法来克服标注所带来的问题,但在获;即使有人采一取语料的正确性和收敛性上都存在着,所以并没有深入广泛的应用定的问题。一,在实际应用中,人们仍然倾向于选择监督训练的方式为主所以还需要将统规范的语料为重点。(2)伯息丢失传统的基于统计学的模型,在预测当前缺失的词语时对于当前词语之前的词会一,丢失有所考虑,但之后的词,没有进行计算和考虑,从而会在识别过程当中,部分信息,因此传统的统计学模型对于更为复杂与多样性的中文文本来说不能很好的建模进行实体的识别。3.3基于规则和词典匹配以及统计机器学习融合的方法一,中文公司实体识别,包含两层含义,个是从文档中提取中文公司名的全称“”例如中国工商银行股份有限公司,这恰好是命名实体识别和组织机构识别的“一工子任务,,;另外种是简称的识别是指从文章中提取公司实体的简称例如”“”上行,并将其对应到相应的全称中国工商银行股份有限公司。一目前的研宄领域主要分为几类,是公,不:第类司实体的识别分全称和简称,可以归,不做抽取简称和全称的对应关系。即为命名实体识别的子分类问题,而方法正如前文所述结到命名实体识别中去。第二类则是公司全称识别,即从文本中提取出公司的全称。该问题的实质是如何在文本中确定公司全称的边界。这。该类研宄主要运用规则结合字典的方法一类研宄往往是针对组织名称进行研宄,而公司实体识别是其中个非常重要的组成部分。第三类则是简称的识别和与标准全称的对应。与传统的命名实体识别不同的。是,这类研究不光需要找出公司的简称实体,而且要与公司的标准实体对应此一类研究与传统的命名实体识别研宄有比较大的区别。简称的提取往往建立在个,通过衍生完备的公司全称词库之上、与文本进行对比等方法获得与全称相对应的简称。针对目前中文公司实体识别的语料库匮乏以及公司简称和未登录词识别困难一的情况,本文提出了种基于中文公司简称规则结合分词词库扩充加以与机器学17 北京交通大学硕士学位论文中文公司实体识别习方法进行融合的方法,对文本数据进行处理爬虫获取的最新的新闻文本,通,将过分词系统进行分词,在此阶段运用模型结合的方法识别文本中的公司实体,针对一定程度识别错误通过筛选与验证模块基于词典和规则模机器学习方法可能产生,式匹配的简称处理,,同时将分词词库进行扩充修正结果并提高了算法的准确率与召回率。3-中文公司名称识别以及公司简称与全称的对应整体结构如图1所示。公司简称规则r^wmr飞涵系1i候集卜,对!一?tfd比SanorNER|验一1鮮分词、^lll卜士^{pjH—d—?FunanNER公坷类型库丨3-图1中文公司名称识别以及公司简称与全称的对应整体结构-nameFigure31Chinesecompanyreconitionandcomannameandfullnameofthegpycorrespondingoverallstructure此流程包含主要模块为公司实体识别模块,、筛选与简称全称映射模块其中公司名称识别模块主要包含基于规则与词典匹配、基于模型方法结合使用。本文使用的语料库由来自网上的近期金融新闻构成,经过文本预处理,将新,闻文本中公司名称以及简称进行标注作为语料库。首先对此未标注原始数据文,Stanford本进行了分词,词性标注作为数据源,使用中科院分词系统分词结果作为NER的输入源,进行公司实体识别。其次,同样将未标注的原始数据文本数据作FudanNER,进行公司实体识别StanfordNER识别出更多的公为算法的输入源。司实体的简称,并且对于公司名中含有英文的效果更好。FudanNER针对公司实用体后缀如集团、公司、协会、学院等组织形式的后缀识别度较好,所以本文采18 北京交通大学硕士学位论文中文公司实体识别了StanfordNER和FudanNER融合的方法,对结果进行了Union。实验结果表明Union的方法比单独使用StanfordNER和FudanNER的识别效果好。Un,,此模块ion后形成简称以及全称的候选集输入筛选与简称全称映射模块提出了基于多条规则的验证方式,筛选出公司的简称以及与之对应的全称。3.3.1分词词库的构建与扩充此部分本文采用中科院分词系统对新闻文本进行分词,在经过分词以及词性标注后得到的语料库作为公司实体识别的输入源。一一针对于些未登录词的识别难题,本文提出种词库的构建与扩充的方法,首先将已知的10万条标准全称库作为基础词库(DIC),在扩充词库中,针对公司名称领域,本文提出三种词库构建的方法用来识别公司全称的未登录词以及两种词库扩充的方法用来识别公司简称,用来补充过往历史数据的缺失,并且能够支撑后续的数据分析任务。(1)词库的构建公司称谓库:在本文中对中文公司全称的识别首先从确定公司名称的右边界“”“”“”“,企业,交起始,例如,先从分词以后的文本中找到集团,公司”“”,易所,,取得公司在文本中可能出现的位置厂等机构称谓词语。因此本文通过人工搜集此类称谓词的方法,建立公司称谓库,作为识别公司名称的触发。条件,添加至分词词库中,以便在文本在进行分词之初就能够识别出此类词汇“”“”“”,公司类型库,开发:公司类型名包括股份有限责任等附加在公司称谓前的词,该词库的建立作为辅助系统在公司简称识别时界定公司名的关一键字方面起到定的作用。行政区划词库0万条标准全称公司库进行贝叶斯概率计算,得到大:通过对1“”,部分的公司名称开头都包含地点,即武汉中元华电科技股份有限公司等因此本文以地点特征词作为公司全称识别的左边界,另外在词性标注中,分词工具地点识别上一,,存在可以标识出部分地点但作为全局的分词器,在定的误差和t,,错误,因此本文引入Gae2的地点词库作为确定公司名称识别的左边界补充至分词词库中。(2)词库的扩充首先,设数据源文本标记为NEWS,设3.3.3中通过规则切分出的70万条简A,iNEWS称集合为C,取CA中的元素i,与NEWS中的数据源进行匹配若能在一i。中完全匹配,则将加入集合DIC1,若i不存在,则进行下次循环查找以此19 北京交通大学硕士学位论文中文公司实体识别类推,循环往复,直至集合CA中的元素取尽。将DIC1扩充到基础词库DIC中。3.其次.33DIC2扩充到基DIC中,将所得的识别正确简称础词库进行公司名称识别的迭代。3-2所示词库扩充伪代码如图。ule-1RbasedDicricnaryExpansionforWordSegmentat.ion25creasecandidatealiasnameCA?牵45foreachfullnameHinComp&nyullHameDictionar(F)y£eneratecandidateall*fcrtesevenrulesgliJii!9foreachdocrjacentDmthedocumentbank11ifDcontainsHithen二3puzHiintoDIC12425continueendISend21end:图3-2词库扩充伪代码Fi-2Pseudo-codeofgure3thesaurusexpansion3.3.2实体识别工具选择经过实验本文的实体识别工具分别采用StanfordNER的ORGANIZATION识别模块和FudanNER的ORGANIZATION识别模块,通过分词后的分词文本作为StanfordNER和FudanNER的文本输入源。StanfordNER使用组合的三个CRF标注序列在不同语料上(ACE和MUC等)o一一reNLP训练的,C不仅是个体化的齐备的框架,具有良好的灵活性与可扩展一一?性,完整独立的,更是个拥有系列强大的语法分析功能的工具集,对任意文章段落都能快速分析,并且效果稳定可信赖对文本整体化的分析保持高质量表现,在实验中表明StanfordNER的机构识别模块,在处理公司实体的简称以及对于公司名中含有英文的效果更好。FudanNER采用深度神经网络(DNN)模型对组织机构进行识别,用于实体识别的祌经网络使用的经过预训练的字向量进行重新训练,在组织机构的识别中20 北京交通大学硕士学位论文中文公司实体识别一,在中性能更进步的提高,而且字向量采用的最终研宂用于中文的预训练方法,在中文公司实体后缀如集团文公司实体识别中、公司、协会、学院等组织形式,表现出较好的效果的后缀识别时度较好。3.3.3中文公司简称命名规则分析公司简称应是公司全称的缩写,词义要与公司全称完全相等,根据国家有关一++行业法律,(经、法规的规定公司名称般由四部分组成:行政区划字号营一特点+组织形个实体的不同名称,它主要包括简)式。公司实体的别名是指同称、缩写等等。通过以上的四部分进行排列组合得到多种规则候选集,本文通过利用贝叶斯概率模型进行规则决策:一一1,模型构造:为了计算某个公司全称出现多条对应规则匹配时根据每条(),规则出现的概率建立以下模型:1)假设中文公司全称被正确识别出来的事件为A。2)假设通过模型训练,得到的构造公司规则的样本空间为R。尽管人工无法一总结出切的公司全称对应的公司简称,也就是完整的样本空间,但通过对大量语料的训练,仍然可以将R看作为接近完整的切实样本空间。一3)对于任意个公司全称来讲,如若能被正确识别,那么它定会与样本空间R中的某一事件n匹配。4),事件完备性假设,即模型定量推理的理论前提步骤如下:=^i-ii.是互不相容的事件iii=23.Pr>0i1…n(,,,i)事件完备性假设成立。(2)先验概率的确认一,首先,假定样本空间R中,每条规则出现的次数为叫则可采用先验概率-计算该事件出现的频率,公式如(31)所示。='咐(3°)^21 北京交通大学硕士学位论文中文公司实体识别一其次,个事件^计算PG4r7,对每,即当事件出现时|£)^公司名称被正确识别3-2-出的概率。构造函数公式见()、(33)1规则x=f-2fi)(3)【0esel—=-PA(33)dln)1n+lnfU^r)(3)最大后验概率-根据贝叶斯定理可知,如公式34)。(所示-以及最大后验概率假设,如公式35)。(所示=max?(=maxPreCR-rararArr^(35)gj.Map\A)gil^Pi找出使得P(rM)数值最大的匹配规则rMa并将此规则作为最终使用规则。p公司全程对应的简称规则如表1所示。最后本文通过贝叶斯概率模型和人工辅助的方法总结分析得到每条中文公司全称对应的简称的七条相关规则如下:表1公司全称对应的规则简称Table1Rulesoffullcomannamecorresondinoabbreviationpypgt公司全称:武汉中元华电科技股份有限公司规则1:公司字号Abbreviation:中元华电规则+2:公司字号行业(经营特点)Abbreviation:中元华电科技规则3:公司字号+行业(经营特点)+组织形式Abbreviation:中元华电科技股份有限公司规则4:行政取号+组织形式Abbreviation:中元华电股份有限公司规则5:行政区划+字号Abbreviation:武汉中元华电++规则6:行政区划字号组织形式Abbreviation:武汉中元华电科技规则7:行政取号+字号+组织形式Abbreviation:武汉中元华电股份有限公司(1)若取公司字号作为公司简称,例如:武汉中元华电科技股份有限公司—中元华电。22 北京交通大学硕士学位论文中文公司实体识别(2)+)若取公司字号行业(经营特点,例如:武汉中元华电科技股份有限公司—中元华电科技。(3)若取公司字号+行业(经营特点)+组织形式,例如:武汉中元华电科技股份有限公司—中元华电科技股份有限公司。(4)一一若取公司字号+组织形式,例如:武汉中元华电科技股份有限公司中元华电股份有限公司。5)+—(若取行政区划字号,例如:武汉中元华电科技股份有限公司武汉中元华电。(6)若取行政区划+字号+行业(经营特点),例如:武汉中元华电科技股份有限公司—武汉中元华电科技。(7)若取行政取号+字号+组织形式,例如:武汉中元华电科技股份有限公司—武汉中元华电有限公司。3.3.4候选简称选取,,首先将公司全称输入分词系统本文采用了中科院分词系统,并对分词结果进行进一步的处理,:公司称谓库添加了三个词库、公司类型库、行政区划词库。经过分词,得到全称的加工集。将全称分为四个部分:行政区划+字号+行业(经+组织3-3营特点)形式。中文公司全称的识别过程如图所示。^原始文—J—一f^规则候选集-?结果?I!二二1贝叶斯概:―:g率梭型I公司类型库图3-3中文公司全称识别过程F-iure33Chinesecomanfullnamereconitionrocessgpygp一根据以上,设候选简称集为CA,则对个公司全称则有以下步骤于每。23 北京交通大学硕士学位论文中文公司实体识别一,个全称都被分为四个部分,根据分词的结果每,其中每条规则ri对应的Ar通过规则的对应,,规则集:武汉中,抽取出对应的部分例如元华电科技股份有限公司抽取对应的字号作为简称加入简称集Ari,再将每条规则的简称加入候选简称集合形成CA。将此简称集合CA加入全称识别模块词典,通过全称识别模块的识别形成全称与简称的候选集合0A,以此作为筛选和验证的数据源。3.3.5筛选与验证此部分实验是在实体识别工具所产生的干扰数据项以及产生的中文公司全称与简称对应有误差的情况下,针对性的提出了对公司全称与简称的对应的筛选和验证,,通过对以上步骤所得到的候选简称集合进行操作,从而得到正确的结果3-4此模块的流程图如图所示。一对一筛选^集合一J:1?公司名称銳选!^^集合—-■配筛选^■'.-'、、,、I,一一一:1N对多筛选I|?集合共现玆法^最短路径1^^^、'一图3-4筛选与验证F-igure34Filterandvalidation,基于公司全算法思想:算法利用结构化的中文公司全称与简称的候选集合称与候选集合简称之间的关系,利用文本匹配算法进行匹配筛选,将无法确认的一个公司全称对应多个简称的情况,应用公司全称与简称是否同时在文本中共现的方法进行初步的筛选,在此基础上对不能确认的情况采用最短序列优先算法进一行更进步的筛选,从而达到能更完整的确认。假定10万条标准的全称库是完全的设为ST,经过候选的全称和简称的集合OA,然后对该集合的元素进行筛选,筛选和验证方法步骤如下:24 北京交通大学硕士学位论文中文公司实体识别一一一(1)选取候选集合的每条候选元素i,取第个字与全称集合ST的第个一一一全称进行比对,如果致,指向下个字,如此循环,如果候选元素的每个字一,则将此简称于其对应的全称都存在于全称某个元素,均输入到文件中。2一()经过步骤(1)得到两种候选集A1和A2,其中A1为每个元素对应种一一,A2为每个元素对应多个全称的集合全称,对于种元素对应种全称的,本文认为为正确对应。一一(3)对于种元素对应多个全称的情况,本文采用两种方法来进行,第种,一一,将种元素对应的每个全称在文中搜索,是否在文章同时出现,若同时出现,则将其标注为简称,否则认为此条元素筛选是错的。(4)若只运用(3)方法,不仅搜索起来比较慢,更容易出现检索错误的情“”况,,例如苹果有可能是水果,有可能是公司名称简称,对于这种情况,本文提出基于每个元素对应多个全称的情况,采取使用最短序列优先的算法。经对每个元素对应多个全称情况的分析得出,对(3)和(4)的方法综合起来使用,得到比较好的效果。共现算法与最短序列优先算法伪代码如图3-5所示。1Tbealgorirlm.isfollow2sz&zzfunctionPr〇0&C)4teboclear*cre&*existtrue5createExistl*iap24foremstlaOaioaSet¥foreachnameSinST()*5exittrueUforeacl5In01U?if5icontainsCi12contiuettelse*WexitfalseIS1Cend二.ifiszrutit¥1inzck1.K:id:es22tmftmchfullnis^lF)xn£1二3ifamtminsFxth^n:飞fi羲眾衮an:、end图3-5共现算法与最短序列优先算法伪代码F---igure35Pseudocodeofcooccurrencealorithmandtheshortestseuencerioritgqpyalorithmg25 北京交通大学硕士学位论文中文公司实体识别3.4实验设计以及结果分析3.4.1实验数据为了评估中文公司名称及其相应缩写的识别结果以及新闻文本的质量,本文,使用的语料由最近的财经新闻文本组成。本任务从国内权威的新闻网站爬取主。要从证券之星、新浪财经、和讯网等金融网站爬取的大量新闻文本进行研宄由,,于在新闻网页中直接爬取的文本,包含大量无用的标签等信息因此本文采用HTMLParser等工具,进行数据清洗,从而获取可进行实验的新闻文本数据。接下“”,名称¥¥,交叉验来,采用手工方法标记公司名称和缩写以¥¥公司格式标记证方法用于验证注释数据,因此本文。因为纯手工标记的方法不仅慢而且效率低在采用手工标记的方法之上,自主开发了公司实体标注的网站进行数据的标记,并且采用交叉验证的方法进行标注数据的验证,同时本文采用含有十万个公司全称的标准公司名称集的开放数据集。3.4.2实验评价以及指标为了验证本文所提出的基于规则和词典匹配以及统计机器学习的融合方法在中文公司实体识别抽取任务上的有效性以及性能,本文采用信息检索问题的测评方法,本文采用正确性(precision)、召回率(recall)和F1值三个标准作为模型---,计算见式(36)、(37)、(38)的评价指标:out-righ=i3-6Precision()outall_2HLIM£3-7ReCan=()tr—right2*recision*recall_p—8(2)pecison+recallroutriht表示输出的判断正确的公司实体个数,〇utall:_表不识别出的其中_gtrriht。所有的公司实体的个数,g表示测试集中的所有公司实体的个数_26 北京交通大学硕士学位论文中文公司实体识别3.4.3实验结果以及对比分析选取3.4.1节语料库的80%数据作为训练集进行模型的训练,选取剩余的20%SF-作为测试样本,并对训练后的模型进行测试和测评。为了体现(UNION)在准342确率和召回率上的优势,采用..的实验评价指标进行实验结果对比见表2。表2公司实体识别结果Table2ResultofcompanyentityidentificationMethods准确率(%)召回率(%)FI值(%)fordNLPIR+StanNER库)62.401.8122.61(无词3NLPIR+StanfordNER有词库)64.0215.1924.55(FudanNER88.4769.1577.62(无词库)FudanNER(有词库)90.9682.4986.51SF-UNION库)82.828.19082.3(无词SF-85UNION.3995.9290.34(有词库)筛选和验证96.7589.059274.23-6-以及图,SF从表可以看出该算法得到了理想的结果,表明UNION显着提高了查准率和查全率一。同时也表明公司全称和简称在公开数据集上还有定的改进空间。实验折线图嫌20.瞧./""/////图3-6实验结果折线图F-igure36Experimentalresultslinechart27 北京交通大学硕士学位论文中文公司实体识别一-3,如图7所示,可以清楚的看到在扩充词库以后每个方法均在定程度上有一所提高,说明分词词库在中文公司实体识别任务上具有定的作用。--38,如图所不,可以看出召回率在米用SFUNION之后达到最闻随着应用SF-,这是因为在进行筛选和验筛选和验证方法,其召回率相比UNION有所下降一证之时些非中文公司的机构名称等干扰性数据,导致其召回率,会随之过滤掉降低。F值im.mm—雜卿--麵⑥’?so纖卜*躺g;-mmMmmm…..-muipm^fomnFfRsf\onstanmumn£3-7F图实验I值-Fi7Fvaritgure3lueofExpemen-39,如图所示,可以得到中文公司实体识别准确率在词库扩充以及规则验证,,得到较好的效果下其准确率逐渐上升。5::9C齡lijiiii)70.0D^60|s。纖lliti—3:c〇\,mi2_%mun=w圓m^m■….?…m■mmmmmImmmm0.00%mnhimnnmsrjnion筛迭和验?图3-8扩充词库实验召回率i3-8RecalFurelofextendthethesaurusexperimentalg28 北京交通大学硕士学位论文中文公司实体识别综合实验结果各个图表可以看出,在中文公司实体识别过程中,本文提出的方法有效的缓解了中文公司识别任务中未登录词以及公司简称的问题,并且取得一较好的效果,但是在识别过程中也存在些识别不正确的情况,本文通过分析错误的结果并找出以下原因:(F-anfordNERFudan1)SUNION算法识别出了非公司的名称,因为St和NER模块在进行公司实体识别时采用的是标示组织机构的方法一,难免会有些非一公司的实体被标记,直接用来当作公司名称有定的误差,因此可能会对结果产生负面影响。(2)在筛选验证模块中,在多个全名对应的缩写的情况,当使用基于规则一些模糊的词的算法进行筛选和验证时,可能会出现。(3)分词本身具有不合理的缺点,但这种类型的缺点只占很小的比例。准确率i5D'00%96.75*一m觀60.00%5.030.00%20.00%StanfordN£RFu伽NERS卜UNION筛迭^0^2图3-9实验准确率re-crofmenFigu3exera9Acuaypitl3.5本章小结一本章分析了中文公司全称和简称的特点和疑难问题,提出了种与基于规则结合字典的方法和统计的机器学习方法相结合的组合算法,并对其进行了优化。在筛选和验证模块中,采用基于规则和字典的方式对结果进行修改,显着提高算法的精度和召回率,本文的方法得到了较好的准确率和召。通过测试开放数据集回率。这种组合和优化方法利用了基于规则的,字典库和统计学习方法的优点,也可以应用在互联网上的开放数据集上。29 北京交通大学硕士学位论文中文公司实体识别一由于中文的复杂性,,还有些问题需要解决比如从实验中可以发现有些国际公司可能会采用不同的名称,如Oracle(甲骨文),PWC(普华永道)等。对于,暂时还不能有效的识别这类缩写检测。虽然算法组合后,公司全称和简称的准确率和召回率均得到显着提高,。但是筛选和验证模块的精度比和召回率都有所-UN下降。主要原因在于这部分算法依赖于SFION的结果。由于干扰数据的负面影响,召回率合理下降。另外,作者计划在未来的工作中,在目前的组合算法中增加更多的机器学习以及深度学习的算法,以取得更好的效果。30 北京交通大学硕士学位论文中文公司实体关系抽取4中文公司实体关系抽取本章主要研宄面向中文公司的实体关系抽取方法。针对中文新闻数据存在语法结构复杂,表达方式多样化等特点,在对公司实体特点进行分析的基础上,本章研究基于句法依存的公司实体关系抽取方法。针对公司实体中样本分布不均衡等问题,研究采用基于依存句法分析的注意力机制融合LSTM的关系抽取模型,从而提高中文公司关系抽取的性能。本章内容安排如下:4.1节首先对实体关系抽取做简要介绍,介绍公司实体关系的现有方法的不足以及问题的提出。4.2节定义了中文公司实体关系。4.3节提出基于句法依存分析的注意力机制融合LSTM的方法。4.5.4节介绍了实验设计以及结果的分析。4节进行实验分析以及结果对比。4.6节对本章内容进行总结。4.1现有方法的不足以及问题提出近年来国内外的实体关系抽取的研宂工作取得了巨大进步,其中英文实体关系抽取的研究己经比较成熟,但由于相关语料库构建的匮乏,以及中文存在语法复杂以及组成多样化,使得中文实体关系抽取的发展较为缓慢。主流的实体关系抽取方法主要包括基于模式匹配的方法、基于机器学习的关系抽取方法以及基于深度学习的关系抽取方法,近年来国内外学者在深度学习方法作了大量的研宄。较其他传统方法取得了有效的特征,其准确率和召回率比较一N高STM是ecurrentNeuraletworks,RNN),。L种循环神经网络(R的改进模型通过构建记忆单元存储历史信息,有效的缓解了RNN和卷积神经网络(ConvolutionalNeuralNetwork,CNN)的长距离依赖问题,该模型应用在自然语5()[]Lint.提出了的基于句子级别注意力机制言处理领域,取得了很好的效果,eal的神经网络模型,对实体对所在句子分配权重的方法。与其他的模型相比,该方一法效果取得较大提升。注意力机制(Atentionmechanism)是种模拟人脑注意力,,机制的模型,通过计算注意力概率分布突出某些关键性输入增加对输出特征51[]RNN,对于神经网络模型有很好的优化作用的影响作用。文献在模型上引入了,并且获得了较好的效果注意力机制来进行图像分类。依存句法分析的目的是通过分析句子的各个成分,得到各个成分之间的依赖关系,从而对句子进行句法分析,利用句法分析可。句子成分之间相互依存和被依存的现象在中文中普遍存在52][得到相关的结构化数据,。甘丽新等利用句法语义特征并应用支持向量机模型31 北京交通大学硕士学位论文中文公司实体关系抽取来处理中文实体关系抽取,在旅游领域其实体关系抽取准确率中达到83.8%左右。本文在以上的研宄基础上,提出了基于依存句法分析的注意力机制融合LSTM,的方法,旨在解决传统方法在中文金融领域公司实体关系准确率低的现状以及,语法的表达较为多样性等问题中文在不同的语义环境下。,而目前,英文领域的实体关系抽取任务研究的学者较多,且研宄效果较好中文领域,尤其是金融领域公司实体关系抽取研究相对较少,目前主要存在以下几个问题:(1)中文实体关系抽取粗糙,不够细致一E目前,关于实体关系抽取的研究方法般使用的是数据集AC2008所定义的-关系,此数据集中关系类别主要包含的7大类,例如机构之间的关系;部分整体;-人物社会等关系。而在这些实体关系抽取研宄中,通过实体类型的相关信息就可一以在,而且在某些关系抽取研究中定程度上确定实体对之间存在的关系,关系类别的差异很小。在很多情况下,抽取的实体关系的召回率较低。(2)训练语料库匮乏在实体关系抽取任务中,大部分的研宄是在ACE的英文语料库或者生物领域或者医药领域的相关语料库中,取得较好的研宄成果。中文的实体关系抽取研宄,一主要使用的语料库为ACE、DOC等类型体系宽泛的数据集并不实用,在研宄定,缺乏相应的支持性的语料库、细致的领域的复杂关系时。如何构建更加实用的,是中文实体关系抽取急需解决的问题语料库。4.2中文公司实体关系定义在本文的研究中,主要解决的是在新闻文本中,公司实体关系抽取,此问题在信息抽取中为最有难度的部分,尤其是在中文的处理上,在不同的语义环境中,一,、语序等相关信息描述的方式等均有定的差距性涉及到中文语法。1,在本文的公司实体关系研究中,实体关系采用三元组(公司实体公司实体2,,公司关系)进行定义,作者通过对大量的金融新闻文本分析的基础上研究发现,在金融性新闻文本中,公司实体关系复杂,公司实体之间的关系类型也很多研究发现,常见的关系类型如下:一(1)合作:公司之间的合作关系,般公司之间具有出资、合作、共同出资、“一合资等系列的商业活动的关系。例如:据新华社报道,中国中车青岛四方机车车辆股份有限公司与巴西圣保罗城际铁路公司1日签署8列共64辆城轨车辆供”,合同金额超过1亿美元货合同。32 北京交通大学硕士学位论文中文公司实体关系抽取一“(2)附属:某公司是另外家公司的子公司、下属公司的情况,例如:极”光网络为三七互娱全资子公司。一般表达为A公司是B公司的持股股东(3)股权:常见的股权关系、A公司是“B公司的控股公司等。例如:中国佳通打算向上市公司赠予福建佳通的股权”比例仅为10.2%,评估基准日(2015年12月31日),这部分股权约值6.87亿元。(4)收购:属于公司之间的买卖大类的情况,A公司对B公司的收购行为。“”例如:万科公布发行股份购买深圳地铁集团旗下资产。一一(5)合并:合并的概念是指两个公司或者企业组合在起,属于种普遍的“公司与公司之间的关系。例如:湖北金沙江投资签署了《合作框架协议》,约定”公司或指定方出资不超1亿美元认购Nissan电池公司并购基金有限合伙份额。6A一()建立:建立关系是指公司出资建立B公司等,般都是两个公司实体一,之间的从属关系建立关系般反映着公司实体之间的控制关系,因此对于商业情景下获取信息具有重要意义。综上所述,通过对金融领域新闻文本以及中文公司实体的分析,本文针对性的选择企业中常见的6种关系类型作为中文公司实体关系抽取任务。并对这6种关系类型进行标注,关系列表如表3所示。表3关系标签Table3Relationshilabelp关系标签合作(Cooperate)附属(Subsidiary)股权(Stock)收购(Buy)合并(Merge)建立(Establish)4.3中文公司实体关系语料库构建金融领域新闻文本中公司实体多,因此从开放性、关系多样化、复杂等特点一文本中抽取中文公司实体关系是种具有很大价值的研究,然而目前为止,还没有公开的面向中文金融新闻领域的实体关系语料库。因此为了研究中文公司关系33 北京交通大学硕士学位论文中文公司实体关系抽取一抽取,本文在对金融领域的公司实体特点进行深入分析的基础上,设计了个公司实体关系语料库,此部分将从金融新闻文本内容获取、关系标注、数据存储等几个方向进行任务。4.3.1公司实体关系语料库的获取与预处理此部分的数据来源是从第三章获取,在进行模型构建之前,首先要对中文数据语料进行预处理,主要包含了数据清洗,文本分词、实体识别、关系标记、依存分析等操作,经过第三章的方法对原始文本进行。通过结构化处理的原始文本分词,、以及实体识别工作得到句子级别的包含两个以及两个以上的公司实体的,组成实验语料库,,,句子。在此部分获取到形如WiWW的词序列(2,3>4-其中w的结构表示公式如1)(所示。=-/iOanhC(41)tt?(t)4.3.2公司实体关系语料库标注2本文中,按照三元组(公司实体1,公司实体,关系)的定义方式,将标注一二问题分为两个部分,部分为公司实体标注,第部分为公司实体关系标注。(1)公司实体标注:公司实体的识别标注,本文采用第二章的中文公司实体的识别方法,对文本进行公司实体识别,同时运用公司实体ID标注。(2)公司实体位置标注:公司实体的起始位置标注的是公司实体在句子中位置信息,标注实体的起始位置,目的为了进行上下文关系的标注与识别。(3)公司实体关系标注:实体关系标注,主要标注的是涉及到的两个公司实体之间的关系类型。关系类型的标注选用定义好的6种关系,分别为:合作、附属、股权、收购、合并、建立。4.4基于句法分析的注意力机制融合LSTM的方法鉴于LSTM在文本处理中的优秀表现,本文在基于LSTM基础上,引入了基于依存句法分析的Atention机制,提出了基于依存句法分析(DP)的Atention机制的LSTM神经网络模型(DPATTLSTM),采用LSTM网络避免传统深度__学习的长距离依赖问题,同时采用基于句法分析的注意力机制(ATT)有效的分析了中文环境下谓词短语作为模型输入与输出的相关性,从而获得更为有效的语34 北京交通大学硕士学位论文中文公司实体关系抽取-义信息,模型框架如图41。模型主要包括以下四个部分所示。一(1)词向量构建(WordEmbedding):先从文本中为每个词构造组特征,然后对这组特征做分布式表示。2一()长:个分词输入转化为特征表示短期记忆网络层将每。(3)基于句法依存的注意力机制构建:将输入句子利用句法分析的依存弧获取具有重要意义的谓词以及谓词短语,作为LSTM层的输入,采用注意力概率获取LSTM的输出特征。与LSTM层获取的整体特征融合,获得加权计算的特征向量。(4)输出层:通过句子特征向量分类,得到分类结果。/nmui-JE9B\k…■、/'\/\以—'神经网络分类器39—+输入节点',匕-->§?、\\:.一隱—输出?…—删!(碎?:靡.,,—,'二i.复、么1?' ̄CZTr*:?4\\|狀一邏'向盘化^3—-*^-—■-―*,.!?*^HBIy’'''■句法分析Ty—4-图1中文公司实体关系抽取模型框架图F-iure41FrameworkdiaraformodelofntireationshiextractionnhineseggmetylpiCcomaniesp41.4.词表示输入层构建词表示是将分词词语表示为实数数值的实体关系抽取中最基础也是最重要的一-步,最简单的词表示方式为onehot表示方法,也称为词袋表示模型。词袋表示一一一模型的主要作用是将每个词表示为个N维的向量,在这个N维向量中,行35 北京交通大学硕士学位论文中文公司实体关系抽取只有一N为“”,0,,例:表示为〇〇〇1000个1其余的均为词表的大小如公司[”0,人民表示为[01000000。]]“”“’’在向量中,1代表的是该词语在词表中的下标,例如公司在词表中的下“”“”“”标为4,人民在词表中的下标为2。虽然词袋模型的方式简单,且具一一一有,,,词语之间是相互独立的定的鲁棒性但是也存在着定缺陷方面,容一易造成维度灾难,,数据稀疏等问题另方面,不能获取词语本身的含义。因此本文输入词表示使用的是Wordembedding技术,Wordembedding作为一一把深度学习引入自然语言处理的核心技术之,采用的是个稠密的特征向量表53[]7-hoF代替最初始的onet稀疏向量对词汇进行表不。,Wordembedd研宄表明ing-技术的词表示方法能够很好的获得相关语义与句法信息,解决了以上onehot带来的两大难题。=具体的,给定句子S2015年5月,A以390B公司1公司.亿元完成对00%{=的股权收购,3.3节实体识别得到的分词序列心。}通过分词工具得到句子以及=w.ww..2015年5月AB100%b2,,wWSw公司以3.9亿元完成对公司{}{?股权收购,表示词序列叉中的第}其中m是句子分词后单词的个数,w,i个单词。一AVedd|本文采用个Wordembin矩阵R将&中的每个单词Wgi映射为词向量w作为句子词汇级别的特征,V为词汇表的大小其中,d为词向量f||的维度大小-2)i。通过公式(4获取词的embeddng,完成分词到Wordembedding4-2的向量化转变如公式()所示。wwrdw=-rWy(42)w^-,1ehot其中为on的词表不,r为此词语的Wordembedd。ing表示公式表示为使用点乘操作Wordembedding矩阵对应的列向量。由此,给定的句子S就可以表示为由词向量组成的矩阵<],作为模型的输入。442..长短期记忆层构建CNN和RNN均是目前应用比较广泛的深度学习模型,而LSTM模型作为RNN一的种特殊类型,能够充分利用文本序列信息,包含各个词语之间的相互关系信息一。通过门机制,使得神经网络能够有效的保留有用的历史信息。在个LSTM一一一模型中由多个LSTM单元构成,每个单元又包含个忘记门f、个输入门x、一=个输出门h以及个记忆单元。以文本序列Sw2015年5月万润科技以3.9{亿元完成对深圳日上光电有限公司100%股权收购}作为输入,以第i个词36 北京交通大学硕士学位论文中文公司实体关系抽取,LSTM为例,激活记忆单元得到第i个单词的单元的各个状态的特征值。一“”第步决定从细胞状态中丢弃什么信息,即忘记门/,此门读取和x,tt一0?-输出个在1之间的数据给到每个在细胞状态中的数字。如图42忘记门以及公-式(43)所示。ht—;X4-ht^VxtI图4-2忘记门F-iure42Foretateggg-=a■X+wh.b(43)/([t^t]ff)f第二步确定存放在细胞状态中的新信息,此部分为两部分,1)sigmoid层决一2t-定将要更新的值)anh层创建个新的候选值向量,加入到状态中43以。如图及公式如4-44-5()、()所示。-=w■+b44)ia^(t(tj-C=?b4tanh(w+c(5)c^=**-it(46)C-+CtfQit37 北京交通大学硕士学位论文中文公司实体关系抽取ht-CQ丄it?^()ft-图43确定细胞更新信息F-igure43Determinecellupdateinformation--第三步更新旧记忆单元细胞状态C。细胞更新状态如图44以及公式见式(46)。th-Qi^-Q...—-——.X■+I.Xv:1lVJ图4-4细胞更新状态Fi4-4Celurelrenewalstatusgm一最后通过sigoid层来确定细胞状态的哪部分被输出,然后通过tanh层进4-行处理,并将soid,5igm门的输出逐点乘积确定最后的输出部分。如图以及公4-74-8式如()()所示。38 北京交通大学硕士学位论文中文公司实体关系抽取-〇=■(47awhx+b)[,](t^t0t〇)h=〇tanhCt4-8)〇()(tthty14-5S图igmoid门F-igure45Sigmoidateg44..3基于句法依存的注意力机制层构建依存句法分析经过分析句子中成分之间的依存关系,来表示其句法的结构,“”“”即依存句法分析辨识句子中的主、谓、宾、定、状、补等句法成分,并分析关系。哈工大LTP的句法分析可以较高水平的解析并得到中文句子成分之间“%股的句法依存关系。例如对文本万润科技以3.9亿完成对深圳日上光电的100”4-权收购进行句法分析,如图6句法分析图解所示。——?一?-^-:二二一?二、''一^’一,、样,.\■、*抒济、,以,,,/,、,',,,,今2D15*消万满你以3.99Cren深齡s±嫂霄费二男!〇〇%m..rtntwcm.bpm£|?cnsnn?r.nv?j图4-6依存句法分析图解F-igure46DependencyParsindiaramgg39 北京交通大学硕士学位论文中文公司实体关系抽取“”“”,句子的核心谓词完成主语是,从分析结果可以看出,万润科技宾“”语是深圳日上光电有限公司等,有了相关的句法分析结果,可以分析出句子中谓词以及谓词短语对于中文公司实体关系的识别,有着必要的联系。依存句法分析标注关系以及含义如表4依存句法标注关系所示。表4依存句法标注关系Table4DeendencarsinMarkinRelationshipypggpaDescritl关系类型TgpionExampe一—主谓关系SBVSubec-verbt我送他束花(我<送)j一一erb-obec动宾关系VOBVt我送他束花(送>花)j一一nd-间宾关系I〇BIirectobect我送他束花(送>她)ju—定中关系ATTAttribte红苹果(红<苹果)一前置宾语FOBFronin-obec(>tgt他什么书都读书读)j一reo-介宾关系POBPpsitionobect在贸易区内(在>内)jom一动补关系CMPCplement做完了作业(做>完)通过观察,中文公司实体关系识别的信息往往与句子中谓词以及谓词短语有着密切的联系,谓语动词作为重要信息存在于语句。在公司实体关系抽取过程中,,是中文中常见的句型中。同时动词谓语语句的谓词为动词或者动词短语。例“”“”“4-如图6所示ele2日上光电之间的关系为。实体万润科技与实体收”“购,在依存句法分析的前提下,可以观察到依存弧为VOB(动宾关系)完成”“”收购以及依存弧ADV股权收购等谓词短语,在进行实体关系识别上占有较重要的位置。因此在此部分,本文总结出四种句法依存关系,动宾关系VOB)、(间宾关系(IOB)、定中关系(ATT)和动补结构(CMP)作为提取谓词以及谓词短语的依据来进行注意力机制概率的计算。注意机制在神经网络中的使用由来己久,特别是用在图像识别中,。近年来一注意力机制在深度学习中是较为成功的技术篇文章时,更多的注。当人们阅读意力集中在有价值的词语上,,以理解文章的主要含义。通过这样的启发注意力机制被引入NLP界常用的循环神经网络结构(RNN)中。当人们处理NLP任务尤。其是关系抽取时,并不是每个分词词语对任务结果都处于相同的地位上为了进一LTM步提高模型对语义逻辑关系的识别能力,本文将注意力机制引入到S模型40 北京交通大学硕士学位论文中文公司实体关系抽取中,利用句子的谓词以及谓词短语特征计算不同关系的语句中各个分词对抽取结果的注意力,对于公司实体关系抽取起到很好的效果。本文采用哈工大自然语言处理工具LTP对句子做句法分析,LTP平台的依存分析模块GParse是基于图模型的分析器,解析结果以XML形式展现出各个组成部分的关系。句子文本通过LTP的句法分析得到句子的句法依存关系树,并根据上面提到的四种依存关系S=,提取出句子中谓词以及谓词短语的词序列dcW{l,p=■w2,...,wn}即Sdep{完成收购,股权收购,...},其中n为提取到的词语个数。通过对提取到的序列Sde做与4.4.1中相同的wordembedding操作,得到谓词序列矩阵p一SSww,LSTM网...^,然后TM网络的输入dnKfA,^]将该矩阵作为个L利用该一At-ti49)络输出的最后个隐藏状态%,计算enon向量的值。其中公式如(所示。u=4-9LSTMS()a(dm)=■??令H///13.5.2中,并利用/与7积来计算,为模型输出的矩阵^的点[^^;1]^原句序列S..中单词%对分类结果的贡献程度softmax做标准化操作,,将其通过At-获得K对分类结果的ention权重410)。。该计算过程公式见式(exp(-.^(410)exuhSp{l);j最后,,利用获取的Atention权值,计算句子最终提取出的特征向量s如公式4-(11)所示,输入到分类器进行公司实体关系的抽取。-S= ̄a411()Tiii4.5实验设计以及结果分析4.5.1实验数据,选取自国内权威金融网站,主要包括新浪财经本文的实验数据、和讯网等网站,通过爬虫获得1000篇相关新闻文本,并通过正则表达式、HTMLParsing等操作对网页数据进行清洗,从而提取出所需的新闻文本信息。使用自然语言处理工具对提取出的文本进行分词、词性标注、并采用第二章公司名称识别的方法对中文公司的全称以及简称进行识别,并选取出包含两个公司实体的句子级别数据,作为公司关系抽取的数据,。针对公司实体的特点在阅读了大量公司新闻类的语料的基础上,本文针对性地定义了六种公司间关系即本文4.2定义的六种公司实体间的关系:合作、附属、股权、收购、合并、建立,并且通过人工标注的形式对41 北京交通大学硕士学位论文中文公司实体关系抽取各类关系进行了标注,实验的人工标注小组由多位人员组成,分别负责各自的标注部分,并采用交叉验证的方法,进行互相验证,以保证标注数据的正确性,后期通过自主开发的数据标注的网站再次对数据进行标注与验证以确保数据的准确性与完整性。4.5.2实验评价指标为了验证本文所提出的基于句法分析的注意力机制与长短期记忆网络的方法在中文公司实体关系抽取任务上的有效性以及性能,本文采用信息检索问题的测,recision)llF1评方法采用正确性(p、召回率(reca)和值三个标准作为网络模---型的评价指标,计算公式见式(412)、(413)、(414):outit-r9hP=-recision(412)outall_Reca=-(413)lltrright2*recision*recall_p-14)(4recon-¥recpisalltriht表示,tll其中:oug输出的判断正确的关系个数oua表示识别出的所有__tt的关系个数,rrigh表示测试集中的所有该关系的个数。_4.5.3参数设置基于句法依存分析的注意力机制与长短期记忆网络模型采用的激活函数为relu函数,隐含层节点数取128,采用soflmax作为分类器。为防止产生过拟合现drot,drottt.5象,训练过程中引入了pconnec策略丟码率(pouconnecrae)取0。迭100,45代次数为次最大序列值取。44.5.实验结果以及对比分析为了验证基于句法依存分析的注意力机制与长短期记忆网络的方法的有效性,4.5180,20%选取.节语料库的%数据作为训练集进行模型的训练选取剩余的作为测试样本,并对训练后的模型进行测试和评估。本文在长短期记忆网络的基础上,做了多组实验,包括在原始词向量的基础上以关键词、句法分析谓词特征作为补充特征用以提高类别区分度,同时弥补了长短期记忆网络的自动学习特征的不足,以及在原始词向量的基础上以实体对作42 北京交通大学硕士学位论文中文公司实体关系抽取为注意力机制的长短期记忆网络的补充特征等实验。为了体现DP_ATT_LSTM在准确率和召回率上的优势,本文设置了多组的对比实验,将DPATTLSTM方法与LSTM方法、LSTM+句法依存等方法进行对比,__同时对于在分类任务中加入区分类别分类的关键词策略以及引入实体对的概念进行了实验,,分别与本文的方法进行了对比另外还从激活函数选择与对抗过拟合实验方面进行全面的实验与比较,具体实验结果如表5所示。表5关系分类的实验结果Table5RelationshiclassificationresultspModel准确率(%)召回率(%)FI(%)LSTM81.3079.5580.42实体+LSTM81.4180.0281.12DEP+LSTM83.082.788316.ATTLSTM83.7684.3384.0实体对__DPATTLSTM84.2389.5586.81__在多分类的任务中,如何筒质量的完成任务的关键在于选择出具有较商判别54[]性的特征,以查询文档的关键。林古立等提出了基于关键词的网页搜索的方法[55],王林玉等词作为切入点,也说明关键词特征的类别区分能力较强提出了基于关键词策略的实体关系的抽取方法,其F1值达到了84.8%,因此本文在实验中验证了此方法在金融领域的信息文本的公司实体关系抽取的任务中,如表6以及图4-8LSTM结合所示关键词策略方法取得了82.12%的F1值,也表明,关键词策略一定的效果在中文公司实体关系抽取上有。另外,在关系抽取的任务中,实体对的位置以及上下文语义,在进行任务时一实体对是识别关系的关键因素。对于同句中的各种实体对,存在各种关系标签。56一P[]endain当然,对于不同的利益关系,同个词的贡献可能是不平等的。Q等人在研宄循环神经网络的基础上加入了实体对信息的关系分类自适应注意机制,且-84,49得到了.7%的效果,因此本文在实验中验证了此方法在本文任务中如图所示,84%的F1值该方法在本文中取得了,同时也表明实体对结合注意力机制的方法在实体关系抽取的任务上具有一定的作用。43 北京交通大学硕士学位论文中文公司实体关系抽取92._SP?S9-55%,m,om疆瞧,B4.0瞧B4.2]%_■鹕鼢纖?mm<f//,/r'4,步图4-7实验结果图F-rimligure47Expeentaresults一一以上方法虽然在定程度上能够丰富提取的特征,并且取得了定的效果,但是其方法均是在英文文本中的实体关系抽取任务中有较好的表现,直接应用到中文金融领域的信息文本中,效果并不是特别理想,这是由于本文的中文公司实体关系抽取中,中文金融新闻文本公司实体关系语料库缺乏,并且公司实体多、关系复杂等种种问题,所以以上方法并不是最好处理方法。表6关键词策略结合LSTMTable6KeywordsstrategycombinedwithLSTMModel准确率(%)SVM60.1KNN75.0LSTM81.30SVM+keywords62.0KNN+kewords78.0yLSTM+kewords82.12y44 北京交通大学硕士学位论文中文公司实体关系抽取'r^__eoxmM—HH■■50酿imiiim續?w^OiH^eyword'4。-的%^|j?keywordsr^0W0mlillllliiliilllii30.00%lfllllilWflllillll/p撒議緣:樣,'h^<I0^m'減10.纖琴ymSRBHhsbeshHBHHHk0^%cmsvmkhhmm图4-8关键词策略方法对比F-trisonigure48Keywordsstrategymehodcomap因此,本文在以上研宄的基础上提出的基于句法依存的注意力机制的长短记忆5网络的方法,通过表可知,本文的方法在准确率、召回率以及F1上均比传统的LSTM方法有很大的提升,另外如果将句法依存作为补充特征直接输入到LSTM,模型中的方法也有所提高,表明通过句法依存提取谓词以及谓词短语在实体关系抽取上有较高的提升,对比关键词作为补充特征区分类别特征结合LSTM模型以及实体对结合注意力机制的LSTM神经网络,基于句法分析的注意力机制计算LSTM权重的方法得到最好的效果,F186.81%值达到。版纖級33%84.纖S3.纖{w^mm84.009*m,?m——sz.smtLSm?{SLOW80.42Smam7955%iJMS瞧國■“'v攝iff纖觸應”娜tm召因車fi繼LSTM■实体^JT^lSTM,图4-9实体对ATTLSTM与LSTM对比实验__F-iLSTMLSTMiure49ComaraiveexerimentbetweenentitarATTandgptpyp__45 北京交通大学硕士学位论文中文公司实体关系抽取(1)对抗过拟合实验一由于模型的复杂性以及数据分布不均衡问题,实验过程中会出现些过拟合,本文通过以下几种方法进行解决过拟合问题现象。一LSTM种方法为模型参数中添加随机噪音,经过调参实验,本文将的权值中添加随机噪音,模型的每次训练都会产生新的噪音数值,测试实验不添加噪音。一D另种方法为使用ropconnect替代Dropout。LiWan等人,在文献中引C一入Droponnect(DropOut的个泛化),用于规范神经网络中的全连接层。使用DroOut进行训练时,在每个层中将随机选择的激活子集设置为零。而DropConnectp一将网络中随机选择的权重子集设置为零,每个单元因此接收来自前层中的随机-子单元的输入。如图47所示,Dropout与DropConnect的原理:r=*Wv*=M*Wma()MWra(()v)DroOutNetworkDrpropConnectNetwok4-7DroOutDroConneck图p与ptNetwor原理对比图-Fiure47DroOutandDroConnecttworkPriilarionchartgppNencpecomps-7,如图4所示,DropConnect原理重点在于不对隐含层的输出做操作即图中-所示虚线,随机选择输入数据和节点之间的联系进行阻断15)、。对应公式见式(44-16)。(如下经过两种方法的分别进行对抗过拟合实验,从表6可看出DropConnect在模型的效果上较好。=4-DropOut:rm*aWv(15)()Droonnec=*4-16)pCt:raMWv(()()(2)激活函数选择实验本文激活函数选择使用relu函数,本文实验中将使用其他几个常用的激活函数做对比实验elu函数对比的分别是tanh,simoid,maxout这三个激。用于和rg活函数。46 北京交通大学硕士学位论文中文公司实体关系抽取表6对抗过拟合实验结果Table6ResultoffightagainstoverfittingexerimentalpModelFl(%)DPATTLSTMdro85.90一一(p)DPATTLSTMdroConnect86.81__(p)max、、-x=■4h)(19)i(£TdtmtkZ=W+bWER4-20x...i(),ijjij表7激活函数选择实验结果Table7ResultfheivatifiSlrimotActonunctoneecttheexpeentModelFl%()DPATTLSTMtmodel83.12)——(_DPATTLSTMsmodel83.25一—(—)DPATTLSTMmmodel84.83()一一一DPATTLSTMrelu86.81——()-Tanh函数公式见式(417),对应模型记为tmodel。_t=4-anhx(17)(v)yconhx{)-simoid函数公式见式(418),对应模型记为smodel〇g_mo= ̄sigid^(418)()二--maxout函数公式见式(419)、(420),对应模型记为mmodel。此函数是2013_年提出,在maxout和dropout结合后在数据集MNIST,SVHN等上取得较好的效47 北京交通大学硕士学位论文中文公司实体关系抽取果,maxout3,。。其中,k表示线性变换的数量对应参数为维验结果见表7从表7可以看出,激活函数relu比传统激活函数tanh和sigmoid效果好很多,因为relu的非饱和性因此避免了梯度下降等问题。4.6本章小结中文实体关系抽取中存在句法复杂,组成灵活以及数据稀疏等问题,无法直接将传统关系抽取方法应用到金融领域的中文公司实体关系抽取,这就给中文实一一体关系抽取任务带来了系列的挑战,。针对以上问题本文提出了种基于依存句法分析的Atention机制与LSTM网络融合的关系抽取方法,在开放式数据上的实验结果表明该方法的准确率1、召回率以及F值较其他的深度学习以及特征融合的方法有了较大的提升。本文的主要创新点在于将依存句法得到四种谓词依存关,Atenton,系通过注意力机制计算分类结果的i权值特征有助于提升公司实体关系抽取,,并且较好的解决了数据分布不均衡等带来的问题能够显著的提高中文实体关系抽取的性能。48 北京交通大学硕士学位论文结论5结论随着互联网信息数据的爆炸式増长,使用文本挖掘技术从互联网金融新闻文本中抽取公司实体关系对于公司企业数据库的构建、人工智能问答系、舆情分析统。目前大量实体关系抽取方法的研究重点、翻译系统等都有着十分重要的意义,在基础特征的抽取和核函数的设计上,并且基于特征和核函数的方法相对成熟一提升空间变得有限。为了进步提升算法性能,本文通过研宄基于词表示和深度学习网络以及注意力机制的抽取方法得到了较好的效果。深度学习建立的深层关系抽取模型在提升抽取效果的同时,词表示将句法分析之后的谓词以及谓词短语信息加入到词向量中,意力机制的加入,作为深度学习训练模型的前提条件;注在进行特征词语的权重计算上起到很大的作用。本文在词表示、中文公司关系抽,以公司实体关系抽取为目标提出了较为有效的模型取任务上进行了深入研究。5.1结论本文针对中文公司实体识别和中文公司实体关系抽取问题,分别提出了基于规则和词典匹配以及统计的机器学习方法融合的方法和基于句法依存分析的注意:力机制融合长短期记忆网络的方法,均取得了较好的效果,主要结论如下(1)针对中文公司实体识别问题,本文研究了中文公司实体的特点,通过融合分词词库的构建和扩充,、公司简称规则筛选、共现与最短路径等构建了中文,该模型有利于增强在金融文本领域对公司实体的识别能力公司实体识别模型。在实验中将公司分词词库进行了构建与扩充,为后面的实体识别模块提供了良好,的分词基础,通过贝叶斯概率模型与人工方式结合的方法筛选出公司简称的规,贝U,提高了公司简称的识别共现与最短路径的筛选和验证保证了中文公司全称与简称的识别的准确率。为中文公司实体关系抽取打下了夯实的基础。2一()针对中文公司实体关系抽取任务,提出种基于句法分析的注意力机制融合长短期记忆网络的方法。实例表示模型以词向量为基础,结合句法分析特征和注意力机制融合的方法,在配合LSTM祌经网络时取得了较好的效果。通过实验分析发现,句法分析的词向量、谓词以及谓词短语特征以及注意力机制计算是公司实体关系抽取的关键,。该方法在六种公司关系抽取的语料上进行实验和分析均获得了较好的效果,从而验证了该方法的有效性,在中文公司实体关系抽取方法研宄上具有重要的指导意义。49 北京交通大学硕士学位论文5.2展望本文提出的基于规则和词典匹配的公司实体识别方法,对于中文公司全称以及简称的识别,在金融领域上取得了较好的效果,同时基于句法依存的注意力机制的深度学习神经网络模型,有效的提升了词表示在实体关系抽取任务上的效果,所提方法的核心思想均可以应用到相关领域并进行尝试研究,主要包括以下几个方面:(1)在中文公司实体识别任务上,本文提出的基于规则和词典匹配的公司实体识别方法,在复杂的中文语法以及表达多样性的基础上,分析公司全称构成特点,通过贝叶斯概率模型进行相关规则的筛选,以及共现和最短路径对候选集的筛选和验证,得到了很好的效果,这种方法有望对相关领域的其他任务起到促进作用。(2)在公司实体关系抽取任务上,本文提出的基于句法依存的注意力机制的深度学习神经网络模型充分发挥了句法依存在的语义表示能力,在金融文本语料一上取得了较好效果,这说明了该模型较为适用于中文实体关系抽取这类问题,一一,可将其推广到相关任务上,对相关问题的研究也能够起到定作用。另方面STM一本文在实例表示模型的基础上运用了L神经网络算法,在下步的研究中,可以尝试其他深度学习方法。综上所述,本文从句法分析和深度学习角度出发,训练面向金融领域的模型,并将词向量用于基于实例表示的公司实体关系抽取模型取得了较好的关系抽取效果一,在未来的工作中将针对中文公司的关系抽取模型进行进步改进。希望本文一定的帮助的工作能在相关领域的研究有。50 北京交通大学硕士学位论文参考文献参考文献1RalhGrishman.Informationextraction:TechniuesandChallenes.InMariaTeresa[]pqgPazienza.Edimr.InformationExtraction.SpringerVerlag,LectureNotsinArtificialInteU-ienceRoom1997.g,2JKazamaTorisawa.ExloiinWikiediaasExternalKnowledeforNamedEnittt[],KpgpgyR--econitionC.//ConferenceonEmnlconll2009698:707.g[]p,MinJianidntit3]YonhuiWuJiaboLeHuaXu.NameEntitRecoioninChineseClinicalTex,,,[ggygUsinDeeNeuralNetworkJ.StudiesinHealthTechnolo&Informatics2015216:624.gp[]gy,,4Z-forShihenHuangeiXuKaiYu.BidirectionalLSTMCRFModelseuence[]g,W,qTagging[J].ComputerScience,2015.5D.McDonaldH*ChenHSuandB.Marshall.ExtractinGenePathwaelationsusinA[].,sgyRgHybridGrammar:TheArizonaRelationParser[C].//Bioinformatics,vol.20-.2004:33703378.6WShen.Doan.F.NauhonandR.Ramakrishna.DeclaraiveInformationExtraction[.tt],AJg-iDataloithEmbeddedExtractPdiC.//I.2007131044.usnggwionrecatesnVLDB:03[]7HaseawaTSekineSGrishmanR.DscoverinRelationsamonNamedEntitiesfromLare[]gi,,gggCororaC.//Proceedinsofthe42ndAnnualMeetinonAssociationforComutationalp[]ggpLinuistics2004:415.g,8ZhanMZhanJSuJetal.Acomositekerneltoextractrelationsetweenentitieswithbothb[]g,g,,pflatuturdfeatureC//Pdinsofthe21InteilConftandsrces.roceestrnatonaerenceon[]gComputationalLinguisticsandthe44thannumeetingoftheAssociationforComputationalL-inguistics2006:825832.,-ent9LiZhanPetal.AnovelfeaturebasedaroachtoChilti[WWeiFinesetreaon],g,,ppyextractionC.//MeetinoftheAssociationforComutationalLinuisticsonHumanLanuae[]gpgggTechnolo-gies:ShortPapers.AssociationforComputationalLinguistics2008:8992.,i〇黄鑫朱巧明等.基于特征组合的中文实体关系抽取m.微电子学与计算[],20-机1027:198200.,,⑷[11]Guxlyue,HeTingting,Huxlaohua,etal.ChinesenamedentjtyrelationextractionbasedonsyntacticandsemanticfeaturesJ].JournalofChineseInformacionProcessing,2014,28(6):[-183186.-12LiuKBLiFLiuLHanYImltationofkernelsedChineserelationexracion.emenabatt[],,,pl-sstemJJournaofl2007444061411ComuterResearchandDeveoment8:1.y[]pp,,()13CulottaASorensenJ.DeendenctreekernelforrelationextractionC.//In:Proc.ofthe42nd[],py[]AnnualMeetinoftheAssociationforComutationalLinuisticsgpgACL2004-.Barcelona2004423429.().,hanlorinttitureltionexttiusiaconvolti14ZhanMZJSuJ.Exsnaccfeasforrearaconnguon[]g,g,pgy/fhiftreekemelC./HumanLanuaeTechnoloConferenceoteNorthAmercanChatero][gggyp-theAssociaionofComuationalLinuisics2006:288295.tptgt,15J2002162-王宁葛瑞芳等:l6..中文金融新闻中公司名的识别[,中文信息报[],,],,()51 北京交通大学硕士学位论文参考文献6-1沈嘉懿李芳徐飞玉.中文组织机构名称与简称的识别J息报2007216:1721.[].中文信,,,,[]()-17.2009291:143145..面向短文本的命名实体识别J王丹,樊兴华[]计算机应用,,()[]-18PViolaMNarasimhan丄earnintoextractinformationfromsemistructuredtextusinga[],gdiscriminativecontextfreegrammar[A].InternationalAcmSigirConferenceonR&D-esearchevelomentinInformation2005:330337.p,(19陈超朱洪波等.中文财经文本中公司名简称的自动识别[J].四川大学自然科学[],,版)2011482.,,()20.C:张祝玉任飞亮朱靖波基于条件随机场的中文命名实体识别特征比较研宄..北京中[][],,-42008-1115国中文信息学会清华大学第届全国信息检索与内容安全学术会议论文集.,,,21基于层叠条件随机场模型的中文机构名自动识别J.周俊生等[]电子学[],344-80920065_报:80,,()Ghou-22SunJaoJZhanLZMHuan.ChineseNamedEntitIdentificationUsinClassbased],,sgyg[g'infthe19thinternationalconferenceonLanguageModelC.//COLING02Proceedso[]gComu-ptationallinguistics2002l:l7.,,()C.//:20thInternaional23俞鸿魁.基沈阳t,张华平刘群于角色标注的中文机构名识别[]],[ConferenceonComuterProcessinofOrientalLanguages中国中文信息学会会议论文pg,-200308-集0.,24YFLnTHTsaiWCChouKPWuTYSunea.AMaximumEntroAroachtoi,tl[],,,,gpyppBiteconitionC.//AcmSikddWorkshoonDaaMinininiomedcalNamedEnityRgt[]gpgB-ioinformatics2004:5661.,[25]张艳丽,等.统计和规则相结合的中文机构名称识别[C].北京:中国中文信息学会,中国计算2001-08-4机学会全国第六届计算语言学联合学术会议论文集.,,26YllsinneuralnetworkcomrehendinEnlishin.KeandMHaiwaraAnaturaanuaeroces.,gpggs[]gggp-2015Internat.2015.l.ionalJointConferenceonNeuralNetworksIJCNN)IEEE7(,?pplt.27GLameeal.NeuralArchitecturesforNamedEntitReconitionC//Conferenceofthe,yg[][]pNorthAmericanChateroftheAssociationforComputationalLinguistics:HumanLanguagepTechno-logies2016:260270.,28YLinSShenZLiuHLuanMSunNeuralRelationExtractionwithSelectiveAtention[],,,,^utat-over./ithAitiforComionalLinuistics2016:21242133.InstancesC/Meetnofessocaonpg,[]g29BankoMCafarellaMJlandSetal.OenInformationExtractionfromtheWebC.,,Soder,[][]p//iflProceedinsofthe20thInternationalJointConferenceonArticaIntelligence.NewgYo-2676r^USAiACMPress2007:2670.,30Et.OtiSzioniOFaderAChristensenJetalenInformationExtracon:Theecond,[],5pGenerationC.//Proceedinsofthe22ndInternationalJointConferenceonArtificial[]ganSrine-Inellience.BerlinGerm:r2011:310.tg,ypg,31J.Aitken.LeaminInformationExtractionRules:AnInductiveLoicProrammin.ggg[]gApproachC.//Inroceedinsofthe15thEuropeanConferenceonArtificial[]pg-Intelligence.2002:355359.32RMcFPereiraSKul.Sillihmsforcomlexrelaionextractionwihdonalicketameaortttld,p[,,pg]alicaionstobiomedicalIEC.//MeetinoftheAssociationforComutationalppt[]gp-Linguistics2005:491498.,l-33AehDEH°bbsJRBearJeta.SRIInternationalFASTUSSstem:MUC6TestResults,,y]pp,[52 北京交通大学硕士学位论文参考文献andAna-lssC.//In:Proceedinsthe6thMessaeUnerstaninConferenceMUC61995:yiggddg(),[]237-248.34OmanYGrishmanR-.NYU:DescritionoftheProteus/PETSstemasUsedforMUC7[],pySTCMUC-.//InPoisofthe6thMessaeUnderstandinConference71998.:rceedng[]gg(),35KambhatlaN.Combininlexicalsntacticandsemanticfeatureswithmaximumentro[]g,y,pymodelsforextractnrelationsC.//ProcoftheAcL2004onInteractivePosterandig[]D-emonstrationSessions.StroudsburPA:AssociationforComutationalLinuistics2004:14.g,pg,36ZhouGDSuJetal.ExlorinVariousKnowledeinRelationExtractionC.//Proceedinsof,[],pgg[]g-the43rdAnnualMeetinonAssociationforComutationalLinuistics2005:427434.gpg,37DonJinFenYuanonetal.ttttti.fChineseautomaicenirelaionextraconJJournalo],,[][gggygyCh-ineseInformationProcessin2007214:8085inChineseg.,,()()38GanLixinWanChanxuanLiuDexiZhoninandJianTeniao.ChineseNamedEntit[],g,,gQg,ggjyRelationExtractionBasedonSyntacticandSemanticFeatures[J].JoumalofComputerResearch-andDeveloment2016532:284302.p,,()39郭喜跃何婷婷等.基于句法语义特征的中文实体关系抽取[J.中文信息学报.201428[],],6-():18318940J-车万翔刘挺李生..2004192:16.[.实体关系自动抽取[中文信息学报],,],()41ZelenkoDAoneCRichardellaA.KernelmethodsforRelationExtractionJ.TheJournalof[],,[]iLeiRh200331083-1106Machnearnnesearc.:g,,42CheWJ--ianJSuZetalImrovededitdistanceKernelforChineseRelation[.],g,,pExtractionC.//ProceedinsofInternationalJointConferenceonNaturalLanuae[]gggP-rocessin2005132137:.g,43CollinsMuffN.ConvolutionKernelsforNaturalLanuaeC.//AdvancesinNeural[],Dygg[]Informat-ionProcessingSstems2001:625632.y,44-SocherRPennintonJHuanEHetal.Semisuervisedrecursiveautoencodersfor[],g,g,predictinsentimentdistributionsC.//ConferenceonEmiricalMethodsinNaturalLanuaepg[]pggPss-roceingEMNLP20112731Jul2011JohnMcintreConferenceCentreEdinburhUkA,,y,y,g5,-MeetinofSidatASecialInterestGrouoftheACL.DBLP2011:151161.g,,gpp45LaiSXuLLiuKeal.Recurrentconvoluionalneuralneworksforex,ttttt[],,-classificationC.//Nationalconferenceonarifiililli201522672273.[]tcanteence:g,46ZenDLiuKChenYetaLDistantSuervisionforRelationExtractionviaPiecewise,;,[]gpConvolutionalNeuralNetworksC.//ConferenceonEmiricalMethodsinNaturalLanuae[]pggi-Processn.201562.g:175317[47]Surdeanu,MihaiJulieTibshirani,RameshNallapati,andChristopherD--.ManningC.//Multiinstancemultilabellearninforrelationextraction.InProceedinsof[]ggEMNLP-C〇NLL2012.,48SantosCiceroNoueiradosBinXianandBowenZhou.Classifinrelationsbrankin,,[],gggygyg-withconvolutionalneuralnetworksJComuerScience20158686:132137.[].pt,,()49NPenMDredze.NamedEntitReconitionforChineseSocialMediawithJointlTrained[]g,ygyEmbeddings[C].//ConferenceonEmpiricalMethodsinNaturalLanguage-Processin2015.:548554g,50YankaiLinShiiShenZhiuanLiuuanboLuanandMaosonSun.NeuralRelation[,q,y,H,g]53 北京交通大学硕士学位论文参考文献ExracliiernsifttionwithSeectveAtentonovItancesC.//InProceednso[]gACL-.2016:21242133.51MnihVHeessNGravesA.RecurrentmodelsofvisualatentionC.//AdvancesinNeural[],,[]fo-InrmationiS.20142204221227.Processngystems:.52甘丽新常选等.基于句法语义特征的中文实体关系抽取[J.计算机研宄与发[],万]2016532-展:284302.,,()[53]CollobertR,WestonJ,B〇ttouL,etal.Naturallanguageprocessing(almost)fromscratch[J].TheJourna-lofMachineLearninResearch201112:24932537g.,,一54林古立彭宏等.种基于关键词的网页搜索结果多样化方法J.华南理工大学学报(自然科[],[]2011395—学版):102107.,,()55王林玉等.基于卷积神经网络和关键词策略的实体关系抽取方法J.模式识别与人工智[][]201730546-472能:5.,,()56PinWxuJGuo.Desininanadativeatentionmechanismforrelation[]Q,,ggpcl-lassification.IntemationalJointConferenceonNeuraNetworksC.//2017:43564362.[J57WanLZeilerMZhanSetal.Reularizationofneuralnetworksusin[],,g,ggdroconnecC.//Proceedinsofthe30thInternationalonferenceonMachineLearninpt[]gCgICML-13-.2013:10581066.()54 北京交通大学硕士学位论文作者简历及攻读硕士学位期间取得的研究成果作者简历及攻读硕士学位期间取得的研究成果作者简历20-10年9月2012年6月河北丨:业人学廊坊分校本科_2015年9月2018年4月北京交通大学软件学院硕士研究生发表论文[1]LMeng.AnImprovedMethodforChineseCompanyNameandAbbreviationRecognition.InternationalConferenceonKnowledgeManagementinOrganizations,20-17:435447.3() 北京交通大学硕士学位论文独创性声明独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研宄工作和取得的研宂成果,除了文中特别加以标注和致谢之处外,,论文中不包含其他人己经发表或撰写过的研宂成果也一不包含为获得北京交通大学或其他教育机构的学位或证书而使用过的材料。与我同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。学位论文作者签名:签字日期:>/|年3月日 北京交通大学硕士学位论文学位论文数据集学位论文数据集表1.1:数据集页一3键词*密级*中图分类号UDC论文资助||||关系抽取、中文公开公司实体识别、中文公司关系抽取、LSTM、句法分析J学位授予单位名称*学位授予单位代码*学位类别*学位级别*:北京交通大学10004£学硕士|论文题名*并列题名论文语种*基于网络数据的中文公司实体关系中文抽取研究**作者姓名孟蕾学号15121689|^单位名称*培养单位代码*培养单位地址邮编|北京交通大学10004北京市海淀区100044西直门外上园村3号学科专业*研究方向*学位授予年*^1件工程S然语言处理2.52018丨年|*20论文提交日期18/3/14导师姓名*魏小涛职称*教授|副评阅人*答辩委答辩委员会主席员会成员何勇强张春霞杜海江电子版论文提交格式文本()())))(V)图像视频音频(多媒体(其他(:ali/mswordidf推荐格式icatonalicaton/pp;pppi子版论文出版(发布)者电子版论文出版(发布)地权限声明||论文总页数*571*331。共项,其中带为必填数据,为2项
此文档下载收益归作者所有