资源描述:
《中文命名实体识别及关系提取》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、中文命名实体识别及关系提取*********中文命名实体识别语料:人民日报1998年版主要方法:根据训练预料,利用CRF进行机器学习中文命名实体识别标注集1:由字构词将{ns,nr,nt}三种实体类型,和分词中的词位信息{B,B1,B2,M,E,S}做组合,其它字标记为OExample:中文命名实体识别词缀标记PSsur:人名的姓,比如“王”PSsuf:人名的后缀,比如“先生”Lsuf:地名的后缀,比如“省”,“特区”,“地区”Osuf:组织名的后缀,比如“委员会”,“公司”原因:中文偏正关系*为什么将词缀放到机器学习的标记中而不是用于结果修正?后缀容易识别,但是向前匹配的位置难于确定,比如“
2、上海IBM研究院”。训练模板字的特征识别:w[-1,0]:前一个字w[0,0]w[1,0]w[-1,0]/w[0,0]:前面一个字和当前字的组合w[0,0]/w[1,0],w[-1,0]/w[1,0]词缀特征识别:w[-1,1]:前一个字的词缀w[0,1],w[1,1],w[0,1]/w[1,1]/w[2,1]测试结果测试方法:将训练集拆分,80%用于训练,20%用于测试(200篇左右)测试结果:RecallPrecisionF-scoreNR81.6%961/117892.6%884/96186.7%NS84.4%1362/161388.8%1190/136286.6%NT85.2%538/
3、63190.7%483/53887.9%校正考虑到没有充分利用分词结果Error:"{张牙舞/nr}爪"===》利用分词结果可以校正校正方法:如果命名实体不是由完整的几个词组成的,判错校正结果:RecallPrecisionF-scoreNR79.3%935/117895.5%891/93586.7%NS82.5%1331/161389.8%1180/133186.0%NT85.1%537/63191.2%485/53788.0%一些问题为什么没有在标记集中加入分词信息的一列Example:江PSsurBBnr-B泽UNB1nr-B1民UNEnr-E主PSsufBO席PSsufEO1)训练时间
4、过长,内存消耗过大。如果训练在可接受的时间内,增大训练语料比多增加分词信息有效得多。2)分词和命名实体标注可以映射为一列,没必要增加一个维度。比如"主PSsufO-B"。实验数据显示,性能没有任何变化。如何获得词缀信息1)从训练语料中抽取所有的命名实体,然后计算频率,然后抽取所有词的后缀,然后计算频率,取频率高的。2)手动检查是否添加了无用的后缀,比如“上海市”在训练语料出现很多次,提取后缀会出现“海市”为一个高频率后缀,这些需要特殊处理。其它问题为什么没有引入词性信息?1)一般的词性标注的准确率在90%左右,而且人民日报语料的标注词性比较多,有40+种,准确率要比90%低一些。2)命名实体的
5、准确率在90%以上,已经比词性标注要高了。3)对于命名实体的Recall提升的话,词性标注没有明显的帮助办法,换句话说词性对于判错还有些用,但是对于Recall只会降低。AnyOtherQuentions???关系识别Located-in关系:穷举任意两个在一篇文章中出现的命名实体,然后判断他们是否是Located-in关系。判断标准:1)如果一个地点实体(NS)是一个组织(NT)的模糊前缀。比如“上海市”“上海大白兔有限公司”2)一个地点后紧接着一个组织,“上海市”的"大白兔有限公司"3)在上下文中有关键词匹配成功4)NT中内含NS,“上海市闵行区派出所”关于提取地点的核心词如果一个地点只有
6、一个词,那么去掉它的可以忽略的后缀,所有可以忽略的后缀以字典形式存在一个文件中。“上海市”==》“上海”如果一个地点实体由多个词组成,那么提取它的词性,然后取最后一个NS,然后判断后缀是否可忽略,如果可忽略返回最后的NS,否则返回最后的NS+后缀“上海/NS浦东/NS机场/N”==》“浦东机场”“香港/NS特别/a行政区/N”==》“香港”如何匹配上下文在没有标注语料的情况下,采用了自定义规则,因为从训练语料来看,新闻题材中需要上下文匹配的情况较少,而且特点比较一致。匹配的上下文形式化:作用方向:是NS在前,NT在后,还是反之。作用域:0:一个句子,不可有其他实体打断1:NS之后全文(新华社北
7、京讯)2:NS之前全文(记者北京报道)上文,中间,下文:正则表达式,上下文只用一个窗口,中间的文字去掉无用词,只保留名词和动词。例子10[-][.*
8、地处/v
9、.*][-]10[-][.*
10、位于/v
11、.*][-]10[-][.*
12、坐落/v
13、.*][-]10[-][.*/v
14、在/p][-]10[-][.*
15、地址/n
16、是/v][-]12[-][-][.*
17、报道/v
18、.*/w]12[-][-][.*
19、讯