中文命名实体识别及关系提取

中文命名实体识别及关系提取

ID:26165764

大小:1.36 MB

页数:18页

时间:2018-11-25

中文命名实体识别及关系提取_第1页
中文命名实体识别及关系提取_第2页
中文命名实体识别及关系提取_第3页
中文命名实体识别及关系提取_第4页
中文命名实体识别及关系提取_第5页
资源描述:

《中文命名实体识别及关系提取》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、中文命名实体识别及关系提取*********中文命名实体识别语料:人民日报1998年版主要方法:根据训练预料,利用CRF进行机器学习中文命名实体识别标注集1:由字构词将{ns,nr,nt}三种实体类型,和分词中的词位信息{B,B1,B2,M,E,S}做组合,其它字标记为OExample:中文命名实体识别词缀标记PSsur:人名的姓,比如“王”PSsuf:人名的后缀,比如“先生”Lsuf:地名的后缀,比如“省”,“特区”,“地区”Osuf:组织名的后缀,比如“委员会”,“公司”原因:中文偏正关系*为什么将词缀放到机器学习的标记中而不是用于结果修正?后缀容易识别,但是向前匹配的位置难于确定,比如“

2、上海IBM研究院”。训练模板字的特征识别:w[-1,0]:前一个字w[0,0]w[1,0]w[-1,0]/w[0,0]:前面一个字和当前字的组合w[0,0]/w[1,0],w[-1,0]/w[1,0]词缀特征识别:w[-1,1]:前一个字的词缀w[0,1],w[1,1],w[0,1]/w[1,1]/w[2,1]测试结果测试方法:将训练集拆分,80%用于训练,20%用于测试(200篇左右)测试结果:RecallPrecisionF-scoreNR81.6%961/117892.6%884/96186.7%NS84.4%1362/161388.8%1190/136286.6%NT85.2%538/

3、63190.7%483/53887.9%校正考虑到没有充分利用分词结果Error:"{张牙舞/nr}爪"===》利用分词结果可以校正校正方法:如果命名实体不是由完整的几个词组成的,判错校正结果:RecallPrecisionF-scoreNR79.3%935/117895.5%891/93586.7%NS82.5%1331/161389.8%1180/133186.0%NT85.1%537/63191.2%485/53788.0%一些问题为什么没有在标记集中加入分词信息的一列Example:江PSsurBBnr-B泽UNB1nr-B1民UNEnr-E主PSsufBO席PSsufEO1)训练时间

4、过长,内存消耗过大。如果训练在可接受的时间内,增大训练语料比多增加分词信息有效得多。2)分词和命名实体标注可以映射为一列,没必要增加一个维度。比如"主PSsufO-B"。实验数据显示,性能没有任何变化。如何获得词缀信息1)从训练语料中抽取所有的命名实体,然后计算频率,然后抽取所有词的后缀,然后计算频率,取频率高的。2)手动检查是否添加了无用的后缀,比如“上海市”在训练语料出现很多次,提取后缀会出现“海市”为一个高频率后缀,这些需要特殊处理。其它问题为什么没有引入词性信息?1)一般的词性标注的准确率在90%左右,而且人民日报语料的标注词性比较多,有40+种,准确率要比90%低一些。2)命名实体的

5、准确率在90%以上,已经比词性标注要高了。3)对于命名实体的Recall提升的话,词性标注没有明显的帮助办法,换句话说词性对于判错还有些用,但是对于Recall只会降低。AnyOtherQuentions???关系识别Located-in关系:穷举任意两个在一篇文章中出现的命名实体,然后判断他们是否是Located-in关系。判断标准:1)如果一个地点实体(NS)是一个组织(NT)的模糊前缀。比如“上海市”“上海大白兔有限公司”2)一个地点后紧接着一个组织,“上海市”的"大白兔有限公司"3)在上下文中有关键词匹配成功4)NT中内含NS,“上海市闵行区派出所”关于提取地点的核心词如果一个地点只有

6、一个词,那么去掉它的可以忽略的后缀,所有可以忽略的后缀以字典形式存在一个文件中。“上海市”==》“上海”如果一个地点实体由多个词组成,那么提取它的词性,然后取最后一个NS,然后判断后缀是否可忽略,如果可忽略返回最后的NS,否则返回最后的NS+后缀“上海/NS浦东/NS机场/N”==》“浦东机场”“香港/NS特别/a行政区/N”==》“香港”如何匹配上下文在没有标注语料的情况下,采用了自定义规则,因为从训练语料来看,新闻题材中需要上下文匹配的情况较少,而且特点比较一致。匹配的上下文形式化:作用方向:是NS在前,NT在后,还是反之。作用域:0:一个句子,不可有其他实体打断1:NS之后全文(新华社北

7、京讯)2:NS之前全文(记者北京报道)上文,中间,下文:正则表达式,上下文只用一个窗口,中间的文字去掉无用词,只保留名词和动词。例子10[-][.*

8、地处/v

9、.*][-]10[-][.*

10、位于/v

11、.*][-]10[-][.*

12、坐落/v

13、.*][-]10[-][.*/v

14、在/p][-]10[-][.*

15、地址/n

16、是/v][-]12[-][-][.*

17、报道/v

18、.*/w]12[-][-][.*

19、讯

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。