基于层叠条件随机场模型的中文机构名自动识别.pdf

基于层叠条件随机场模型的中文机构名自动识别.pdf

ID:54018065

大小:444.58 KB

页数:9页

时间:2020-04-28

基于层叠条件随机场模型的中文机构名自动识别.pdf_第1页
基于层叠条件随机场模型的中文机构名自动识别.pdf_第2页
基于层叠条件随机场模型的中文机构名自动识别.pdf_第3页
基于层叠条件随机场模型的中文机构名自动识别.pdf_第4页
基于层叠条件随机场模型的中文机构名自动识别.pdf_第5页
资源描述:

《基于层叠条件随机场模型的中文机构名自动识别.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第5期电子学报Vol.34No.52006年5月ACTAELECTRONICASINICAMay2006基于层叠条件随机场模型的中文机构名自动识别1,2111周俊生,戴新宇,尹存燕,陈家骏(1.南京大学计算机软件新技术国家重点实验室,江苏南京210093;2.南京师范大学计算机科学系,江苏南京210097)摘要:中文机构名的自动识别是自然语言处理中的一个比较困难的问题.本文提出了一种新的基于层叠条件随机场模型的中文机构名自动识别算法.该算法在低层条件随机场模型中解决对人名、地名等简单命名实体的识别,将识别结果传递到高层模型,

2、为高层的机构名条件随机场模型实现对复杂机构名的识别提供决策支持.文中为机构名条件随机场模型设计了有效的特征模板和特征自动选择算法.对大规模真实语料的开放测试中,召回率达到90.05%,准确率达到88.12%,性能优于其它中文机构名识别算法.关键词:命名实体;中文机构名识别;条件随机场中图分类号:TP391文献标识码:A文章编号:0372-2112(2006)05-0804-06AutomaticRecognitionofChineseOrganizationNameBasedonCascadedConditionalRand

3、omFields1,2111ZHOUJun-sheng,DAIXin-yu,YINCun-yan,CHENJia-jun(1.StateKayLaboratoryfornovelSoftwareTechonology,nanjingUniversity,nanjing,iangsu210093,china;2.DeptartmentofcomputerScience,nanjingnormalUniversity,nanjing,iangsu210097,china)Abstract:Automaticrecognition

4、ofChineseorganizationnameisaverydifficultprobleminmanyNLPtasks.ThispaperpresentsanewalgorithmofChineseorganizationnamerecognitionbasedoncascadedconditionalrandomfields.Intheproposedalgorithm,thepersonnameandlocationnamearefirstrecognizedbythelowermodel.Theresultthe

5、nispassedtothehighmodelandsupportsthedecisionofhighmodelforrecognitionofthecomplicatedorganizationnames.Weexperimentallyevaluatethealgorithmonlarge-scalecorpus.Inopentest,itsrecallingrateachieves90.05%andtheprecisionrate88.12%.Theevaluationresultsshowthatthealgorit

6、hmbasedoncascadedconditionalrandomfieldssignificantlyoutperformspreviousmethods.Keywords:namedentity;Chineseorganizationnamerecognition;conditionalrandomfields[2]则提出了基于启发式规则的机构名识别方法,虽然取!"引言得了一定的效果,但论文所报告的测试结果只是基于一个命名实体的识别是许多自然语言处理任务的基本要很小规模的测试数据集.机构名由于种类繁多,对各类机构求,如

7、信息抽取、机器翻译、文本摘要、主题发现与跟踪等.名要总结出统一的识别规则,这基本上是不可行的.文[3]近年来,中文人名、地名的识别研究已经取得了较大的进提出了一种基于隐马尔可夫模型的角色标注方法识别中文展,而对中文机构名识别目前还未能获得较好的效果.2004机构名.但由于隐马尔可夫模型是一种产生性(generative)[4]年度国家863中文信息处理与智能人机接口技术评测的命模型,它存在一些固有缺陷与不足.在产生性模型中,为名实体识别评测结果显示:中文机构名识别的召回率仅为保证推导的正确性,需要作出严格的独立性假设.事实上

8、,57.41%,准确率仅为64.64%.这表明对中文机构名的识大多数序列数据都不能被表示成一系列独立的元素.条件别研究目前仍处在探索阶段.随机场(ConditionalRandomFields,CRFs)则是一种新的概[5]相对于中文人名、地名的识别来说,中文机构名的识别率图模型,它具有表

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。