基于多层条件随机场的中文命名实体识别_胡文博new

基于多层条件随机场的中文命名实体识别_胡文博new

ID:33504300

大小:246.82 KB

页数:4页

时间:2019-02-26

基于多层条件随机场的中文命名实体识别_胡文博new_第1页
基于多层条件随机场的中文命名实体识别_胡文博new_第2页
基于多层条件随机场的中文命名实体识别_胡文博new_第3页
基于多层条件随机场的中文命名实体识别_胡文博new_第4页
资源描述:

《基于多层条件随机场的中文命名实体识别_胡文博new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、ComputerEngineeringandApplications计算机工程与应用2009,45(1)163基于多层条件随机场的中文命名实体识别胡文博1,2,都云程1,2,吕学强1,2,施水才1,21,2,DUYun-cheng1,2,LVXue-qiang1,2,SHIShui-cai1,2HUWen-bo1.北京信息科技大学中文信息处理研究中心,北京1001012.北京拓尔思信息技术有限公司,北京1001011.ChineseInformationProcessingResearchCenter,BeijingInformationScienceandTechno

2、logyUniversity,Beijing100101,China2.BeijingTRSInformationTechnologyCoLtd,Beijing100101,ChinaE-mail:nakata_huwenbo@hotmail.comHUWen-bo,DUYun-cheng,LVXue-qiang,etal.StudyonChinesenamedentityrecognitionbasedoncascadedcondi-tionalrandomfields.ComputerEngineeringandApplications,2009,45(1):163

3、-165.Abstract:Namedentityrecognitionisoneofthefundamentalproblemsinmanynaturallanguageprocessingapplications,suchasinformationextraction,informationretrieval,machinetranslation,shallowparsingandquestionansweringsystem.Thispapermainlyresearchestherecognitionofthecomplexlocationandcomplexo

4、rganizationinChinesenamedentity.Thispaperpresentsanewalgorithmofnamedentityrecognitionbasedoncascadedconditionalrandomfields.Weexperimentallyevaluatethealgorithmonlarge-scalecorpus.Inopentest,therecall,precisionandF-measureachievesof2recognitionsare91.95%,89.99%,90.50%and90.07%,88.72%,89

5、.39%.Keywords:conditionalrandomfields;namedentityrecognition;nameentity摘要:命名实体识别属于自然语言处理的基础研究领域,是信息抽取、信息检索、机器翻译、组块分析、问答系统等多种自然语言处理技术的重要基础。主要研究中文命名实体中对复杂地名和复杂机构名的识别,提出一种基于多层条件随机场的命名实体识别的方法。对大规模真实语料进行开放测试,两项识别的召回率、准确率和F值分别达到91.95%、89.99%、90.50%和90.07%、88.72%、89.39%。关键词:条件随机场;命名实体识别;命名实体DOI

6、:10.3778/j.issn.1002-8331.2009.01.051文章编号:1002-8331(2009)01-0163-03文献标识码:A中图分类号:TP3911引言外,规则较多时还会引起规则之间的冲突,各语言间移植困难、命名实体是自然语言中基本的信息单位,是正确理解自然通用性不强。基于统计的方法的优点在于对语言的依赖性小,可移植性好。张华平等[2]应用隐马尔可夫模型并使用角色标注语言的基础。狭义地讲,可以把命名实体分为人名、地名、组织名等。广义地讲,命名实体还可以包括时间表达式、数值表达式的方法来进行实体识别,但由于隐马尔可夫模型是一种生成模等。命名实体的识

7、别无论对汉语还是英语,都不是十分容易的型,他存在一些固有缺陷与不足,需要做出严格的独立性假设。工作。首先,命名实体是一个开放的类,数量十分庞大,难以完事实上,大多数序列数据都不能被表示成一系列独立的元素。全列举。其次,命名实体并非一个稳定的类,随时间推移,不断条件随机场是一种用于标注和切分有序数据的条件概率模型,集合了最大熵模型和隐马尔可夫模型的特点[3],具有表达元素有新的命名实体产生。最后,没有共同遵守的严格的命名规范。这些表明命名实体识别是一项很困难的任务,研究仍处在探索长距离依赖性和交叠性的能力,能方便加入上下文信息以及领阶段。域

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。