欢迎来到天天文库
浏览记录
ID:33482306
大小:246.82 KB
页数:4页
时间:2019-02-26
《基于多层条件随机场的中文命名实体识别_胡文博》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、ComputerEngineeringandApplications计算机工程与应用2009,45(1)163基于多层条件随机场的中文命名实体识别胡文博1,2,都云程1,2,吕学强1,2,施水才1,21,2,DUYun-cheng1,2,LVXue-qiang1,2,SHIShui-cai1,2HUWen-bo1.北京信息科技大学中文信息处理研究中心,北京1001012.北京拓尔思信息技术有限公司,北京1001011.ChineseInformationProcessingResearchCenter,Beij
2、ingInformationScienceandTechnologyUniversity,Beijing100101,China2.BeijingTRSInformationTechnologyCoLtd,Beijing100101,ChinaE-mail:nakata_huwenbo@hotmail.comHUWen-bo,DUYun-cheng,LVXue-qiang,etal.StudyonChinesenamedentityrecognitionbasedoncascadedcondi-tionalra
3、ndomfields.ComputerEngineeringandApplications,2009,45(1):163-165.Abstract:Namedentityrecognitionisoneofthefundamentalproblemsinmanynaturallanguageprocessingapplications,suchasinformationextraction,informationretrieval,machinetranslation,shallowparsingandques
4、tionansweringsystem.ThispapermainlyresearchestherecognitionofthecomplexlocationandcomplexorganizationinChinesenamedentity.Thispaperpresentsanewalgorithmofnamedentityrecognitionbasedoncascadedconditionalrandomfields.Weexperimentallyevaluatethealgorithmonlarge
5、-scalecorpus.Inopentest,therecall,precisionandF-measureachievesof2recognitionsare91.95%,89.99%,90.50%and90.07%,88.72%,89.39%.Keywords:conditionalrandomfields;namedentityrecognition;nameentity摘要:命名实体识别属于自然语言处理的基础研究领域,是信息抽取、信息检索、机器翻译、组块分析、问答系统等多种自然语言处理技术的重要基础。
6、主要研究中文命名实体中对复杂地名和复杂机构名的识别,提出一种基于多层条件随机场的命名实体识别的方法。对大规模真实语料进行开放测试,两项识别的召回率、准确率和F值分别达到91.95%、89.99%、90.50%和90.07%、88.72%、89.39%。关键词:条件随机场;命名实体识别;命名实体DOI:10.3778/j.issn.1002-8331.2009.01.051文章编号:1002-8331(2009)01-0163-03文献标识码:A中图分类号:TP3911引言外,规则较多时还会引起规则之间的冲突,各
7、语言间移植困难、命名实体是自然语言中基本的信息单位,是正确理解自然通用性不强。基于统计的方法的优点在于对语言的依赖性小,可移植性好。张华平等[2]应用隐马尔可夫模型并使用角色标注语言的基础。狭义地讲,可以把命名实体分为人名、地名、组织名等。广义地讲,命名实体还可以包括时间表达式、数值表达式的方法来进行实体识别,但由于隐马尔可夫模型是一种生成模等。命名实体的识别无论对汉语还是英语,都不是十分容易的型,他存在一些固有缺陷与不足,需要做出严格的独立性假设。工作。首先,命名实体是一个开放的类,数量十分庞大,难以完事实上
8、,大多数序列数据都不能被表示成一系列独立的元素。全列举。其次,命名实体并非一个稳定的类,随时间推移,不断条件随机场是一种用于标注和切分有序数据的条件概率模型,集合了最大熵模型和隐马尔可夫模型的特点[3],具有表达元素有新的命名实体产生。最后,没有共同遵守的严格的命名规范。这些表明命名实体识别是一项很困难的任务,研究仍处在探索长距离依赖性和交叠性的能力,能方便加入上下文信息以及领阶段。域
此文档下载收益归作者所有