基于条件随机场中文产品名自动识别方法Methodfor.pdf

基于条件随机场中文产品名自动识别方法Methodfor.pdf

ID:57818906

大小:315.09 KB

页数:4页

时间:2020-04-05

基于条件随机场中文产品名自动识别方法Methodfor.pdf_第1页
基于条件随机场中文产品名自动识别方法Methodfor.pdf_第2页
基于条件随机场中文产品名自动识别方法Methodfor.pdf_第3页
基于条件随机场中文产品名自动识别方法Methodfor.pdf_第4页
资源描述:

《基于条件随机场中文产品名自动识别方法Methodfor.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、*基于条件随机场的中文产品名自动识别方法1,21黄利科,刘群(1.中国科学院计算技术研究所智能信息处理重点实验室,北京100080;2.中国科学院研究生院,北京100049)摘要:信息化的发展对中文自然语言处理技术提出了更高的要求,从而使产品名实体识别逐渐成为一个新的研究方向。.本文提出了一种基于条件随机场模型的中文产品名自动识别方法,在电子和数码领域语料上取得了较好的效果,表明了该方法的有效性。关键词:产品名识别条件随机场中图法分类号:TP391文献标识码:AMethodforChineseProductNameRecognitionBasedonConditionalRandomFi

2、elds1,21HuangLike,LiuQun(1.KeyLaboratoryofIntelligentInformationProcessing,InstituteofComputingTechnology,CAS,Beijing100080,China;2.GraduateUniversityofChineseAcademyofSciences,Beijing100049,China)Abstract:Withthedevelopmentofinformationsociety,therecognitionofproductnamedhasbeenbecominganewresea

3、rchfield,thispaperpresentedanautomaticrecognitionmathodbesedonconditionalrandomfields.Promisingexperimentalresultsoncorpusaboutdigitalproductindicatesitseffectivity.Keywords:ProductNameRecognition;ConditionalRandomFields是一个比较新颖、迄今为止较少有人涉足的研究领域。就可查阅到的资料来看,当前国内外仅有为数不多的工作涉及这0引言一课题。[JMPierre,2002]提出了

4、一种在对文档集合进行自动文本分类的基础之上利用数据挖掘技术从中获取知识信息的方法,并在较大规模的英文产品评测类文档集合上进行了命名实体识别对于很多自然语言处理领域的任务,如信性能测试,简单布尔分类器的使用,使系统性能受到较大限息抽取,信息检索和自动文摘等而言,作为许多工作的基础,制。[C.Niuetal.,2003]利用自举(bootstrapping)的、训练是一项非常重要的技术。总体来说,经过较长一段时间的努两个连续学习器的方法进行了多种命名实体在内的实体识力,当前的中文命名实体识别方面的研究已经有了很大的进别,在产品名方面,涉及英文的轿车,卡车,飞机以及计算展,但是目前该领域内的工

5、作,主要集中于对人名(PER)、机等多种类型,最终在该方向上取得69.81%的F值。[E.Bick,地名(LOC)、机构名(ORG),时间(TIME),日期(DATE)、2004]用基于约束语法的解析器(constraintgrammerbased数量(NUM)等几种常规命名实体的研究。parser)进行丹麦语的产品名命名实体识别,移植性较差。近年来,随着信息化的不断深入发展,各类自然语言处相比于英文方面已有的工作,中文命名实体识别方面的研究理方面的任务也是日新月异,这对命名实体识别也提出了更工作起步较晚,目前的主流识别方法以统计学习为主,多种高的要求,这使我们意识到,仅靠常规命名实体识

6、别已难以方法趋于融合的方法。[F.Liu,etal,2005]将中文产品名实体满足诸如信息提取等方面的要求。产品名作为文本类信息中定义为包含以下确定性信息的名词结构:(1)含有产品品牌一种常见的实体形式,随着人们对信息获取粒度的要求不断或者型号实体任何一个或两个;(2)尽管没有含有品牌或提高,正引起人们越来越多的关注。者型号信息,但是含有某种品牌所特有的产品系列或者版本本文对产品命名实体识别的任务进行了定义和分析,在信息。并利用基于层级隐马尔科夫模型的统计模型进行中文此基础之上,提出了一种基于条件随机场(Conditional数码和手机类文档上的产品名识别研究。由于隐马尔可夫模Rando

7、mFields,CRF)统计机器学习模型的产品命名实体识型是一种产生性(generative)模型,这种模型本身存在一别方法,在这一研究方向上进行了有效的探索。些固有的缺陷与不足:在产生性模型中,为了保证推导的正确性,需要做出严格的独立性假设,而实际中的大多数数据序列都不能被表示成一系列相互独立的元素。1.相关工作2.任务分析与界定相对与常规命名实体识别任务来说,产品名实体识别仍---------------------------

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。