资源描述:
《(2007)自然语言处理的计算模型_张钹》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、第21卷第3期中文信息学报Vol.21,No.32007年5月JOURNALOFCHINESEINFORMATIONPROCESSINGMay,2007文章编号:100320077(2007)0320003205编者按:Internet时代对中文信息处理提出了更多、更新的需求,同时,致力于中文信息处理研究的队伍也在不断地壮大。在这支队伍中,既有在这个领域里长期辛勤耕耘的老兵,也有初出茅庐的新人。为了使研究者们得以在更高的起点上开展研究,我们特向该领域(或相关领域)的资深专家和学者约稿,这些稿件或是多年研究成果的厚实积累以及发轫于斯的深刻思考,或是具有前瞻性的前沿课题探索,或是相关研究工作系统
2、而深入的综述。我们设立了一个约稿专栏,陆续刊登此类稿件,以飨读者。本期刊登其中的2篇,分别是张钹院士的“自然语言处理的计算模型”、黄昌宁教授等的“中文分词十年回顾”。相信这些论文对读者全面、深刻地了解乃至理解相关学术问题,一定会大有裨益。自然语言处理的计算模型张钹(清华大学计算机系,北京100084)摘要:本文讨论自然语言处理的计算模型。目前已经存在有各种类型的语言计算模型,如分析模型、概率统计模型、混合模型等,这些模型各具特色,并存在其自身的局限性。自然语言处理作为一个不适定问题,我们将讨论求解这类问题的本质困难,面临的挑战,以及解决这些困难的途径。关键词:人工智能;自然语言处理;计算模型
3、;分析模型;概念统计模型;混合模型;不适定问题中图分类号:TP391文献标识码:ATheComputationalModelsofNaturalLanguageProcessingZHANGBo(DepartmentofComputerScience&TechnologyTsinghuaUniversity,Beijing100084,China)Abstract:Inthispaper,wewilldiscussthecomputationalmodelsofnaturallanguageprocessing.Therehavebeenseveralkindsofcomputational
4、modelssuchasanalyticalmodel,statisticalmodel,hybridmodel,etc;eachhasitsowncharacteristicsandlimitations.Asanill2posedproblem,we’lldiscusswhattheessentialhardnessthenaturallanguageprocessinghas,whatchallengewewillconfrontwith,andwhatmeasureswe’lladoptedtosolvethediffi2culty.Keywords:artificialintell
5、igence;naturallanguageprocessing;computationalmodel;analyticalmodel;statisticalmodel;hybridmodel;ill2posedproblem包括对字、词、句、篇章等进行转换、分析与理解等[1]1引言等。与电子计算机的发展历史相比,自然语言处理算是一门很“老”的学科了。电子计算机刚刚问本文讨论的“自然语言处理”都是指利用电子计世,计算机科学家就对语言的机器处理备感兴趣,不算机对自然语言的各级语言单位进行的自动处理,久语言学、心理学、认知科学、人工智能等不同领域收稿日期:2007203201定稿日期:20072
6、03201基金项目:国家自然科学基金资助项目(60621062);国家973资助项目(2003CB317007,2004CB318108)作者简介:张钹(1935—),男,中国科学院院士,主要研究方向为人工智能。4中文信息学报2007年的学者也纷纷参入他们的研究队伍,一门新的研究问,语言处理的复杂性来源于语言本身的复杂性,因领域———自然语言处理从此诞生。翻开它的历史,此上述研究成果对于进一步理解自然语言的特点,人们会发现,自然语言处理的发展道路并不平坦,研以及改进机器处理的性能,都起过很好的作用。不究工作跌宕起伏,时而乐观,时而悲观。人们对自然过,在自然语言自动处理过程中,计算机处理的直接
7、语言自动处理的困难通常估计不足,对它发展的前对象并不是实际的自然语言,而是它的计算模型,因景往往过于乐观。可是,实践却一再表明事实并非此要真正理解自然语言自动处理的问题,并找出解如此,研究工作总是困难重重,进展缓慢,于是引来决的办法,还需要从语言处理建模的角度来探讨这了悲观情绪。奇怪的是,这种乐观与悲观情绪的交些问题,可惜目前这方面的探讨还不多,本文将着重替、循环在半个多世纪自然语言处理的发展历史上讨论它。却