欢迎来到天天文库
浏览记录
ID:37700713
大小:205.14 KB
页数:9页
时间:2019-05-29
《综合型语言知识库的规划及其构建方略 - WELCOME T》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、关于汉语信息处理的认识及其研究方略俞士汶朱学锋(北京大学计算语言学研究所北京100871)[摘要]在总结长期实践经验的基础上,笔者分析了为什么自然语言处理是一个相当困难的研究领域,而汉语信息处理是更加困难的研究领域。面对日益强烈的社会需求,汉语信息处理的研究方兴未艾。笔者探讨了开展这项研究的技术路线,特别强调了语言知识库建设的重要性。[关键词]自然语言处理,汉语信息处理,语言知识库[中图分类号]TP391ChineseInformationProcessinganditsMethodologyYuShiwenZhuXuefengA
2、bstract:Basedontheexperiencesoflong-termresearchpractices,theauthorsanalyzewhytheNaturalLanguageProcessingisaverydifficultresearchdomain,especiallythestudyofChineseInformationProcessingismoredifficult.TomeetthedemandsofinformativesocietythestudyofChineseInformationPro
3、cessingiswellunderwaywithoutsignsofslackening.TheauthorsdiscussthemethodologyofChineseInformationProcessingandemphasizetheimportanceofLanguageKnowledgeBase.Keywords:NaturalLanguageProcessing,ChineseInformationProcessing,LanguageKnowledgeBase1.引言2001年5月国家语委在无锡召开了语言文字应用
4、研究“十五”科研规划论证会议。笔者对中文信息处理在整个会议进程中得到的重视有相当强烈的感受。无论是领导干部的讲话[1]还是国家语委提出的《语言文字应用研究“十五”项目指南(征求意见稿)》,以及专家们的发言与论证,都充分表述了中文信息处理技术对我国社会的信息化进程和信息产业发展的战略意义。作为一名长期从事语言信息处理技术研究的专业人员当然深受鼓舞。现在的条件同10多年前草创时期相比,实在是好得太多了。笔者愿在本文中阐述对自然语言处理特别是汉语信息处理的一些基本认识,也阐述了汉语信息处理技术研究应该采取的技术路线,强调了语言知识库建设
5、的重要性。这些认识主要是自己长期研究实践经验的总结,理论水平可能不高。期望能达到向先进学习、与同行交流的目的。投稿日期:2002年2月10日基金支持:国家自然基金69483003、973项目G1998030507-4、863项目2001AA114040、北大985作者信息:俞士汶,男,1938年12月生,北京大学计算机科学技术系教授;朱学锋,女,1937年12月生,北京大学计算语言学研究所副教授;两人的研究方向皆为计算语言学。2.自然语言处理——难语言研究确实很难。道理并不复杂。首先,人们研究任何事物和学问总是要依靠思维。研究语言
6、同样离不开思维。可是思维(至少逻辑思维)又要用语言来表达。也就是说,语言既是研究的对象,又是研究的工具。当其他领域的学者将自然现象、社会现象、生理现象等作为对象加以研究时,就没有这样的尴尬。第二,语言现象是无限的,而从事语言研究的人所能利用的资源总是有限的。只用有限的资源去解决无限的问题,实在太困难了。如果语言信息处理的研究者不预先明确研究的范围和目标,甚至给人以任何问题都能解决的假象或模糊认识,结果往往是从期望的高峰跌入失望的低谷。第三,从事语言信息处理研究,最得力的工具自然是计算机。可是,当前可以利用的通用计算机不论功能多么强
7、大,仍然被约束在冯•诺依曼的体系结构内。它的本质功能只不过是对一种表现形式的符号串实施一连串的但总是有限步的变换,而得到另一种表现形式的符号串。这个过程同人的思维过程、认知过程是大相径庭的。如果没有跳出这个窠臼,却声称可以在这样的计算机上再现人脑的“理解”机制,即使充分肯定研究者的宏图大志,也要冷静地指出这是对自然语言理解的困难估计不足。下面的例子也许可以把这个问题说得更明白一些。笔者偶然读到《今日民航》2001年9月号上的一篇关于“沙漠化”的文章,这是一篇新闻报道,应该是写给普通人看的。笔者读到其中的这样一段文字:几年前由于种植
8、籽瓜有利可图,使大批的种植者就到过渡带来开垦,⋯⋯。在这样的绿洲和沙漠过渡带开垦,极易造成风蚀。却遇到了困难。对于删节号前的那句话,每一个字都认识,也没有专有名称,可是试读了两遍,就是读不通。因为运用自己的语言知识和常识,对后半句进行切分,只能得到
此文档下载收益归作者所有