网上的基础语言信息资源

网上的基础语言信息资源

ID:26377161

大小:45.50 KB

页数:5页

时间:2018-11-26

网上的基础语言信息资源_第1页
网上的基础语言信息资源_第2页
网上的基础语言信息资源_第3页
网上的基础语言信息资源_第4页
网上的基础语言信息资源_第5页
资源描述:

《网上的基础语言信息资源》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、网上的基础语言信息资源俞士汶(北京大学)关键词:语言信息处理;汉语标注语料库;词语切分与词性标注;现代汉语语法信息词典摘要:本文第1节论述语言信息处理技术在信息化进程中的作用并探讨了发展语言信息处理技术的策略,强调语言知识库在自然语言处理系统中的地位。第2节是本文的重心所在,通过引导读者访问北大计算语言学研究所的主页的方式,介绍北大计算语言学研究所进行的语言信息处理基础研究、已经取得的成果以及可以从该主页自由下载的语言资源(包括200多万字的汉语标注语料库和现代汉语语法信息词典样例等)。第3节提出需要进一步研究的课题。FoundationalLanguageResource

2、DataonaWebSiteYuShiwen(PekingUniversity)Keywords:LanguageInformationProcessing,ChineseTaggedCorpus,WordSegmentationandPart-Of-SpeechTagging,theGrammaticalKnowledge-baseofContemporaryChineseAbstract:Thispaperbeginswiththesignificanceoflanguageinformationprocessingtechnologyfortheprogressofa

3、ninformationsociety.Itoutlinesthestrategiesindevelopinglanguageinformationprocessingtechnology,withaspecialstressonthecrucialroleoflanguageknowledgebaseinNLPsystems.Thesecondsection,alsotheweightofthepaper,showsthereadersaroundthehomepageofInstituteofComputationalLinguistics(ICL)ofPekingUn

4、iversity,explainingICL’sfoundationalresearchesonlanguageinformationprocessing,theresultsoftheseresearchesandthefreelanguageresourcesatthishomepagefordownload(includingthetaggedcorpusofmorethan2millionsChineseCharacters,theGrammaticalKnowledge-base’ssamplesandsoon).Thelastsectionofthispaper

5、printsoutthetasksforfurtherstudies.1.信息时代呼唤语言信息处理技术全社会的信息化进程对语言信息处理技术提出了强烈的需求,这是容易理解的。因为信息的表述、传播、转换(包括翻译)都要依赖语言文字作为最主要的载体。当代任何一个国家、民族、社团,要跟上文明进步的节奏,必须努力使自己使用的语言文字的计算机处理技术与全社会的信息化同步前进,而语言文字信息处理技术的进步又会加快社会的信息化进程。汉语、汉字对于璀璨的中华文化的创造、传承和发展,功不可没。不过,当西方国家已普遍使用机械打字机的时候,中国人仍用手写一个个复杂的汉字,这也许是中国经济在上两个世

6、纪落后的原因之一。尽管当代信息化的主要工具——计算机的基本结构适应于西方人使用的小字符集(包括几十个字母、10个数字及一些符号),但由于人类智慧和技术进步的交互作用,到了1990年代,计算机处理成千上万的汉字同处理100多个字符相比较,已没有实质性的困难。这为中华文化圈的信息化搭建了基本的平台。不过,语言信息处理与文字信息处理是处于两个不同层次的任务,尽管二者也有联系。自然语言处理的最高境界是自然语言理解,也就是实现计算机对人类日常使用的自然语言的领会与运用。显然这是一个长远的目标。现在,计算机不能像人一样理解汉语,同样也不能理解英语。即使不能说汉语信息处理同英语信息处理的

7、发展水平相同,至少不像汉字信息处理起步时那样尴尬、那样困惑,完全是一个英语世界不存在的问题。各种语言的信息处理面临的问题,很多都是一样的。当然,汉语有自身的特点,信息处理有特殊的难题,也更有广阔的发展空间。我国著名语言文字专家、96岁高龄的周有光先生对汉语、汉字在新世纪的发展寄予热望。他在20001年9月份的《中国语文现代化学会通讯》上发表文章,认为“21世纪,华语(笔者注:周先生指的就是‘汉语’)将在全世界华人中普遍推广”。同月在南京召开的“首届华文传媒论坛”也认为,中文极有希望成为世界上第二大媒体语言”。在这样

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。