语料库和知识库的研究现状

语料库和知识库的研究现状

ID:37953542

大小:65.64 KB

页数:10页

时间:2019-06-03

语料库和知识库的研究现状_第1页
语料库和知识库的研究现状_第2页
语料库和知识库的研究现状_第3页
语料库和知识库的研究现状_第4页
语料库和知识库的研究现状_第5页
资源描述:

《语料库和知识库的研究现状》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、期中论文语料库和知识库研究现状2015-12-99期中论文摘要:语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源,它与自然语言处理有着相辅相成的关系,是用统计语言模型的方法处理自然语言的基础资源。知识库广泛应用于信息检索、机器问答系统、自动文摘、文本分类等领域,为进行大规模的真实性文本的语义分析提供了有利的支持,它也成为自然语言处理不可或缺的基础资源。由于语料库和知识库的广泛应用,如今国内外对语料库和知识库的研究给与高度的重视,经过过去几十年的发展,各国在语料库和知识库的建设和应用方面都取得了不少成果。本文通过对语料库与知

2、识库相关文献资料的搜索整理,重点介绍目前国内外在语料库和知识库方面的研究现状。关键词:语料库;知识库;研究现状1前言语料库是指按照一定的语言学原则,运用随机抽样的方法,收集自然出现的连续的语言文本或者说话片段而建成的具有一定容量的大规模电子文本库[1]。而知识库是知识工程中结构化、易操作使用,全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。语料库和知识库在传统语言研究、词典编纂、语言教学、自然语言处理等领域有重要作用,所以自从20世纪60年

3、代第一个现代意义上的语料库——美国布朗语料库(BrownCorpus)诞生开始,大批国内外的专家学者致力于语料库和知识库的研究,近年来国内外对于语料库知识库的研究取得了重大的突破,形成了规模不一的各种语料库和知识库,并且涌现了众多有关语料库和知识库的专著、论文等。对于语料库和知识库发展现状的总结研究,不仅可以帮助人们清楚的了解语料库和知识库当前发展的形势,对今后语料库知识库的发展具有一定的指导作用,而且对于应用语料库知识库发展自然语言处理等领域具有重要意义。2研究意义从现代意义上第一个语料库出现以来,语料库在国内外的发展均有长足的进步,9期中论

4、文不但其规模越来越大,加工深度越来越深,而且有关语料库的应用也越来越广泛[2]。语料库的迅速发展对语言学研究领域和应用语言学领域产生了巨大的作用。在语言学研究领域,语料库为语言研究者和使用者提供了丰富而全面的研究素材,有助于研究者根据大量的语言素材实际得出客观正确的结论。另外,语料库的现代化使得语言学家可以利用语料库分析软件实现语料检索和频率统计,帮助人们观察和把握语言事实,更为准确的得出结论。在应用语言学领域,语料库技术与应用语言学的结合也产生了大量的实用成果。比如,应用语料库产生一系列基于语料库的词典,应用语料库确定语言教学的教材提纲,提供

5、外语教学与研究的良好平台等。而知识库尤其是语言知识库,是帮助计算机了解人类语言的一个媒介和手段,也是让计算机逐渐智能起来的物质前提[3]。知识库的构建对于自然语言处理的发展具有重要作用,可以满足其对语言句子语义知识的要求,在信息检索、机器问答系统、信息提取、机器翻译、文本分类、自动文摘等方面得到了广泛的应用。鉴于以上介绍的语料库和知识库在当今研究中的重要作用,对于语料库和知识库发展现状的研究总结,可以帮助人们更好地了解语料库和知识库的现今已取得发展成果和尚未解决的问题,可以为人们对语料库知识库的进一步研究和应用提供一定的指导作用。1国内发展现状

6、3.1语料库的发展与现状自1979年中国开始建立机器可读的语料库以来,国内语料库发展迅速,取得了相当一部分的成就。(1)早期语料库早期在中国建立的机器可读语料库主要包括:1979年武汉大学建立的汉语现代文学作品语料库(527万字)、1983年北京航天航空大学建立的现代汉语语料库(2000万字)、1983年北京师范大学建立的中学语文教材语料库(106万8千字)以及1983年北京语言学院建立的现代汉语词频统计语料库(182万字)。9期中论文早期形成的这些语料库,基本都是手工方式建立的,成本高、效率低。另外,在早期建立语料库时,只形成了初步的国家语料

7、库的建立标准,在语料库建立的统一规范方面问题比较突出。(1)国家级大型汉语语料库在1991年,为了推进汉语的词法、句法、语义和语用的研究,中国国家语言文字工作委员会开始建立计划规模达7000万汉字的国家级大型汉语语料库。虽然该语料库当时在汉语语料库系统开发技术上具有国际领先水平,而且在语料的可靠和标注的准确方面等享有权威性,但是该语料库依靠纯手工建立,在选材方面也受到了一定的限制。目前,该语料库已经具有2000万字的核心语料,经过人们的加工处理,其正在完成从生语料库到熟语料库的过度。(2)大规模真实文本语料库随着技术的进一步发展,大规模真实文本

8、语料库逐渐被建立起来。研究大规模真实文本语料库的单位包括北京大学计算语言学研究所、清华大学、山西大学、哈尔滨工业大学、北京语言文化大学、东北大学、中科

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。