面向语言教学研究的

面向语言教学研究的

ID:46687778

大小:96.00 KB

页数:8页

时间:2019-11-26

面向语言教学研究的_第1页
面向语言教学研究的_第2页
面向语言教学研究的_第3页
面向语言教学研究的_第4页
面向语言教学研究的_第5页
资源描述:

《面向语言教学研究的》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、面向语言教学研究的汉语语料检索系统CCRL及其应用本文得到国家1‘1然科学基金(69882001,60141001)>国家863计划(2001AA114111)和教育部科学技宋柔*樊太志*岳炳词术研究重点项目(00128)的资助*北京语言文化大学**北京工业大学songrou@blcu.edu.cnbingciyue@263.net摘要为了满足汉语教学和研究人员收集语言材料的需要,我们开发了一种高效率的汉语语料检索系统CCRLo本文介绍了它的特点,并例示了它的应用。关键词文木检索,语料库,语言教学CCRL—ChineseCorpusRetrievalSystemforLangu

2、ageTeachingandResearchandItsApplicationSongRou*FanTaizhi*YueBingci***BeijingLanguageandCultureUniversity**BeijingPolytechnicUniversityAbstractCCRLisaChinesecorpusretrievalsystemwithhighefficiency・ItisdevelopedbyusinordertomaketheChineselanguageteachersandresearcherscollectlanguagematerialcon

3、veniently.Thepaperintroducesitsfeaturesandillustratesitsapplications.KeywordTextRetrieval,Corpus,LanguageTeaching1.背景语言教学和语言学的研究需要语言事实作为背景和依据。过去,主要通过研究者川卡片人聚摘录语言材料,这种方法效率太低,研究成果受到数据规模的限制。近十儿年出现了大量的电子文档,可以组成大规模的电子语料库,并出现了相当成熟的文本信息检索技术。这i技术可用于电子文档小的语言事实的检索。比起人工收集语言事实,这种方法的好处是:(1)效率高。可以在极短的时间内,

4、用关键词语匹配的办法,在巨大规模电了语料库中找到相关文本的文章、段落、句子。(2)检索结果可以编辑、复制、打印。(3)查询表达式可以是关键词语同逻辑符号组合成的复杂的关系式。但这种方法的肓接应用目标是信息检索。信息检索关心的是信息的意义,不关心信息的语言表述形式。比如,当用户要检索有关“计算机”的文章时,应当把冇关“电脑”的文章也检索出来;用户要检索“中国的大学”时,系统检索的是'仲国”和“大学”,“的”字则被滤掉。相反,面向语言学研究的检索特别重视语言形式,它要求:(1)查询结果按照语言学研究的要求对语境排序,以便整理、提炼规律。(2)检索表达式有强大的表达能力,能表示各种各

5、样的语言形式约束条件,能对关键词语的语境进行限定。(3)使用语言学词类的概念,要求能按词类检索。(4)其他用于语言学硏究的辅助功能,比如字频、词频统计,字词的二元关系、三元关系统计等等。这些功能是各种文本信息检索工具所不具备的。近十年来,语料库技术迅速发展,可以对人规模语料库进行加工,包括分词、标注词类、甚至归并短语,使生语料库变成熟语料库。在这种加工的基础上利用文木信息检索技术进行面向语言学研究的检索,比基于生语料库的检索效果耍好,特别是能进行词类关系的检索。冃前,国内外由许多学者在做这类语料库标注的工作。但是,这里存在两个问题:(1)语料库白动加工技术尚不够成熟。大规模真实

6、文本分词技术的精度可达98%以上,但仍有一定量的错误。词类标注的梢度只是90%左右,短语归并的梢度则还要低得多。这种精度水平不能满足语言学研究的盂要,于是盂要手工的后加工。而这一后加工所需的时间和人力是极其巨人的,使得熟语料库价格极为昂贵,且规模不可能太大,难以满足大规模语言学研究的需要。(2)语言学界对于汉语词类标记集尚无统一意见,加工语料库所用的词类标记集不对能适合于所有语言知识检索者的需要。即使检索者希望使用的词类标记集同语料库加工所用的词类标记集完全相同,对于一段具体的上下文中的一个具体的词到底应归入哪一类,仍会有不同意见。针对语言学研究的需求和冃前各类相关系统存在的问

7、题,我们提出了如下的解决方案:(1)由于熟语料库加工代价太高,而且对于熟语料库的标注体系、标注原则尚无统一意见,我们直接采用未经人加工的生语料库。(2)对于生语料库,我们提供字串检索功能。当需要检索词语吋,我们把词语当作字串來检索。这样做会带來某些谋报,但一般來说不会造成漏报。由人在检索结果中去掉无关的,保留有用的,负担并不十分重。(3)为了减少字串检索造成的误报,我们为检索表达式设计了比较强的表达功能,包括多项联合、多项选择、排斥、定常间隔、不定长间隔等。从而能冇效地表达对检索结果的限制条

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。