从大规模语料中提取词表的几个问题

从大规模语料中提取词表的几个问题

ID:1528167

大小:139.50 KB

页数:29页

时间:2017-11-12

从大规模语料中提取词表的几个问题_第1页
从大规模语料中提取词表的几个问题_第2页
从大规模语料中提取词表的几个问题_第3页
从大规模语料中提取词表的几个问题_第4页
从大规模语料中提取词表的几个问题_第5页
资源描述:

《从大规模语料中提取词表的几个问题》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、从大规模语料中提取词表的 几个问题厦门大学苏新春suxch@xmu.edu.cn第四届全国应用语言学研讨会(2005-12-16,成都)语言库语言学的思想正在日益影响着语言研究者的认识和行为。或是利用现有的语料库,或是自己动手制作的小型、专题性的语料库,语言研究愈来愈离不开语料库的开发、建设与利用。大规模语料的利用正在成为我国语言研究者日益认同的一项必做的基础工作。但里面存在着许多理论和实践的问题需要我们去解决。第四届全国应用语言学研讨会(2005-12-16,成都)语料性质词典语料库——熟语料真实文本语料——生语料“通用语料库”——中加工的语料准确认识和细致分析不同的语料或语料库,是做到正确

2、、有效利用语料库的前提。第四届全国应用语言学研讨会(2005-12-16,成都)“词”单位的研究“词单位”的研究是词汇研究的一项基础工作。词的大小,词的切分,直接影响到“词单位”的存在。词典语料库的词表——成熟、稳定的词语——研究重心是有与无;真实语料的词表——语言与言语的混成物——研究重心是是与否第四届全国应用语言学研讨会(2005-12-16,成都)词表的提取“词单位”的集成,就是词表的形成。词表是某领域词汇全貌的反映。从大规模语料中提取词表,就是完成从最原始的“矿料”中提取成品的任务,是一项要经历多个环节的复杂工作。第四届全国应用语言学研讨会(2005-12-16,成都)“核心语料库”的

3、特点本文所利用的语料是国家语委“通用语料库”中的核心语料库。“核心语料库的字数为2000万字,由7000万语料中筛选出来。由于《选材原则》是经几次专家论证确定的,核心语料库的语料筛选工作,在语料分科、年限划分、比例、字数等方面基本上仍依照《选材原则》进行。”(《说明》)第四届全国应用语言学研讨会(2005-12-16,成都)核心语料库的特点:真实语料:包括语言词与言语词;加工语料:分词与词性标注;机器处理与人工干预共同作用的产物:第四届全国应用语言学研讨会(2005-12-16,成都)在提取词表的工作中,碰到了许多理论与实践上的问题,或是新启之,或是补校之,或是刊误之,都需要我们对此进行深入的

4、思考,并作出妥善的解决。第四届全国应用语言学研讨会(2005-12-16,成都)思考之一:语料库的加工精度问题核心语料库的加工精度主要指:1.“词”切分是否准确2.词性标注是否准确加工精度是如何影响着词汇的数量与分布;分词错误的普遍性与可接受程度;第四届全国应用语言学研讨会(2005-12-16,成都)冒出了不存在的“错词”用压电材料做小平面镜阵来代替一块反射镜,每块小平面镜可以自动调节,或者把主镜设计得可以快速改变其局部的形状,以在最后的焦平面上获得消除大气湍动和光学像差影响的天体像。ID8092/JN10000402/《实测天体物理学》第四届全国应用语言学研讨会(2005-12-16,成都

5、)“做小”用/v压/v电/n材料/n做小/v平面/n镜/n阵/n来/vd代替/v一块/d反射镜/n,/w每/r块/q小/a平面/n镜/n可以/vu自动/a调节/v,/w或者/c把/p主/n镜/n设计/v得/u可以/vu快速/a改变/v其/r局部/n的/u形状/n,/w以/p在/p最后/n的/u焦/a平面/n上/nd获得/v消除/v大气/n湍/v动/v和/c光学/n像/n差/a影响/v的/u天体/n像/n。/w第四届全国应用语言学研讨会(2005-12-16,成都)使已有的“词”消失用/v压/v电/n材料/n做小/v平面/n镜/n阵/n来/vd代替/v一块/d反射镜/n,/w每/r块/q小/a平

6、面/n镜/n可以/vu自动/a调节/v,/w或者/c把/p主/n镜/n设计/v得/u可以/vu快速/a改变/v其/r局部/n的/u形状/n,/w以/p在/p最后/n的/u焦/a平面/n上/nd获得/v消除/v大气/n湍/v动/v和/c光学/n像/n差/a影响/v的/u天体/n像/n。/w第四届全国应用语言学研讨会(2005-12-16,成都)“错词”的可容度:以“国人”为例:过去/nt几/m年中/nt两/m国人/n民间/n频繁/a的/u交往/v。/w及/c古/a梵文/n,/w古/a波斯/ns文/n及/c突厥/ns回鹘/n诸/r国/n文字/n无算/v;/w我/r国人/n始/v稍稍/d知之/v。第

7、四届全国应用语言学研讨会(2005-12-16,成都)一/m国/n大事/n,/w无/v一/m不/d坏/a在/p"/w争功/v妒嫉/v"/w和/c"/w蜚语/n中伤/v"/w之上/nd,/w难道/d我/r国人/n真/d有/v此/r特性/n真/d改/v不/d掉/v此种/r特性/n吗/u!/w船/n上/nd有/v英国人/n,/w也/d有/v经营/v商业/n的/u别/r国人/n,/w你/r可/vu去/v问

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。