人工智能时代语料库短语学考察

人工智能时代语料库短语学考察

ID:43756450

大小:104.23 KB

页数:14页

时间:2019-10-13

人工智能时代语料库短语学考察_第1页
人工智能时代语料库短语学考察_第2页
人工智能时代语料库短语学考察_第3页
人工智能时代语料库短语学考察_第4页
人工智能时代语料库短语学考察_第5页
资源描述:

《人工智能时代语料库短语学考察》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、人工智能时代语料库短语学考察宋丽珏华东政法大学外语学院摘要:语料库短语学是以单语或双语中短语意义单位为基元,基于语料库研究范式进行语言学的相关研究。在人工智能吋代,语料库也从机读文本小规模集合发展为语言资源类的大数据集合,语料库短语学的观察对象更为丰富,挖掘更有深度。从语料库短语学的时代走向、逻辑走向及实践走向来看,语料库短语学更符合时代要求,研究范式已经突破语言学本身,较为广泛地与信息科学理论相结合。关键词:人工智能;语料库;短语学;自然语言处理;作者简介:宋丽珏(1982—),女,讲师,文学博

2、士,从事语料库语言学及翻译研究。收稿日期:2017-08-04基金:上海市社会科学规划项目“语料库驱动下的汉英法律单位研究”(2016JG009-EYY221)Received:2017-08-04单词一直是语言学理论中最普遍的意义单位。但随着信息技术的不断发展,意义承载单位的边界不断扩展,语言学家Sinclair在20世纪60年代就提岀文本中承载意义最重要的单位是词语搭配,而非单词。经过近五十年的发展演变,短语学被确立为语言学的一个专门学科领域,并被应用于语言习得、教学、自然语言处理等领域山。尤

3、其在人工智能技术(如自然语言处理、机器翻译)的辅助下,短语学发展已经引起了语言学、翻译学、信息科学等交叉学科的共同关注,其重要性逐渐凸显。但学界对短语学的研究单位一直存在争议,这使得其发展速度、深度和广度受限。基于此,厘清短语学的概念内涵和外延是开展进一步研究的基础。一、短语学发展的时代转向1.传统语言学理论中的短语学本文所指短语学是基于词项共现频率,以计算机技术和定量分析为重要支撑的语料库(驱动)短语学,其主要研究对象分为以下两种类型:其一,具有固定或半固定形式的多词结构,如strongtea,

4、afel1ingof,wantto等等;其二,语法化短语(非语法关系),其特定词项常以特定语法结构出现(如动词hem—般用于被动态)。这里述需注意非连续式多词结构即词项成分之间存在一定距离(也称为n-gram)的情况。在不同的语言学派中,短语学的地位也存在很大差异。例如,生成语言学派对短语学关注不多,直至20世纪末,短语学才被重视起来。根据Geries的观点,短语学颠覆了转换生成学派以词为基元的分析生成机制,把单位扩大到模块化组织,这与自然语言处理中“算式语法及词法"(AlgorithmicGra

5、mmarandaLexicon)的核心概念非常相近⑵。而这种研究的发展对认知语言学尤其是构式语法以及语料库语言学的影响更大。同时,认知语言学构式语法对短语的认识更接近经典短语学。Umgacker就曾指出,多词结构是母语使用者天然的、勿需集屮注意力就能使用的语言单位。这样的符号单位(多词结构)也是型式与意义的组合,符号单位越稳固地进入语言使用者的语言系统,越被更广泛地使用,反之亦然。换句话说,母语者是机械地整体调动多词结构,而非分析生成;而短语学的发展则真正与语料库语言学的发展休戚相关。毫无疑问,语

6、料库是观察短语共现率和复现率的最佳载体。2.多词单位的语料库分析目前,语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,记忆具有上述功能的语料库在语言教学、定量分析、词汇研究、词语搭配研究、词典编撰、语法研究、语言文化研究、法律语言研究、作品风格分析、自然语言理解和机器翻译等领域中的应用。语料库语言学是自然语言计算机处理的一个重要内容[3]605。由于强调的重心不同,不同的学者倾向用不同表达式来指称多词结构(短语),如Lewis选用"lexicalchunk

7、s"(词汇组块),Nattinger选用"Lexicalphrases”(词汇短语),Cowie选用uready-madecomplexunits”(预制复合单位),Pawley和Syndey则选用"lexicalizedsentencestems”(词汇化句干),除此之外还有"chunk”(语块)、"semi-fixedpatterns”(半固定式短语)、"speechfonnuleitc”(言语程式)等等。语料库语言学中的短语单位研究一般采用语料库驱动的研究方法,采用概念界定一建库一工作方法确

8、认一多词结构提取一从语言学层面分析(语法层面、语义层面、语用层面)一功能聚类(概念功能、谋篇功能、人际功能)。随着自然语言处理技术的不断成熟,语料库驱动的短语单位研究已经突破了单纯的语言研究领域。在CNKI中以语料库及短语学作为关键词检索,调整阈值为6后进行共现分析,结论如图1所示:机器翻译自然i处理词语料库语.词块图中的圆圈大小代表语料数量。从中不难看出,语料库短语学研究目前活跃的领域已经扩展至自然语言处理、机器翻译及中文信息处理范畴,这既是对经典短语学的延伸,也是对语料库语言研

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。