基于特征自动选择方法的汉语隐喻计算

基于特征自动选择方法的汉语隐喻计算

ID:33326969

大小:314.00 KB

页数:13页

时间:2019-02-24

基于特征自动选择方法的汉语隐喻计算_第1页
基于特征自动选择方法的汉语隐喻计算_第2页
基于特征自动选择方法的汉语隐喻计算_第3页
基于特征自动选择方法的汉语隐喻计算_第4页
基于特征自动选择方法的汉语隐喻计算_第5页
资源描述:

《基于特征自动选择方法的汉语隐喻计算》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于特征自动选择方法的汉语隐喻计算收稿日期:2015-11-17录用日期:2016-04-06基金项目:国家自然科学基金(61573294);国家科技支撑计划课题(2012BAH14F03);教育部博士点基金博导类项目(20)*通信作者:dozero@xmu.edu.cn曾华琳,周昌乐*,陈毅东,史晓东(厦门大学信息科学与技术学院,福建省仿脑智能系统重点实验室,福建厦门361005)摘要:汉语隐喻计算是中文信息处理中的棘手难题之一。已有的隐喻识别研究多以人工方式分析和抽取隐喻特征,存在着主观性强,难以扩充的缺点,并且对于专业背景知识要求比较严格。本文基于大规模语料库的机器学习

2、,利用最大熵分类模型,提出了一种最优特征模板自动抽取的隐喻识别算法,讨论了三种不同层次的特征模板,既包含了经典的简单特征,又将跨多个词的远距离上下文信息,以及描述语义信息的词语相似性引入特征模板进行考察。实验结果证明,该算法提高了隐喻识别准确率,是一种对于隐喻计算行之有效的机器学习方法。关键词:汉语隐喻计算;隐喻识别;机器学习;自动特征选择中图分类号:TP391.1文献标识码:A隐喻,广泛的存在于人类的语言生活中。从先古哲学家亚里士多德的修辞学,到现代莱可夫的认知语言学,无论是在中文语言学,抑或是在西方语言学研究中,隐喻一直是处于前沿探索阶段的项目[1-7]。在语言学与计算机

3、科学的交叉学科--中文信息处理中,隐喻则属于语义级别的范畴,至今仍然是亟待解决的棘手难题之一。汉语隐喻的研究,主要集中在两大方面:隐喻识别和隐喻理解,统称为隐喻计算。隐喻识别旨在从上下文环境中判断隐喻现象的存在,而隐喻理解则需要给出对于隐喻意义的推理。从方法论而言,分别有规则、统计和逻辑的方法。长期以来,在隐喻计算研究中,规则和逻辑的方法占据了主流地位。已有的研究中[8-15],无论是纯规则,或者是规则和统计相结合的方法,规则都是由人工整理和编写的,建立在人工收集和定义描述的基础上。而通过人工进行收集和编写的规则,规模有限,主观性强,不易于扩充,这是规则方法(rule-bas

4、ed)的通病,也是阻碍隐喻计算实用化的症结所在。近年来,机器学习方法[17,21]运用到计算语言学的各个领域,都获得了很好的效果,特别是在大语料环境下的机器学习方法的成功使用。隐喻计算中也曾有机器学习方法的尝试,王治敏[10,14]利用最大熵模型研究了名词性汉语隐喻短语的识别,贾玉祥[13,16]则提出了基于实例的隐喻理解与生成,而在他们的研究中,特征的选取仍然是人工进行的,对每个单独的隐喻候选词,每个特殊隐喻现象的特征都进行详细考察,这要求特征的选取者对于隐喻计算模型有着深刻的认识,终究逃脱不了人工方式所带来的困境,无法将隐喻计算做到一般化的过程。为了避免人工方法所带来的缺

5、陷,消除主观性及隐喻特征选择的不一致性,本文提出了一种基于大规模语料库的汉语隐喻的特征自动抽取方法,将机器学习中的特征选择思想引入到汉语隐喻计算中,分析汉语隐喻在词、句法结构以及语义层面上的不同特点,给出3种不同类型的特征模板描述,并利用最大熵模型构建汉语隐喻特征模板库,以无监督学习方式处理汉语隐喻计算。1汉语隐喻计算的机器学习分类模型分类是机器学习算法中的典型任务,基本思想是训练分类函数,然后将待分类对象以特征序列表示进行输入,通过计算分类函数得到的数值给出分类结果。隐喻计算属于典型的机器学习分类问题。本文提出一种适用于汉语隐喻计算的机器学习分类模型,用于构建隐喻计算的两个

6、基本任务。1.1隐喻计算中的分类隐喻计算的不同阶段都可以建立分类模型,其理论依据在于隐喻的本质--“同从异出”,即在识别出隐喻的存在,并确定本体和喻体之后,在概念系统中,把比较具体的喻体(相当于源域)的知识,与比较抽象的本体(相当于目标域)的知识进行比较,通过动态的互动过程描述,用喻体(源域)知识来“认识”本体(目标域)对象。在这个过程中,作为本体和喻体,都有许多不同的意义描述。隐喻计算分为两个阶段进行。第一阶段,隐喻识别。从表面上看,喻体的概念范畴与本体差别较大,引起强烈的冲突感,这所谓“异出”。正确感知这种冲突感,实现隐喻识别,这是个二值分类问题。第二个阶段,隐喻理解。本

7、体的理解,是一个依赖于喻体特征的有选择性的部分映射,这种映射过程并不是随意的,而是根据其上下文环境的限制聚焦后而得的映射结果。于是,隐喻识别和理解可以看作是在上下文环境中,本体受喻体概念聚焦后对于意义再次分类而确定相似点的过程,一旦能够正确地选定相似点,隐喻理解就完成了,这所谓找到了“同从”。隐喻的理解,正是一个从“异出”聚焦到“同从”的过程。最后,隐喻计算还有一个任务,即隐喻生成,它完成了从“同从”本质选择“异出”表现的过程。综上所述,隐喻识别,属于二值分类问题,选取隐喻候选词上下文的特征,根据有效分

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。