汉语句法知识的自动获取研究

汉语句法知识的自动获取研究

ID:46731982

大小:84.50 KB

页数:6页

时间:2019-11-27

汉语句法知识的自动获取研究_第1页
汉语句法知识的自动获取研究_第2页
汉语句法知识的自动获取研究_第3页
汉语句法知识的自动获取研究_第4页
汉语句法知识的自动获取研究_第5页
资源描述:

《汉语句法知识的自动获取研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、汉语句法知识的自动获取研究摘要:本文提出了一种行之有效的汉语旬法知识自动获取体系。以浅层句法分析作为预处理工具,并结合现有的概率分析器,可以从人规模真实文木中自动习得汉语概率型上下文无关规则和结构优先关系等有用的句法知识,从而形成一个具有自学习能力的汉语句法分析器。实验结果显示出其较好的分析性能和应用前景。关键词:句法分析,机器学习,知识获取一、引言句法分析是自然语言理解的基础。近几年来,随着语料库语言学的不断发展和标注语料库规模的不断扩大,许多研究人员开始尝试着直接利用语料库中的标注信息进行语法分析,

2、开创了一条进行口动句法分析的新路。在英语方面,典型的研究工作包括:1)折R.Bod的而向数据分析(DataOrientedParsing)技术([RB93],[RB92]),2)模拟退火(SimulatedAnnealing分析方法[SD91],3)DavidM.Magerman的概率型判定树方法([DM95],[DM94]),4).E.Brill的基于转换(Transformation-based)的处理[EB93]等。在汉语方面,我们也进行了一些类似的研究,提出了一个完全基于统计信息的汉语概率分析器

3、[ZQ97a]o它将完梏的句法分析问题分解为以下三个阶段:①成分边界预测,②括号匹配和分析树生成,③统计排歧。通过充分利用从树库中获取的各种统计信息,取得了较好自动分析效果。以上研究都强调了树脖在句法分析和知识获取方面的重要作用。在英语方面,由于己冇现有的包含数戶■万词规模的树库IMSM93]可以利用,因此可以方便地进行各种基丁•统计的句法分析算法的探索。而在汉语方面,目前还没有开发出一个较大规模的树库(我们所做的研究是在小规模的树库上进行的)。这就迫使我们在句法知识的自动获取方面寻找一条新的出路。事实

4、上,从树库中直接获取句法知识,反映了一种冇指导学习的思想,其代价是需要花费大量的人力物力构建大规模的树库。与此相反,无指导训练虽然町以直接在原始文本上进行学习,但其代价是训练算法的复杂度很高,往往需要花费大量的训练时间,并且得到的训练结果也不尽如人意。因此,一个合理的研究思路是在两者之间寻找一•个平衡点,即对知识获取问题进行细致的任务分解,建立不同层次的知识描述体系,通过对训练文本进行不同层次的预加工,把不同层次的语言知识逐步引入无指导训练过程中,形成一种“部分”指导训练机制,从而大大降低训练算法的复杂

5、度,同时又不至于在预加工阶段花费太大,达到一种最佳的整休训练效果。本文介绍了我们从这个思路出发所进行的一些研究工作,包括:1)提岀了一种描述能力介于线形词语/词类标记序列和完整的句法树Z间的浅层句法知识描述体系:组块分析体系,在此基础上可以方便地进行自动句法分析和知识获取研究(第2节),2)探索了不同句法知识的自动获取方法(第3节),主要包括汉语概率型上下文无关语法规则和结构优先关系,3)开发了一个口学习的汉语概率分析器(第4节)。二、组块分析体系给定一句经过止确切词和词性标注处理的汉语句子,我们的组块

6、分析体系试图对其中不同层次的成分边界信息给出较为详细的描述。它主要包活以下两部分内容:1)词界块WB(WordBoundaryBlock):描述了句了中每个词语所处的成分边界位置信息,2)成分组CG(ConstituentGroup):描述了句子具有如下分布特点的一些特殊成分域:I)区域屮的词界块只能与区域中的其他词界块发生句法作用,II)整个区域作为一个整体与句子中的其他成分发生句法作用。tJ前我们总结的成分组主要有以下儿种:a)并列结构和并列成分;b)固定搭配组合及内部结构;c)标点分融结构。由于组

7、块描述的简单性和灵活性,使我们可以方便地构造出各种快速冇效的识别工具,对组块边界信息进行口动预测。通过対这些工具的有效组合,我们形成了如下的组块口动识别机制:首先,利用特殊的结构特征和词语特征,构造有限状态自动机,顺序识别句子中的下列成分组:1)并列结构;2)固定搭配结构;3)标点分隔结构。在此过程中,应保证识别出的各个成分组不发生信息冲突现象,即各个成分组边界不应发生交叉。然后,利用己识別出的成分组边界信息,设置和应的词语块边界标记。顺序检索句子,可以得到一些待处理的词语块段(span),即成分组内部

8、区域和成分组之间的区域。最后,对这些待处理段,顺序调用词语块的成分边界自动预测工具,可以得到句子中其他词语块的成分边界标记[ZQ99]。这种自顶向下的识别流程,可以充分发挥两种识别工具各自的处理优势,减少许多无效的操作,大大提高了整体的识别效率。对包含5573个句子的汉语语料进行了组块白动识别实验。封闭测试结果为:界定预测正确率为95%,成分组边界平均正确率为93%。可以为句法知识口动获取工具提供较好的预处理数据。三、汉语句法知识的自动获取

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。