基于大规模语料库的句法模式匹配研究

基于大规模语料库的句法模式匹配研究

ID:9135499

大小:54.11 KB

页数:9页

时间:2018-04-18

基于大规模语料库的句法模式匹配研究_第1页
基于大规模语料库的句法模式匹配研究_第2页
基于大规模语料库的句法模式匹配研究_第3页
基于大规模语料库的句法模式匹配研究_第4页
基于大规模语料库的句法模式匹配研究_第5页
资源描述:

《基于大规模语料库的句法模式匹配研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、基于大规模语料库的句法模式匹配研究通过大量记录的正确处理实例的分析过程和结果,在句法分析时,搜寻近似实例或片段,匹配相似语言结构和分析过程,这样的句法分析体现了“语言分析依赖经验”的思想。基于这样的思想,本文提出了一种基于模式匹配的句法分析的方法,即从大规模标注语料树库中抽取出蕴含的句法模式,构建模式、子模式及其规约库,句法分析的过程转化为模式匹配和局部模式转换的过程。实验表明句法分析的各项指标都比较理想,尤其是处理效率很高,平均句耗时0.46秒(CPU为Intel双核2.8G,内存为1G)。,供学习和研宄使用,己的信息,如

2、果需耍分享,请保留本段说明。关键词:计算机应用;中文信息处理;句法分析;模式匹配;句法树库TP391A基于语料库的统计概率模型是句法分析的重要研究方向,代表性的有概率型上下文无关模型(PCFG)基于历史的分析模型、分层渐近式句法分析模型、头驱动的统计句法分析模型等。统计方法实质是一个评价句法分析结果的概率评价函数,即对于一个输入句子S和它的句法分析结果t,给出一个条件概率P(t

3、s),并由此找出该句法分析模型认为概率最大的分析结果,即找到argmaxP(t

4、s),句法分析问题的样本空间为SXT,其中S为所有句子的集合,T为所

5、有句法分析结果的集合。统计方法的主要问题是数据稀疏问题、忽略上下文结构信息、需要大量计算等。基于语料库的另一种方法是面向数据的分析(DataOrientedParsing,DOP)技术,它从句法标注语料库中抽取所有任意大小规模和复杂结构的片段,通过对片段的组合操作来实现句法分析,然后考虑所有结果的概率大小,来选择最优结果。DOP模型较好地利用了语料库中蕴含的知识,体现了“语言分析依赖经验”的思想,缺点还是没有充分利用上下文信息(片段问相互独立),注重片段而忽略了整体,另外片段组合与概率计算的工作量也很大。我们的基于模式匹配的

6、句法分析与DOP类似,都是建立在“语言分析依赖经验”的思想基础上,但在算法实现上不同,借鉴了文法转换中的部分理论和技术,并在句法分析中注重整体匹配、局部转换2基于模式匹配的句法分析2.1基本思想在计算机上输入汉语时,单个的汉字输入既慢又易出错,词组的输入则又快又准,究其原因是词组的重码率低,减少了歧义发生率,基于模式匹配的句法分析与此类似,模式即类似于词组,当然分析处理要复杂得多。在从句法标注语料库中获取Y大景句法模式的基础上,不再如传统的概率模型,计算各种组合的最大概率,而是大处着眼,快速识别处理对象中包含的句法模式或隐含

7、的近似句法模式。模式匹配的句法分析方法与传统统计句法分析方法在处理方式上的不同,前者强调整体优先,在大块匹配的基础上,对局部没有能直接匹配上的部分做一定的转换处理,而后者是基于局部概率的计算,由点到线;前者是基于短语的(句法短语),后者是基于词的。基于模式匹配的句法分析是对人的处理方式的模仿(人做句法分析可以左看右看,把握整体,注重平衡,因而是二维的),可充分发挥大规模语料库蕴含的处理各类句法现象的能力。2.2句法模式的定义定义1:对于一个句法树,从左向右画一条只穿过树中节点的线,这条线上的节点如果满足以下约束条件,则其节点

8、序列即为一个句法模式。这条线上的节点是树上全部节点D的一个真子集C,并且(1)C中没有一个节点处在由C中其他节点开始的任何一条后继节点路径上;(2)D中没存其他节点可以加入c而不违背规则(1)。如图1所示,虚线上的节点序列是句法树S(dj(np(n(奥里诺科河))vp(pp(p(在)np(r(哪儿))))))中的几种模式,其中⑻为非法模式,因为该序列中节点P是节点VP的子孙,不满足模式定义约束。按定义,该句法树中共包含25个模式。模式数量按几何级数增长,1个包含20个词的句子,其模式数约为500多万,故构建数据支撑平台是一个

9、海量数据处理过程。一个模式的规约是句法树中该模式与树根节点之间的部分,图1(C)中模式为(npp哪儿),对应的模式规约为S(dj(npvp(pp(pnp(r(哪儿)))))),如图2所示。从本质上讲,句法分析的过程是从叶子节点向根节点过渡的过程,而模式及丼规约正是对句法树库标注过程的动态记录,基于此的句法分析规约速度快,处理效率高。2.3模式的抽取从句法树库的每一个树及其派生的子树中,抽取所有的句法模式,并记录对应的规约。该算法应用于后台处理,是构建数据支撑平台的基础。抽取算法基于句法解析函数及其链表表示,在算法中,结构树在

10、内存中以中序优先的形式存储。模式抽取算算法结束后List中的内容即为所求的句法结构s中包含的所有模式序列。2.4模式匹配及其局部转换定义2:设模式P=ala2…ai…an,处理对象S=blb2…bi…bm,其中a、b为节点(即词或词性标记),若01=11,且a.i?=bi,ie[1,ni]

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。