资源描述:
《基于语法功能匹配的汉语句法分析算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、ComputerEngineeringandApplications计算机工程与应用2008,44(16)151基于语法功能匹配的汉语句法分析算法卢俊之,陈小荷,王东波,陈锋LUJun-zhi,CHENXiao-he,WANGDong-bo,CHENFeng南京师范大学文学院,南京210097SchoolofChineseLanguageandLiterature,NanjingNormalUniversity,Nanjing210097,ChinaE-mail:lujunzhi@gmail.comLUJun-zhi,CHENXiao-he,
2、WANGDong-bo,etal.Chineseparsingalgorithmbasedongrammarfunctionmatch.ComputerEngineeringandApplications,2008,44(16):151-153.Abstract:BasedontheprimarymethodofGrammarFunctionMatchasthesyntacticanalysis,thispaperrealizesakindofparsingalgorithm,whichviewstheTCT973asprincipalres
3、ourcetosurveythegrammaticalfunction.Thisalgorithmnotonlyefficientlyreducesthefakeambiguities,butalsohasafavorablyanalyzedefficiency,whichanalyzesresultsincludingabundantandaccurategrammaticalinformation.Theexperimentindicatesthattherateofphraseprecisionandrecallreaches75.17
4、%,73.69%and65.06%,56.55%respectivelyinclosetestandopentest.Keywords:syntacticparsing;GrammarFunctionMatch;Chinesetreebank;Chineseparser摘要:以语法功能匹配作为句法分析的基本方法,以100万词清华973树库作为语法功能调查的主要资源,实现了一种基于语法功能匹配的句法分析算法。该算法能有效减少伪歧义,具有良好的分析效率,其分析结果包含了丰富而准确的语法信息。实验表明,短语正确率与召回率在封闭测试和开放测试中分别达
5、到75.17%、73.69%和65.06%、56.55%。关键词:句法分析;语法功能匹配;汉语树库;汉语分析器DOI:10.3778/j.issn.1002-8331.2008.16.046文章编号:1002-8331(2008)16-0151-03文献标识码:A中图分类号:TP3911引言本方法,以100万词清华973树库(TsinghuaChineseTreebank,句法分析是中文信息处理领域一个重要的基础性课题,同以下简称TCT973)作为语法功能调查的主要资源,实现了一时也是一个公认的难题。究其原因,核心问题是信息不足——种基于GF
6、M的句法分析算法。该算法能有效减少伪歧义,具有由于汉语缺乏形态变化,现有的词类标记(如n、v)和短语标记良好的分析效率,其分析结果包含了丰富而准确的语法信息。(如NP、VP)并不能清晰地反映其语法功能(如做主语、做谓实验表明,短语正确率与召回率在封闭测试和开放测试中分别语、做定语、做状语),因此在计算机看来充满歧义,难以支持自达到75.17%、73.69%和65.06%、56.55%。动句法分析。全文共分3部分,首先介绍了GFM句法分析的基本思想,陈小荷[1]指出:(1)每个词类到底有多少种语法功能不明其次介绍了一种基于GFM的句法分析算法,
7、最后介绍了实验确;(2)属于同一词类的词,其语法功能可能差异很大;(3)不同方法、结果和分析。词类的词,其语法功能也许反而相似;(4)一些词的语法功能没有得到充分描写;(5)缺乏词的各种语法功能的定量描写。他提2GFM基本思想出了彻底地按照词的语法功能来划分汉语词类的设想,从8种GFM句法分析的基本思想是:把词和短语的语法功能调句法结构、13种句法成分中推导出词类。查清楚并存入机读词典,这相当于给汉语的词和短语加上了形徐艳华[2]实现了该设想,完成了面向中文信息处理的词类态标记。于是,句法分析的过程基本上就是一个语法功能匹配体系重构。她手工考
8、察了3514个常用词的语法功能,构建了的过程。比如:<地名>有关部门接到了<人名>的投诉语法功能信息库,并抽取11206个v+v序列和10081个v+n信。理想的分