基于启发式搜索与预标注的中文CCG句法分析-论文.pdf

基于启发式搜索与预标注的中文CCG句法分析-论文.pdf

ID:54923491

大小:739.99 KB

页数:5页

时间:2020-05-04

基于启发式搜索与预标注的中文CCG句法分析-论文.pdf_第1页
基于启发式搜索与预标注的中文CCG句法分析-论文.pdf_第2页
基于启发式搜索与预标注的中文CCG句法分析-论文.pdf_第3页
基于启发式搜索与预标注的中文CCG句法分析-论文.pdf_第4页
基于启发式搜索与预标注的中文CCG句法分析-论文.pdf_第5页
资源描述:

《基于启发式搜索与预标注的中文CCG句法分析-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第31卷第9期计算机应用与软件Vo1.31No.92014年9月ComputerApplicationsandSoftwareSep.2014基于启发式搜索与预标注的中文CCG句法分析周金龙邱锡鹏(复旦大学计算机科学技术学院上海201203)摘要针对中文组合范畴语法(CCG)分析困难的特点,研究如何将两种彼此相互独立的技术共同应用在中文CCG句法分析上。首先使用预标注算法,使用对数线性模型通过去除那些概率较低的词汇范畴来对句子的潜在分析空间进行剪枝。然后应用启发式搜索算法进一步加速分析过程。最后从时间效率和分析精度两个维度对所使用

2、的方法进行验证。实验表明,基于启发式搜索与预标注的句法分析算法可以显著地提高分析效率与分析精度。关键词中文句法分析组合范畴语法启发式搜索预标注中图分类号TP391文献标识码ADOI:10.3969/j.issn.1000—386x.2014.09.058CHINESECCGPARSINGBASEDoNASEARCHANDSUPERTAGGINGZhouJinlongQiuXipeng(SchoolofComputerScience,Fudan,Shanghai201203,China)AbstractChineseCCGisdif

3、ficulttoparse,inlightofthischaracter,inthepaperweinvestigatethewaytointegratetwoindependenttechniquesonChineseCCGparsing.Firstlythesupertaggingisused,andbyeliminatingwithlog—linearmodelthosewordscategorieswhosepossibilityislow,thelatentparsingspaceofsentencesispruned.

4、Secondly,Asearchisappliedtofurtheracceleratetheparsingprocedure.Atlasttheverificationsaredoneontheapproachusedfromthedimensionsofbothtimeeficiencyandparsingaccuracy.ExperimentsindicatethattheparsingalgorithmbasedonAsearchandsupertaggingcansignificantlyimprovetheeffici

5、encyandaccuracy.KeywordsChineseparsingCombinatorycategorialgrammar(CCG)AsearchSupertagging预标注时所使用的序列标注模型仅仅考虑了词汇范畴的局部词0引言汇与词性特征,而并没有语法约束,我们通过预标注所得到的词汇范畴序列可能无法导出任何合法的句法分析结果,因此我们对组合范畴语法(CCG)⋯进行高效的句法分析是当前自需要控制预标注方法进行词汇范畴剪枝的力度。实验表明,如然语言处理领域的一大难题。相较于一般的上下文无关语法,果能合理地进行参数设置,预

6、标注的方法可以在不损失精度的组合范畴语法的句法分析要困难得多。主要原因在于其产生的前提下(甚至能够提高精度)有效地提高句法分析的效率。另一方面,我们也会考虑如何从句法分析器本身提高分析非终结符和语法规则的数量要远远大于普通的上下文无关语的效率。一个可行的方案是改进原有句法分析器当中使用的法,从而使得其句法分析的复杂度大大提高。在典型的宾州树CKY算法。与进行近似处理的预标注算法不同的是,这里我们库语法系统当中,非终结符的数量通常少于100个。而通过对会采用精确算法——启发式搜索,即A搜索J。启发式搜索英文CCG树库所进行的统计,由

7、该语料库导出的文法有大约与预标注方法是彼此独立的,我们既可以在未经过预标注的原1600个非终结符,平均每个词汇对应有26个可能的非终结始范畴空间上用启发式搜索代替CKY算法进行句法分析,也可符;而在本文当中作为主要研究对象的中文CCG树库,也包以把启发式搜索用于预标注剪枝之后的序列上。我们的实验结含了近1200个非终结符,且平均每个中文词对应的非终结符高果显示,无论是在未剪枝的原始空间上,还是在剪枝后的局部空达40个。这样可观的非终结符数量使得潜在的句法分析搜索间上,启发式搜索都能显著地降低句法分析所需要遍历的搜索空间也变得十分庞

8、大,因此无法进行高效的句法分析。范围,加速分析过程。目前最为成功的提高CCG句法分析效率的方法是预标注本文的主要贡献为:(1)构建了针对中文组合范畴语法的算法(supertagging),即首先对每个词汇可能对应的词汇范畴生成式模型句法分析器;(2

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。