资源描述:
《基于双语模型的汉语句法分析知识自动获取》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、第26卷 第1期计 算 机 学 报Vol.26No.12003年1月CHINESEJOURNALOFCOMPUTERSJan.2003基于双语模型的汉语句法分析知识自动获取吕雅娟 李 生 赵铁军(哈尔滨工业大学计算机科学与技术学院 哈尔滨150001)摘 要 提出了一种汉语句法分析知识自动获取的新方法.该方法以双语语料库为基础,在双语语言模型的指导下,利用英语句法分析和双语词汇对齐得到汉语句子分析结果.根据得到的句子分析可以提取汉语组块边界信息和简单的句法分析规则.实验结果表明,自动获取的组块分析边界和已有的汉语句法分析体系取得了很好的一致性
2、,证明了该方法的可行性和有效性.文中提出的方法充分利用现有的英语句法研究成果,为汉语句法分析研究提出了一个崭新的思路.关键词 句法分析;知识获取;双语语言模型;双语语料库中图法分类号TP391AutomaticallyAcquiringChineseParsingKnowledgeBasedonaBilingualLanguageModelLUYa2JuanLIShengZHAOTie2Jun(SchoolofComputerScience&Technology,HarbinInstituteofTechnology,Harbin150001)Abs
3、tractKnowledgeacquisitionisabottleneckforrealapplicationofChineseparsing.ThispaperpresentsanewmethodtoacquireChineseparsingknowledgefromsentencealignedEnglish2Chinesebilingualcorpora.UsingEnglishparsingandwordalignmentresults,thismethodfirstimplementsbilingualstructurealignment
4、basedonabilinguallanguagemodel-InversionTransductionGrammars.Then,Chinesebracketingstructuresareextractedautomatically.Themethodcreatesstructurebrack2etingChinesecorporabytakingfulladvantageofEnglishparsingandbilingualcorpora.ThecreatedcorporaareveryusefulforfurtherChinesecorpu
5、sannotationandparsingknowledgeacquisition.Pre2liminaryexperimentsshowthattheacquiredknowledgeaccordwellwithmanuallymadeknowledge.Thismethodisparticularlyusefultoacquireparsingknowledgeforalanguagelackingofstudiedfromasecondlanguagethatwellstudied.AlthoughthispaperisrelatedtoChi
6、neseandEnglish,theproposedmethodisalsoapplicabletootherlanguagepairs.Keywordsparsing;knowledgeacquisition;bilinguallanguagemodel;bilingualcorpus要的意义.语料库语言学的兴起和不断发展,为句法1 引 言分析知识的自动获取和语法推导研究提供了很好的基础.在英语方面,许多大规模句法标注树库的建句法分析是自然语言处理研究的重点和难点.立,促进了英语句法自动推导和标注算法的提出和句法分析问题的解决对于机器翻译、自然语言
7、理解、完善.如英语树库PennTreeBank的建立,为基于统信息抽取和自动文摘等自然语言研究都有着极其重计的句法分析模型的研究提供了统一的训练和测试收稿日期:2002201221;修改稿收到日期:2002206217.本课题得到国家“八六三”高技术研究发展计划项目(2001AA114101)和微软2哈尔滨工业大学机器翻译联合实验室合作项目资助.吕雅娟,女,1972年生,博士研究生,研究方向为计算语言学、机器翻译.E2mail:lyj@mtlab.hit.edu.cn.李 生,男,1943年生,教授,博士生导师,研究方向为计算语言学、机器翻译.赵铁军
8、,男,1962年生,教授,博士生导师,研究方向为计算语言学、机器翻译.©1995-2004TsinghuaT