基于双语模型的汉语句法分析知识自动获取

基于双语模型的汉语句法分析知识自动获取

ID:5389214

大小:259.00 KB

页数:7页

时间:2017-12-08

基于双语模型的汉语句法分析知识自动获取_第1页
基于双语模型的汉语句法分析知识自动获取_第2页
基于双语模型的汉语句法分析知识自动获取_第3页
基于双语模型的汉语句法分析知识自动获取_第4页
基于双语模型的汉语句法分析知识自动获取_第5页
资源描述:

《基于双语模型的汉语句法分析知识自动获取》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第26卷 第1期计  算  机  学  报Vol.26No.12003年1月CHINESEJOURNALOFCOMPUTERSJan.2003基于双语模型的汉语句法分析知识自动获取吕雅娟 李 生 赵铁军(哈尔滨工业大学计算机科学与技术学院 哈尔滨150001)摘 要 提出了一种汉语句法分析知识自动获取的新方法.该方法以双语语料库为基础,在双语语言模型的指导下,利用英语句法分析和双语词汇对齐得到汉语句子分析结果.根据得到的句子分析可以提取汉语组块边界信息和简单的句法分析规则.实验结果表明,自动获取的组块分析边界和已有的汉语句法分析体系取得了很好的一致性

2、,证明了该方法的可行性和有效性.文中提出的方法充分利用现有的英语句法研究成果,为汉语句法分析研究提出了一个崭新的思路.关键词 句法分析;知识获取;双语语言模型;双语语料库中图法分类号TP391AutomaticallyAcquiringChineseParsingKnowledgeBasedonaBilingualLanguageModelLUYa2JuanLIShengZHAOTie2Jun(SchoolofComputerScience&Technology,HarbinInstituteofTechnology,Harbin150001)Abs

3、tractKnowledgeacquisitionisabottleneckforrealapplicationofChineseparsing.ThispaperpresentsanewmethodtoacquireChineseparsingknowledgefromsentencealignedEnglish2Chinesebilingualcorpora.UsingEnglishparsingandwordalignmentresults,thismethodfirstimplementsbilingualstructurealignment

4、basedonabilinguallanguagemodel-InversionTransductionGrammars.Then,Chinesebracketingstructuresareextractedautomatically.Themethodcreatesstructurebrack2etingChinesecorporabytakingfulladvantageofEnglishparsingandbilingualcorpora.ThecreatedcorporaareveryusefulforfurtherChinesecorpu

5、sannotationandparsingknowledgeacquisition.Pre2liminaryexperimentsshowthattheacquiredknowledgeaccordwellwithmanuallymadeknowledge.Thismethodisparticularlyusefultoacquireparsingknowledgeforalanguagelackingofstudiedfromasecondlanguagethatwellstudied.AlthoughthispaperisrelatedtoChi

6、neseandEnglish,theproposedmethodisalsoapplicabletootherlanguagepairs.Keywordsparsing;knowledgeacquisition;bilinguallanguagemodel;bilingualcorpus要的意义.语料库语言学的兴起和不断发展,为句法1 引 言分析知识的自动获取和语法推导研究提供了很好的基础.在英语方面,许多大规模句法标注树库的建句法分析是自然语言处理研究的重点和难点.立,促进了英语句法自动推导和标注算法的提出和句法分析问题的解决对于机器翻译、自然语言

7、理解、完善.如英语树库PennTreeBank的建立,为基于统信息抽取和自动文摘等自然语言研究都有着极其重计的句法分析模型的研究提供了统一的训练和测试收稿日期:2002201221;修改稿收到日期:2002206217.本课题得到国家“八六三”高技术研究发展计划项目(2001AA114101)和微软2哈尔滨工业大学机器翻译联合实验室合作项目资助.吕雅娟,女,1972年生,博士研究生,研究方向为计算语言学、机器翻译.E2mail:lyj@mtlab.hit.edu.cn.李 生,男,1943年生,教授,博士生导师,研究方向为计算语言学、机器翻译.赵铁军

8、,男,1962年生,教授,博士生导师,研究方向为计算语言学、机器翻译.©1995-2004TsinghuaT

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。