资源描述:
《基于最大熵方法的中英文基本名词短语识别》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第40卷第3期计算机研究与发展Vol140,No132003年3月JOURNALOFCOMPUTERRESEARCHANDDEVELOPMENTMar12003基于最大熵方法的中英文基本名词短语识别周雅倩 郭以昆 黄萱菁 吴立德(复旦大学计算机科学与工程系 上海 200433)(archzhou@yahoo1com)摘 要 使用了基于最大熵的方法识别中文基本名词短语1在开放语料ChineseTreeBank上,只使用词性标注,达到了平均87143%/88109%的查全率/准确率1由于,关于中文的基本名词短语识别的结果没有很好的可比性,
2、又使用相同的算法,尝试了英文的基本名词短语识别1在英文标准语料TREEBANKⅡ上,开放测试达到了93131%/93104%的查全率/准确率,极为接近国际最优水平1这既证明了此算法的行之有效,又表明该方法的语言无关性1关键词 最大熵;基本名词短语;自然语言处理中图法分类号 TP391ChineseandEnglishBaseNPRecognitionBasedonaMaximumEntropyModelZHOUYa2Qian,GUOYi2Kun,HUANGXuan2Jing,andWULi2De(DepartmentofCompute
3、rScienceandEngineering,FudanUniversity,Shanghai200433)AbstractAmaximumentropymodelinChineseBaseNPrecognitionisusedinthispaper1TheopentestonChineseTreeBank,thepubliccorpus,indicatestheaveragerecallandprecisionof87143%and88109%respectivelywithlimitedknowledge(textitselfan
4、ditsPOStag)1BecauseoftheincomparabilityofChineseBaseNPrecognitionresults,thesamealgorithmisappliedinEnglishBaseNPrecognition1ThetestonTREEBANKⅡshowsthattherecallandprecisionare93131%and93104%,whichareclosetothestateoftheart1Thisnotonlyprovestheavailabilityofthealgorithm
5、,butalsoindicatesitslanguageindepen2dence1Keywordsmaximumentropy;BaseNP;naturallanguageprocessing文本,更能反映文本的语义11 引 言在美国国家标准局召开的一年一度的文本检索会议(TREC)中,专门研究了自然语言理解技术在在自然语言处理领域,名词短语对机器翻译、文信息检索中的应用1权威的TREC会议的评测结果本检索、信息抽取和文本分类等应用领域有重要作表明,许多系统使用复合索引项(短语)可以显著提用1首先,短语具有更丰富的语义,而且它不能
6、简单高检索性能,所有系统的表现都超过作为基准的地由短语的成分词来表示,例如英文中由动词和介SMART系统1大多数系统运用了短语抽取技术,有词(小品词、副词)等组成的短语1其次,许多专有词些还加入了句法分析1而改进的SMART系统也使汇本身就是以短语的形式存在,如“自然语言处理”用统计方法抽取短语来扩展索引项1评测还表明,和“最惠国待遇”等,而专有词汇在真实文本中是大用语言学方法生成的短语比单用统计方法有效1但量存在的1另外,特别是对于中文而言,词汇本身更是,实验结果也显示,短语识别所带来的检索性能改具有争议,和词汇相比短语的歧义要小得
7、多1因此,善是有限的和不稳定的,其可能的原因之一就是短在大规模文本处理中若能用短语而不是词汇来表示语识别的准确率还不够高,有待进一步改进1收稿日期:2001211209;修回日期:2002211228基金项目:国家自然科学基金(69873011);Intel中国研究中心基金3期周雅倩等:基于最大熵方法的中英文基本名词短语识别441 在英文名词短语识别方面,在小规模训练集①[1]合下,目前最好的英文基本名词短语识别是用2 模型设计系统组合(systemcombination)的方法取得的,它们通过机器学习方法决定7个基于单一机器学习方
8、法211 模型的定义的基本名词短语识别器的最终结果1其查全率/准短语识别的输入是分词标注过的文本,输出是确率达到了94118%/93155%1识别出短语的文本1图1是短语识别过程的一个简在中文名词短语识别方面,也已经有很