汉语基本短语的自动识别

汉语基本短语的自动识别

ID:5279698

大小:446.97 KB

页数:10页

时间:2017-12-07

汉语基本短语的自动识别_第1页
汉语基本短语的自动识别_第2页
汉语基本短语的自动识别_第3页
汉语基本短语的自动识别_第4页
汉语基本短语的自动识别_第5页
资源描述:

《汉语基本短语的自动识别》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、万方数据中文信息学报第16卷第6期JOURNAI。OFCHINESEINFORMATIONPROCESSINGV01.16No.6汉语基本短语的自动识别张昱琪周强(智能技术与系统国家重点实骑室清华大学计算机系北京100084)摘要:本文应用基于实例的MBL(Memory.BasedLearning)学习方法,对汉语中较常见的9种基本短语的边界厦类别进行识别,并利用短语内部构成结构和词汇信息对预测中出现的边界歧义和短语类型歧叉进行了排歧处理。实验中还比较了在特征向量中加入词汇信息与否对实验结果的影响。实验取得了比较令人满意的结果:对这9种基本短语的识别正确率达到95

2、.2%;召回率达到93.7%。关键词:部分分析;基本短语;基于实例学习;短语鲒构;词汇排歧中圈分类号:TP391AAutomatieIdentincationofChineseBasePhrasesZHANGYu-qiZHOUQitmg(StateKeyLaboratowofIntelligentTedmologymad跏t口∞ⅨptofCompmerScienceandTechnok职,yTsinghmUniversityB刊ing100084China)●Abstract:ThjpaperpD:∞s·!dahybridmodeltoidemifyChinese

3、basephrases.Atfirststep,Weuseamemory-basedlearning(MBL)appmachtothechunkingofninetypesofChinesebasephrasesandcomparetheresultscomingfromdifferentfemureveetom.InthesecondseriesofexperimentsweusedgrararoarIuI∞thatreplB,enttheinnerstructuxesofbasephrasesandlexicalinfonnstiontocorrectthei

4、ncorrectpredictionsfromthefirststepThe“p商一mentsreportedinthispapershowcompetitiveresults:theFxecisionis952%andtherecallis937%.Keywords:partialparsing;basephrase;mdnory-basedlearning;phrasestructure;lexlcal—baseddisambiguation一、引言基本短语的识别和分析是自然语言浅层句法分析的重要任务之一。基本短语的分析结果可以简化句子的结构,降低句法分析的复

5、杂度。而且作为一种确定性很高的部分分析结果,基本短语分析将解决绝大部分的局部歧义结构问题,从而为进行更深入的语块分析和完全句法分析打下基础。自然语言学习国际会议(CONLL一2000)提出的语块共享任务采用了文献[1]中的语块描述框架,定义了英语中的11种基本语块,即常见的基本短语,包括NP,VP,PP,ADJP,ADVP,SS等。这些基本语块的特点是不相交且无嵌套的文献”J,也就是说一个词只能属于一个语块并且每一个语块内部都不包含其他的语块。与cONLL一2000类似,我们的基本短语也定义为句子中相邻的、不嵌套的(允许在粘合式定中结构中出现一级嵌套)、内部不包含

6、其他基本短收稿日期:2002—5—8基金项目:国家自然科学基金项目(69903007);国家973基金项目(G1998030507);国家863计划项目(2001AAI14040)作者张昱琪。女,1978年生,硕上研究生,主要研究方向为自然语言趾弹.周强.男,1967午生,博土.副研究员,主要研究方向为计算语言学、语料库语言学、机器学习万方数据语、主要由实词(名词、动词、形容词、数词、量词、副词等)组成的词语序列。该基本短语定义体系一共定义了9种基本短语,包括名词短语np,动词短语vp,形容词短语ap,副词短语dp,数词短语mp,区别词短语bp,地点短语sp,时间

7、短语tp,准数词短语mbar,对文献[11]中定义的汉语基本名词短语做丁进一步扩充。和文献[8j提出的7种汉语基本短语定义相比,本文的汉语基本短语的定义更加明确,理论背景更加完善,可操作性也更强。在定义的9种汉语基本短语中,np,vp,ap和dp是四类最常见的基本短语,sp和tp可以看成是np的子类。之所以把sp和tp单独成类,一方面因为sp和tp在句于中和np有不同的句法分布特点,另一方面可以占接和词性体系中的处所词和时间诃对应。这种非嵌套的基本短语的自动识别可以为信息抽取、信息检索、专有名词识别、句法知识自动获取和文本挖掘等领域的研究提供有力的支持。在汉语浅层

8、句法语块的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。