资源描述:
《一种基于流形距离的中文语块聚类分析方法 - 中国计算》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、北京大学学报(自然科学版)ActaScientiarumNaturaliumUniversitatisPekinensis一种基于流形距离的中文语块聚类分析方法1,†112雷霖熊伟景宁肖建夫1.国防科学技术大学电子科学与工程学院,长沙410073;2.长江日报报业集团,武汉430015;†E-mail:leihema@gmail.com摘要将中文语块分析看做词在句子内部聚类并标记语块类别的过程,建立了中文语块分析的聚类模型。首先构建词的语法功能空间,使用ISOMAP方法重构词空间的低维流形嵌入,进而考察词在
2、低维空间中的分布情况。在使用层次聚类方法分析语块时,使用流形上的距离替代传统的欧式距离,在算法复杂度可以接受的范围内,提高了语块分析效果。关键词语块分析;流形距离;层次聚类;语法功能空间中图分类号TP391AClusteringChunkingMethodBasedonManifoldGeodesicDistance1,†112LEILin,XIONGWei,JINGNing,XIAOJianfu1.CollegeofElectronicScienceandEngineering,NationalUnive
3、rsityofDefenseTechnology,Changsha410073;2.ChangjiangDailyNewsGroup,Wuhan430015;†E-mail:leihema@gmail.comAbstractRegardingtheChinesechunkeranalysisasaprocedureofinner-sentencewordclusteringandchunkertypelabeling,agrammarfunctionspaceisconstructedatfirst,and
4、thenembeddingthespacetoalowerdimensionspacebyapplyingISOMAPtoobservethedistributioncharacterofChinesewordintheembeddingspace.Inthehierarchicalclusteringalgorithmwhichisaimingatpartitioningwordintodifferentclusters,themanifoldgeodesicdistanceisemployedinste
5、adofEuclideandistancetomeasurethesimilaritybetweenwords.ThealgorithmfacilitatestheincrementofChinesechunkeranalysisperformanceundertheconditionofappropriatealgorithmcomplexity.Keywordschunkeranalysis;manifoldgeodesicdistance;hierarchicalclustring;grammarfu
6、nctionspace中文语块分析(chunking)是浅层句法分析(sha-多个领域的研究提供基础。[1]llowparsing)中最主要的任务,对机器翻译、信息目前对于中文语块分析主要采用有监督的序列检索等自然语言处理具有重要作用。目前对于中文标注方法,包括SVMs,CRFs,TBL以及基于记忆的[2]语块尚未形成公认的权威解释,沿用Abney的观学习方法(MBL)等。文献[3]对这些方法进行了比较,点,中文语块(下文皆称语块)是符合一定语法功能在相同的数据集(宾州中文树库4.0)上的实验表明,的非递归
7、短语。每个语块都有一个中心词,语块内SVMs方法在语块识别效果方面优于其他方法,而的所有成分都围绕该中心词展开,任何一种类型的采用投票方法判定语块标记,可以进一步降低算法语块内部不包含其他类型的语块。语块具有以下3的复杂度。在此基础上,文献[4]提出基于大间隔的个特点:1)全覆盖,即将中文句子(下文皆称句子)分语块分析方法,整体效果优于其他汉语语块分析方[5]词之后,每个词都属于一个语块;2)无嵌套,即语法。与此同时,面向大规模真实语料库,Zhang等块中不包含其他语块;3)无重叠,即没有一个词属提出一种无
8、监督方法,在大规模N-gram(N取2~20)于两个语块。语块的划分大大降低了句子句法解析中利用快速统计子串约减方法生成语块,使得计算的难度,为信息检索、自动翻译和中文智能校对等规模非常大的语块分析方法能够利用现有计算能力新闻出版重大科技工程项目(1041STC40889)资助收稿日期:2012-05-31;修回日期:2012-08-15;网络出版时间:2012-10-2617:04网络出版地址:http://w