欢迎来到天天文库
浏览记录
ID:23621221
大小:1.99 MB
页数:53页
时间:2018-11-09
《考虑关联分布词语聚类方法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得重迭监直太堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者躲卯彪社蝌期⋯歹年‘月”学位论文版权使用授权书本学位论文作者完全了解重庞蜜&电太堂有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。
2、本人授权重麽蜜E鱼太堂可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名:左臼氍杠导师签名:复耖签字日期:沙’¨月f日签字日期:功91年6月≥日重庆邮电大学硕士论文摘要词聚类就是对一些纷繁的个别词应用某种方法进行分组形成语义相近或相关的词类(或词聚簇)。它在智能检索、文本分类、词义排歧、机器翻译等领域都有广泛的应用,是语言学和自然语言处理中十分重要的研究课题之一。在词聚类技术中,采用什么样的词语相似度计算方
3、法以及如何对词语聚类,往往决定了词聚类效果的好坏。传统基于互信息的词聚类方法由于简单、易于实现等特点,被应用在了基于上下文的机器自动聚类中。该方法存在两个问题:(1)未考虑词对的不同分布所造成的词语关联强度差异;(2)虚假关联问题,即有些实际较强的关联关系计算结果较弱,反之某些实际较弱的关联关系计算结果较强,这与实际情况不符。本文针对传统基于互信息的词聚类方法存在的以上两个问题,围绕如何计算词语相似度及选用合适的词聚类算法开展了研究工作:首先,本文提出了一种基于关联分布的词语相似度计算方法。该方法用词语关联分布规范化
4、因子对传统互信息度量待聚类词和基词关联度的方法进行了修正,即用关联的累积分布函数更准确的度量其关联度;然后由所得关联度构造待聚类词的属性向量;最后由属性向量利用央角余弦法计算出待聚类词语相似度。实验结果表明,新方法比传统方法有更好的词语相似度计算效果。其次,实现了基于关联分稚相似度的词语聚类算法。该算法以基于关联分布的词语相似度计算方法所得待聚类词语相似度为基础,利用仿射传播聚类算法,将词对棚似皮转换为矩阵形式作为输入,在算法了I:始时将所有的待聚类词语都视为潜在的聚类中心,算法通过迭代循环不断进行消息传递,以产生一
5、些高质量的词聚类代表,然后将各词分配给最近的词聚类代表所属的类,则找到的聚类即是词聚类结果。实验结果表明,该算法能够较准确地进行中文词语聚类。关键词:词聚类,相似度,关联分布,关联度,仿射传播聚类重庆邮电人学硕士论文AbstractWrordclusteringistheprocessinwhichunlabeled、vordsareclassifledintosimilarorrelatedsemanticgroups(orcluster)bycenainmethod.Wbrdclusteringiswidelyu
6、sedinintelligentretrieVal,textclassi6cation,wordsensedisambiguation,machinetranslation,andalsoanimponantresearchtopicin王inguisticsandnaturallanguageprocessmg.Thesimilarity-basedwordclusteringtechnologyconsistsofwordsimilaritycomputingmethodandclusteringalgorit量
7、lIll.TheconVentionalmutualinfomlation(MI)basedmethodwidelyusedincontext·based、Vo坩clusteringbecauseit’ssimpleandeasyt0reaIize,whiIetherearetwoobViousproblemsinMI-basedmemod:(1)Stren加di疏rencebet、Ⅳeendi仃erentliIll(snotbeenconsidered;(2)Tllefalselinkproblem,i.e.,so
8、mestronglinksarecoIlsideredmistakenlyasweakliIll(sbecauSeoftheirlowco-occun.encefrequencies,andsomeweal(1inksareconsideredmistakenly舔stronglinksbecauseoftheirhighco-occurren
此文档下载收益归作者所有