基于改进corpus库的词语相似度计算方法

基于改进corpus库的词语相似度计算方法

ID:31475544

大小:1.18 MB

页数:5页

时间:2019-01-11

基于改进corpus库的词语相似度计算方法_第1页
基于改进corpus库的词语相似度计算方法_第2页
基于改进corpus库的词语相似度计算方法_第3页
基于改进corpus库的词语相似度计算方法_第4页
基于改进corpus库的词语相似度计算方法_第5页
资源描述:

《基于改进corpus库的词语相似度计算方法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、ProceedingsofUJe锄CMneseControlConferenceGuangzhou,P.R.ChinaJuly1量18,,2005基于改进Corpus库的词语相似度计算方法章志凌,虞立群,罗海飞,邵晓敏(上海交通大学软件学院数字家电实验室,上海200030)E-mail:steven_zzl@263.net摘要。词语的相似度度量方法背广泛的应用在智能信息检索等领域,本文通过构建存储词语共现信息的CorDus实现了一种度量词语相似度的方法。同时,为了控制词语关系的空间,给出了相应的关系空间裁剪方法。实验证明这是一种有效的在有限空间中对词语相似

2、度进行计算方法。关键词:Corpus,词语相似度,信息检索MeasurementofwordsimilaritybasedonCorpusZhangZhiling,YuLiqun,LuoHaifei,ShaoXiaomin(ShanghaiJiaoTongUniversity,Shanghai200030)Abstract:measurementofWOrdsimilarityiSwidelyusedinfieldofinfeIrmationretrieval.Inthispaper.weuseCorpus.whichstoretheconcurrenc

3、einformationofwords.tomeasureWOrdsimilarity.Also.wedesignanalgorithmtocontrolthespaceconsumingofCorpus.Withexperiments,it'sprovedbeafeasiblemethodtomeasurethewordsimilarityinlimitedspace.Keywords:Corpus,wordsimilarity,InformationRetrieval1引言2Corpus库的结构在计算词和词的相似度时,需要得到一些相自然语言的词语之

4、间有着非常复杂的关系,在实际的应用中,有时需要把这种复杂的关系用一种简单的数量来度量,而词语相似度的量化就是其中的一种。词义相似度计算在很多领域中都有广泛的应用,例如信息检索、信息抽取、文本分类、词义排歧、基于实例的机器翻译等等。本文的研究背景是基于用户爱好的智能电视节目选择。在智能电视节目选择中,当节目推荐引擎得到用户的检索词或已有的用户爱好关键词时,需要从大量的节目文本摘要信息中进行检索,并选出最符合用户口味的节目内容,然后推荐给用户。在这个检索过程中如果只使用关键词匹配技术往往会遇到词汇不匹配的问题。为了更好的基于用户的爱好信息进行节目的智能推荐,必须量

5、化词和词之间的相似度,从而对相似的词语~并进行检索。同时要求这种相似度的度量又是可以通过学习现实世界的文本而不断动态调整的。本文将介绍一种基于改进的Corpus库的词语相似度量化方法。第二节将论述Corpus库的结构,第三节将论述Corpus库的构建方法,第四节论述词与词基于Corpus库的相似度量化算法,第五节将讨论实验结果及相关心得,最后是总结。1297关的信息。具体需要哪些信息取决于词和词之间相似度量化算法。词语相似度的计算方法一般分为两种,一种是根据某种世界知识(Ontology)或分类体系(Taxonomy)来计算,一种利用大规模的语料库进行统计

6、。在前一种计算方法中,量化所需的相关信息一般来自于某个已有的语义词典库本身。【刘群20011基于《知网》以及『颜伟2003]基于WordNet进行词语相似度量化的计算都是直接从语义词典获取信息,由于这种语义词典是经过专家精心设计的,所以能够使用较小的空间来反映词和词之间错综复杂的关系。但是其缺陷是词和词之间的关系是固定不变的,因此既无法根据现实世界的变化调整词和词之间的关系,也很难引入新的名词。在后一种计算方法中,词和词的关系是通过从大规模语料的学习中得来的词和词在上下文中的共现信息,f盛秋艳2004]用Hopfeild神经网络进行词和词的联想,并用一个反映关

7、键词之间的关联度的模糊自反矩阵来存储词和词之间的相似度量值。对于一个有N个词汇的词空间Q,其词语关系的存储空间复杂度将达到0(N2)。同时其词对相似度的计算所需信息是直接来源于语料训练库的,自反矩阵中存储的是计算后词对相似值,实际上丢失了相关的词频,词距等历史信息,很难进一步扩展和学习。本文将介绍一种优化了的Corpus库,其目的表1是把在大规模语料库中统计的来得丰富信息进行筛选并存储,作为以后词和词之间相似度量化的信息基础。如下图所示,corpus库用于把浩瀚的语料库中所蕴含的词和词之间的关系通过统计的方法提取出来并进行存储,然后为上层的词语关系量化计算提

8、供支持。母釉捌我们把Corpus库C定

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。