基于语义相似度的空间数据挖掘模型

基于语义相似度的空间数据挖掘模型

ID:15469628

大小:688.00 KB

页数:9页

时间:2018-08-03

基于语义相似度的空间数据挖掘模型_第1页
基于语义相似度的空间数据挖掘模型_第2页
基于语义相似度的空间数据挖掘模型_第3页
基于语义相似度的空间数据挖掘模型_第4页
基于语义相似度的空间数据挖掘模型_第5页
资源描述:

《基于语义相似度的空间数据挖掘模型》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、目录摘要1关键词1Abstract1Keywords2引言21语义相似度22空间数据挖掘模型32.1空间数据挖掘概述32.2当前几种主要的空间数据挖掘模型43基于语义相似度的空间数据挖掘模型53.1语义相似度对数据的操作与处理63.2空间数据的挖掘方法7结语7参考文献78基于语义相似度的空间数据挖掘模型姓名:***学号:**********学院:城市与环境科学学院专业:地理信息系统指导老师:***职称:副教授摘要:本文在分析当前两大主流数据挖掘模型及语义相似度常用计算方法的基础上,论述了空间数据挖掘与语义相似度的集成模式,并结合语

2、义相似度的计算方法和数据挖掘的现状,探讨了基于语义相似度的空间数据挖掘模型,并简要分析了该模型的各个模块和基于此模型的空间数据挖掘的过程。关键词:语义相似度;SDM;空间数据挖掘模型;GISASpatialdataminingmodelbasedonsemanticsimilarityAbstract:Basedontheanalysisofthecurrenttwobigmainstreamcommonlyuseddataminingmodelsandsemanticsimilaritycalculationmethod,ont

3、hebasisofdiscussestheintegrationofspatialdataminingandsemanticsimilaritymodel,andcombiningthesemanticsimilaritycalculationmethodandthecurrentsituationofdatamining,discussedthemodelofspatialdataminingbasedonsemanticsimilarity,andthebriefanalysisofthevariousmodulesofthe

4、modelandprocessofspatialdataminingbasedonthismodel.Keywords:Semanticsimilarity;SDM;Spatialdataminingmodel;GIS引言随着信息时代的到来,各种各样的信息飞速增长,在这个知识爆炸的时代,如何从浩如烟海的信息中找出对自己有用的信息并加以分析、利用,是目前摆在数据挖掘领域的主要课题。数据挖掘从出现到现在只短短二十多年的时间,而空间数据挖掘则更年轻,但数据挖掘根据应用的具体需要而产生,因此一经出现就显示出强大的生命力。传统的数据挖掘技术

5、是基于数据仓库,这类数据仓库通常有上百个属性和数万个记录,并且数据表之间包含复杂的关系,这就必然导致数据挖掘过程中搜索维数和搜索空间的激增,同时也增加了不确定性和错误模式出现的可能性。8语义相似度是指不同词语间的可替代程度,本文将在充分分析语义相似度和空间数据挖掘等理论的基础上,提出一个基于语义相似度的空间数据挖掘模型。1语义相似度语义相似度是指不同词语之间的可替代程度,国内学者刘群等对语义相似度的定义是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度。即若两个不同词语在上下文中互相替换且不改变文本的句法语

6、义结构程度的可能性越大,那么这两个词语的相关性越高,反之越低。度量两个词语关系的另一个重要指标是词语的相关度。词语相关度是指两个词语在同一语境共现的可能性,它反映了两个词语的相互关联程度。可以认为,语义相似度反映概念之间的聚合特点,而词语相关度则反映概念之间的组合特点。DekangLira认为任何两个词语的相似度取决于它们的共性(Commonality)和个性(Differences),然后从信息论的角度给出了定义公式:(1)其中,分子表示描述A,B共性所需要的信息量;分母表示完整地描述A,B所需要的信息量。刘群、李素建以基于实例

7、的机器翻译为背景,认为语义相似度就是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度。两个词语,如果在不同的上下文中可以互相替换且不改变文本的句法语义结构的可能性越大,二者的相似度就越高,否则相似度就越低。对于两个词语,如果记其相似度为Sim(),其词语距离为Dis(),根据刘群、李素建的公式:(2)其中是一个可调节的参数。的含义是:当相似度为0.5时的词语距离值。词语距离和词语相似度是一对词语的相同关系特征的不同表现形式,如果两个概念之间的语义距离越近,就认为它们越相似8,因此二者之问可以给出一个简单对应

8、关系:(3)其中,Dis()为树中所代表的结点在树中的距离,k为比例系数。一般地说,相似度一般被定义为一个0到1之间的实数。特别地,当两个词语完全一样时,它们的相似度为1;当两个词语是完全不同的概念时,它们的相似度接近于0。词语距离有两类常见的计算

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。