试析异构数据库集成中相同语义对象识别方法研究

试析异构数据库集成中相同语义对象识别方法研究

ID:34822755

大小:1.94 MB

页数:64页

时间:2019-03-11

试析异构数据库集成中相同语义对象识别方法研究_第1页
试析异构数据库集成中相同语义对象识别方法研究_第2页
试析异构数据库集成中相同语义对象识别方法研究_第3页
试析异构数据库集成中相同语义对象识别方法研究_第4页
试析异构数据库集成中相同语义对象识别方法研究_第5页
资源描述:

《试析异构数据库集成中相同语义对象识别方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、西南大学硕士学位论文异构数据库集成中相同语义对象识别方法研究姓名:张蕊申请学位级别:硕士专业:农业机械化工程指导教师:余建桥20060501西南大学硕士学位论文摘要摘’要近几十年来,科学技术的迅猛发展和信息化的推进,使得人类社会所积累的数据量大大增加,数据的采集、存储、处理和传播的数量也与日俱增。实现数据共享,可以使更多的人更充分地使用已有数据资源,减少资料收集、数据采集等重复劳动和相应费用。但是,在实施数据共享的过程当中,由于不同用户提供的数据可能来自不同的途径,其数据内容、数据格式和数据质量千差万别,有时甚至会遇到数据格式不能转换或数据转换格式后丢失信息等棘手问题,严重阻碍了

2、数据在各部门和各软件系统中的流动与共享。因此,如何对数据进行有效的集成管理已成为增强企业商业竞争力的必然选择。随着全球网络化、信息化的发展,网络上的信息越来越多,对信息检索手段的有效性要求也越来越高。互联网的缺陷日益显露出来,如:搜索引擎只能基于关键字搜索,智能程度低,搜索出来的结果往往不是用户真正需要的等等。互联网的创始人TimBerners—Lee在2000年提出了语义Web的概念和体系结构。数据的语义是判断数据相关性的根本依据。而只有得到了数据的相关性,互操作才可能成为现实,所以对于异构数据库的集成来说,耍解决互操作能力方面存在的不足,其根本措施之一就是对各种数据库中的数据

3、进行语义描述,从而为数据建立语义环境,为自动化数据处理、逻辑推理和重用提供基础。异构数据库语义集成的主要任务是解决数据库间语义相关对象的识别问题,其核心就是在数据库间找出语义相关的属性,即属性匹配问题。问题的解决对于实现数据库的互操作及信息的综合利用有着非常重要的意义。本篇论文首先分析了现有异构数据库语义集成技术;具体到语义匹配,首先提出基于权值的异构数据库语义集成中属性匹配方法,然后考虑到基于规则匹配方法需要先验知识来确定描述属性的各数据指标的权重,提出了不直接人为地给属性的元数据赋予权重,而是尝试应用机器学习及人工智能的方法从描述属性的各数据指标中学习规则。在处理具有不确定性

4、的属性匹配问题上,神经网络有着独特的优势,神经阿络是通过具体的实例进行训练而不是根据确定的规则进行编程,不需要先验知识,能够充分考虑到属性实例值的信息,且有较强的推广能力和自适应能力。本论文主要研究工作如下:(1)综述现有异构数据库语义集成技术,分析了目前文献中应用最多的三种判定属性相似度方法的不足,提出了一种改进的基于权值的异构数据库语义集成中属性匹配方法--CRC法。该方法首先根据数据类型把属性进行分类,然后根据重要性对特征向量进行排序,按照给定的公式计算权重,最后进行属性匹配。(2)基于权值的方法属于基于规则匹配的方法,此类方法需要先验知识来确定描述属性的各数据指标的权重,

5、属性的各数据指标的权重很难准确量化。即便是在一个应用环境下给出了合理的权重,当环境变化时仍要重新修改权重,动态适应能力较差,也不能找到一个通用的固定匹配规则来实现属性的匹配。根据其不足,结合进行语义匹配的特点以及神经网络的优势,提出用SOM神经网络模型对属性进行分类的思想。西南大学硕士学位论文摘要(3)由于标准BP算法存在收敛速度慢、易陷于局部极小点的缺陷。对于复杂问题,训练过程需迭代几千、几万次才能收敛到期望的精度。因此,标准的BP算法在很大程度上表现出它的不实用性,特别是对实时性很强的系统。从而出现了各种改进的BP算法。本论文提出了采用改进的BP算法——_I,M算法。该算法根

6、据迭代的结果动态地调整阻尼因子,即动态地调整迭代的收敛方向,可使每次的选代误差函数值都有所下降,收敛速度较快。实验结果证明该方法能明显提高属性匹配的准确率,降低神经网络的训练时间。第(2)点与第(3)点结合起来就是本文提出的一种改进的基于神经网络的SOM.LM法属性匹配算法。关键词:异构数据库集成属性匹配SOM模型CRC法SOM,LM法II西南大学硕士学位论文ABSTRACTInthelastfewdecades,withthegreatdevelopmentsofinformationtechnologyandtheboostofinformatization,theamoun

7、tofdataaccumulatedinhumanlifehavebeensteppedupgreatly,theamountofdatacollection、storage、disposalandtransmissionhavealsoincreasedsteadily.Ifwerealizedatasharing,manymorepeoplecouldusedataresourcesuffhciently,reducerehandingandcorrespondingcost

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。