异构医疗数据库语义集成迭代算法

异构医疗数据库语义集成迭代算法

ID:36861021

大小:389.69 KB

页数:55页

时间:2019-05-16

异构医疗数据库语义集成迭代算法_第1页
异构医疗数据库语义集成迭代算法_第2页
异构医疗数据库语义集成迭代算法_第3页
异构医疗数据库语义集成迭代算法_第4页
异构医疗数据库语义集成迭代算法_第5页
资源描述:

《异构医疗数据库语义集成迭代算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、华中科技大学硕士学位论文摘要语义集成可以消除异构数据库中的数据冲突和异常,实现同一行业不同企业和机构之间的异构数据集成。异构数据的语义集成对于国家进行宏观调控、建立公共数据平台具有十分重要的作用。采用语义一致性检测的迭代流程,在同一迭代流程中,通过结合属性和元组语义的检测提高语义集成的精度。采用聚类方法分析属性之间的语义一致性,根据直接从属性的数据值中提取的特征,分别采用K-means聚类算法、模糊聚类算法和改进的chameleon凝聚层次聚类算法,得到三种属性的语义匹配结果进行投票,以得票数不低于2的属性对作为语义一致属性对,用作迭代流程的初始属性语义匹配结果。在聚类

2、分析中,属性特征只从属性的数据值中提取;在改进的chameleon算法中,以NormalizedCut准则取代原算法的Min-cut准则。在迭代过程中,首先依据属性语义匹配的结果,采用分类方法检测元组之间的语义一致性。手工挑选数量相同的匹配元组对和不匹配元组对,作为训练样本数据集训练logistic回归分类器,并对分类结果进行分析和评价;然后对分类所得匹配元组对做相关分析和线性回归分析,通过皮尔逊相关系数和线性回归拟合参数发现新的语义一致属性对,更新属性匹配结果并用于下一步迭代。使用三峡医院和南漳医院的药品表作为实验数据,药品表的属性个数分别为20和27个,从中各挑选6

3、03个匹配元组对和不匹配元组对,用作研究中的实验数据。实验结果表明,在语义集成迭代流程中,随着迭代次数的增加,能够不断发现新的匹配属性和匹配元组,且识别出的属性对和元组对具有很高的正确率。关键词:语义集成,数据集成,医疗数据库,chameleon层次聚类,logistic回归I华中科技大学硕士学位论文AbstractSemanticintegrationcaneliminatetheconflictsofdatainheterogeneousdatabases,andintegratedatabasesbetweendifferententerprisesandorga

4、nizationsinthesameindustry.Semanticintegrationforheterogeneousdatabasesplaysanimportantroleinthemacro-controlofcountryandtheestablishmentofapublicinformationplatform.Combiningattributesandtuplesinformation,aniterativeprocedurecanbeconstructedtosolvetheproblemofsemanticintegration.Cluster

5、analysistechniquesareusedtoidentifysemanticcorrespondencesbetweenattributes.PickingupfeaturesonlyfromattributesvaluesandusingvotingmethodtotheclusteringresultsofK-meansClusteringAlgorithm,FuzzClusteringAlgorithmandimprovedChameleonHierarchicalClusteringAlgorithm,somesemanticcorresponding

6、attributepairscanbeidentifiedandbeusedastheinitialattribute-matchingresults.WechoosetheruleNcutinsteadofMin-cutasthegraphpartitionruleinchameleon.Intheiterativeprocess,basedonmatchingattributepairs,useclassificationmethodtodetectsemanticcorrespondencebetweentuplepairs.Selectcertainsizeof

7、matchingandnon-matchingtuplepairsastrainingdatatotrainlogisticregressclassifier.Byusingcorrelationandregressiontechniquestoanalyzethematchingtuplepairsandevaluatethesemanticrelationshipbetweenattributes,somenewmatchingattributepairswillbefound.Updatethematchingattributepa

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。