欢迎来到天天文库
浏览记录
ID:36863233
大小:389.69 KB
页数:55页
时间:2019-05-16
《异构医疗数据库语义集成迭代算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、华中科技大学硕士学位论文摘要语义集成可以消除异构数据库中的数据冲突和异常,实现同一行业不同企业和机构之间的异构数据集成。异构数据的语义集成对于国家进行宏观调控、建立公共数据平台具有十分重要的作用。采用语义一致性检测的迭代流程,在同一迭代流程中,通过结合属性和元组语义的检测提高语义集成的精度。采用聚类方法分析属性之间的语义一致性,根据直接从属性的数据值中提取的特征,分别采用K-means聚类算法、模糊聚类算法和改进的chameleon凝聚层次聚类算法,得到三种属性的语义匹配结果进行投票,以得票数不低于2的属性对作为语义一致属性对,用作迭代流程的初始属性语义匹配结果。在聚类分
2、析中,属性特征只从属性的数据值中提取;在改进的chameleon算法中,以NormalizedCut准则取代原算法的Min-cut准则。在迭代过程中,首先依据属性语义匹配的结果,采用分类方法检测元组之间的语义一致性。手工挑选数量相同的匹配元组对和不匹配元组对,作为训练样本数据集训练logistic回归分类器,并对分类结果进行分析和评价;然后对分类所得匹配元组对做相关分析和线性回归分析,通过皮尔逊相关系数和线性回归拟合参数发现新的语义一致属性对,更新属性匹配结果并用于下一步迭代。使用三峡医院和南漳医院的药品表作为实验数据,药品表的属性个数分别为20和27个,从中各挑选603
3、个匹配元组对和不匹配元组对,用作研究中的实验数据。实验结果表明,在语义集成迭代流程中,随着迭代次数的增加,能够不断发现新的匹配属性和匹配元组,且识别出的属性对和元组对具有很高的正确率。关键词:语义集成,数据集成,医疗数据库,chameleon层次聚类,logistic回归I华中科技大学硕士学位论文AbstractSemanticintegrationcaneliminatetheconflictsofdatainheterogeneousdatabases,andintegratedatabasesbetweendifferententerprisesandorganiz
4、ationsinthesameindustry.Semanticintegrationforheterogeneousdatabasesplaysanimportantroleinthemacro-controlofcountryandtheestablishmentofapublicinformationplatform.Combiningattributesandtuplesinformation,aniterativeprocedurecanbeconstructedtosolvetheproblemofsemanticintegration.Clusteranal
5、ysistechniquesareusedtoidentifysemanticcorrespondencesbetweenattributes.PickingupfeaturesonlyfromattributesvaluesandusingvotingmethodtotheclusteringresultsofK-meansClusteringAlgorithm,FuzzClusteringAlgorithmandimprovedChameleonHierarchicalClusteringAlgorithm,somesemanticcorrespondingattri
6、butepairscanbeidentifiedandbeusedastheinitialattribute-matchingresults.WechoosetheruleNcutinsteadofMin-cutasthegraphpartitionruleinchameleon.Intheiterativeprocess,basedonmatchingattributepairs,useclassificationmethodtodetectsemanticcorrespondencebetweentuplepairs.Selectcertainsizeofmatchi
7、ngandnon-matchingtuplepairsastrainingdatatotrainlogisticregressclassifier.Byusingcorrelationandregressiontechniquestoanalyzethematchingtuplepairsandevaluatethesemanticrelationshipbetweenattributes,somenewmatchingattributepairswillbefound.Updatethematchingattributepa
此文档下载收益归作者所有