资源描述:
《基于数据立方体挖掘疾病–基因–药物新关联-chinaxiv》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、ChinaXiv合作期刊应用论文基于数据立方体挖掘疾病–基因–药物*新关联1,21112魏星胡德华易敏寒朱启贞朱文婕1(中南大学信息安全与大数据研究院长沙410083)2(蚌埠医学院公共基础学院蚌埠233003)摘要:【目的】在海量文献中,挖掘并预测生物医学实体之间的新关联,构建关联网络。【方法】提出一种基于数据立方体的新方法挖掘疾病–基因–药物间关联,以糖尿病为例,构建关联网络,并使用关联规则量化实体关联程度。【结果】由糖尿病相关疾病(14种)、基因(23种)和药物(24种)构建三个1-D方体、三个2-D方体及其关联网络和一个3-D方体关联
2、网络,共计存在411种关联,同时得到8个关联子网。【局限】数据预处理存在主观性,可能会对挖掘结果产生影响。【结论】算法性能优于其他同类算法,能够为糖尿病精准医疗提供更好的新研究思路。关键词:疾病基因药物数据立方体关联规则关联网络分类号:TP391G202DOI:10.11925/infotech.2096-3467.2017.0641户可以以多维方式,通过如下钻或上卷这样的联机分1引言析处理(OLAP)操作探查数据,进行数据分析和知识发生物医学文献正在以前所未有的速度增长,其摘现,探索感兴趣的模式。要中包含了海量的实验结果、基因表型描述和药效
3、信本文基于数据立方体探查多维空间中的数据,同息,整理挖掘其中有效信息,已成为生物知识发现和时使用关联规则计算实体间的关联度,以糖尿病为例,生物医学研究中一个重要手段[1]。如何才能有效利用构建糖尿病相关疾病–基因–药物关联网络,分析并探chinaXiv:201712.01355v1这些文本中所蕴含的生物医学知识,无疑对分析海量讨实体间潜在关联,突出并挖掘关联网络中的关键节生物医学数据是非常重要的,常用方法是通过关键词点,提出实验性研究假设,为研究人员对今后有关糖直接检索,但是这只能从大量文档集合中找到用户需尿病的诊断与治疗、疾病候选基因筛选、
4、靶向药物和求相关的文件列表,而不能从文本中直接获取用户感个性化医疗等研究提供数据支持和新的研究思路。兴趣的信息。因此,如何从大规模生物医学文献中自2相关研究动挖掘相关知识是一项迫在眉睫的任务。常见的生物[2]实体间关联的研究有:蛋白质与基因的关联,药物目前与疾病有关的生物医学文本挖掘研究大多集[3][4]与药物的关联,药物与疾病的关联等。中在基因的功能信息上,如:对疾病基因和疾病候选[5][6]数据立方体(DataCube)能够存放多个数据维(如基因的分类排序,使用图论构建疾病与疾病基因关[7]疾病、基因和药物)上的预计算度量(如关联强度),
5、用联度的网络模型,利用定量性框架模型综合分析疾通讯作者:胡德华,ORCID:0000-0001-8027-405X,E-mail:hudehua2000@163.com。*本文系国家自然科学基金项目“利用黄鳝性逆转模型探索piRNA通路在性别决定中的作用机制”(项目编号:31500999)和安徽省高校质量工程“医学院校物联网工程专业建设医工融合的实践教学新模式”(项目编号:2016jyxm0673)的研究成果之一。94数据分析与知识发现ChinaXiv合作期刊总第10期2017年第10期[8]病基因与蛋白质之间的作用预测药物新靶点以及计三个2
6、-D方体内疾病、基因和药物之间的两两关联度;[9]算药物重新定位等,而关于疾病与多个其他实体的(3)使用BUC算法构建数据立方体,得到3-D基关联挖掘属于一个新兴的研究领域。本方体内的实体间关联度;[10]生物实体关联挖掘方法有多种,如:Lamb等利(4)利用R语言实现多维方体的关联网络的可视用具有生物活性的小分子治疗基因表达谱数据,开发化,分析关联网络的分布程度和不同模式的识别程度。“ConnectivityMap”系统,用于挖掘化学与生理过程、(5)使用ROC曲线验证本文算法的准确性和可靠性。疾病与药物之间的小分子共享作用机理,依此挖掘疾
7、3.1数据预处理[11]由于文献摘要是自然语言书写,属于非结构化数病–药物之间的关联。Natarajan在文献中获得疾病、基因的多种特征,从OMIM得到已知疾病–基因关联,据,所以需先进行数据标准化预处理,不同研究者侧[12]对比之后,挖掘出120对基因–疾病新关联。Odibat等重点不同,本文设定如下步骤进行处理:提出一种基于排序任意重叠定位协同聚类算法,并依(1)将文献摘要所有字母转为小写;此构建判别模型,通过对基因表达数据集的分析运算,(2)把文本转化为单独句子;[13]可以有效分类疾病基因表达结果。Li等构建了一个(3)去除标点符号以
8、及与本研究无关的词,如:用于判断疾病与候选基因随机集优先级的评分模型,“this”、“an”等;使用基于网络与表型分析的方法在生物医学文献中进(4)替换希腊字母,如