欢迎来到天天文库
浏览记录
ID:22509478
大小:52.55 KB
页数:8页
时间:2018-10-29
《医学图书馆图书数据挖掘与应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、医学图书馆图书数据挖掘与应用青岛大学附属医院山东青岛266000摘要:木文概述了医学图书馆数据挖掘技术的概念和特点,阐述了医学图书馆数据挖掘的任务、方法以及在图书管理决策、个性化服务等在图书馆建设上的应用,探讨了医学图书馆数据挖掘在临床医疗、医学科研中的价值。关键词:医学图书馆;数据挖掘;图书管理;临床医学现代医学图书馆已经不是以借阅书刊和分类管理为主要服务内容,而是与医学相关的教学、科研、临床、技术和医院管理人员为主要服务对象的综合性医学信息服务,能够针对在海量数据和信息中有目标的对其知识需求、帮助其解决具体问题的信息和知识服务
2、,这迫使医学图书馆的服务功能发生转变。要实现具有前瞻性、实用型、先进性的医学信息和整合型的医学信息服务功能,数据挖掘为实现这一目标提供了保障。1.数据挖掘的概念与特点1.1数据挖掘的概念数据挖掘(DataMining)就是从大量的数据中揭示出隐含的并其有潜在价值的知识的过程,它包含分类、回归分析、聚类分析、关联分析、预测等多种分析方法。其主要特征就是在大型数据库中,自动的发现有用信息的过程。换言之,数据挖掘就是一个知识发现、整合和运用的过程[1]。虽然目前为止有关数据挖掘的概念仍有许多争论,但归根结底就是一个从海量数据寻找规律的技
3、术和获取有价值、有意义信息的过程[1、2]。至目前为止数据挖掘所采取的技术主要是数据预处理、预测建模、可视化、关联分析、聚类和异常检测等技术手段,将数据库中的大量数据进行抽取、转换分析和其他模型化处理,从中提取对临床医疗、科学研究和图书管理决策的关键性数据[3]。在医学数据挖掘中除揭示一般数据的知识价值以外,还有若干主观的和个性的数据,比如,临床症状与证候、主观感觉与客观实质等问题,所以医学数据挖掘更具有复杂性和特殊性,需要在关联分析的基础上进行相对概率密度分析,并必须在医学上有所解释。1.2医学数据的特点医学数据是一个多学科交叉
4、研究领域,它融合了数据库技术、人工智能、机器学4、统计学、知识工程、面向对象方法、信息检索、高性能计算以及数据可视化等最新技术的研究成果。奋研究指出医学数据具奋异质性、多样性、不完整性、吋效性、隐私性、冗余性[4、5]等特殊性。这种描述提出了医学数据挖掘的基本特性,但尚不完整。作为医学数据应当还具奋苏学科广泛性和资源的复杂性。细加分析就不难看出医学数据基本上包括了所奋学科的范畴,看起来没有关联,很可能就在医学领域得到应用。医学数据不仅仅是分类问题,还冇来自症状与证候的主观特征,症状之间和证候之间以及症状和证候之间的联系十分复杂和重
5、要。这就有别于苏他学科,构成了医学数据更具复杂性特征,因此在数据挖掘上应当注重其内在的关联分析。由于上述这些特性的存在,在医学数据挖掘上跟挖掘其它类型的数据库相比,亦具奋其自身的独特性。医学数据首先是以治愈患者为目的而搜集的,其次才是用于医学研究资源,因此医学数据不仅具奋模式的多态性,还存在症状与证候的主观性。1.3医学图书馆数据挖掘的任务作为医学图书馆数据挖掘主要任务,一是预测任务,任务的0标是根据其他属性的值,预测特定属性的值。被预测的属性一般称为0标变量或因变量而用来做预测的属性,说明变量或自变量;二是描述任务,苏0标是导出
6、概括数据中潜在联系的模式。描述性数据挖掘任务通常是探索性的,并且常常去要后处理技术验证和解释结果[6】;三是建模任务,根据医学数据的特征建立相关的模型,包括搜寻模型、分析模型、聚类模型、特征标记模型等,以提高预测效果,并注重对数据集中特征和标记的内在联系进行分析;四是将被挖掘的数据变为信息。数据本身不是信息,而是冇待理解的原材料,只冇将挖掘出来的数据变为冇效的信息,才具奋价值和使用价值。与此冋吋这些模型的建立既要符合医学数据的物理意义,又要注重医学数据中大量存在的症状与证候的特征。在医学数据的关联分析、聚类分析、分类、预测、时序模
7、式和偏差分析时,采用多标记医学数据特征选择,得出的结果必须在医学上是可解释的,这样才能认为此种方法的预测才是真实可信的[7】,才能为读者提供有效信息,为科学研究提供可靠数据和科研线索,为临床疾病诊断和治疗提供科学决策,为提高医学图书馆信息管理水平提供决策依据[5】。1.4医学图书馆数据挖掘方法数据挖掘是一个知识发现的过程,一般认为数据挖掘是一门集统计、机器学习、数据库、神经网络、模糊数学等相关技术的交叉学科。是一个从大量的、模糊的、不完全的、随机的数据中识别潜在的、有价值的并且能被人理解的数据处理过程[8】。核心的数据挖掘技术包括
8、决策树算法、冋归与时序算法、人工神经网络、关联规则和聚类分析。由于医学数据存在模式的多态性、不完整性、吋间性和冗余性的特点,有报道指出[9】医学数据挖掘的关键技术为利用数据预处理技术,以确保医学数据库中那些大量模糊的、不完整的、带冇噪卢节冗余的信息
此文档下载收益归作者所有