欢迎来到天天文库
浏览记录
ID:46473469
大小:69.50 KB
页数:6页
时间:2019-11-24
《浅析决策树算法对构建高校图书馆服务模型的研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、浅析决策树算法对构建高校图书馆服务模型的研究摘要:以高校图书馆一一长春工程学院图书馆为例,选择决策树C4.5算法构造模型,通过数据挖掘算法,得出制约图书馆数字资源使用因素间的一些潜在性联系,从而进一步分析高校图书馆用户的实际使用需求,为图书馆今后发展、决策提供意见及指导。关键词:数据挖掘;高校图书馆;决策树算法随着图书馆事业的不断发展,高校图书馆的职能也随之发生了变化。如何更有效、合理的对高校图书馆用户需求进行分析,从而有针对性的为读者提供相对应服务,已经成为图书馆今后发展中所面临的具体任务。FI前,虽然
2、各高校图书馆都在为了更好地满足用户対信息的需求,积极推广数字资源的开发利用,但由于缺乏对它的科学认识与管理,造成大量数字资源闲置、重复,使有限经费白白浪费。用户对图书馆服务的需求正逐渐山传统的图书借阅扩展为信息检索、文献下载等数字资源服务。应用数据挖掘技术可以通过收集到的一些看似无关联的,离散的调查问卷等数据,转化为可供使用的参考信息,提供给图书馆决策者,这将使一些制约用户使用图书馆数字资源的因素得到冇效的处理。根据此需求选择数据挖掘中的决策树C45算法建立决策树,挖掘出制约用户对数字资源使用的一些主要因
3、素间潜在的规则性知识,对高校图书馆用户需求进行有效分析,使用户更有效地利用图书馆的数字资源服务,为图书馆提高服务层次提供决策指导。一、决策树分类算法决策树方法是一种通过构造决策树来发现训练集中分类知识的数据挖掘方法,该方法用类似于流程图的树结构对数据记录进行分类,根节点对应的数据集是训练集,每个内部节点表示在某个属性上的测试,每个分枝代表一个测试输出,而每个叶节点代表类或类的分布[1]O决策树算法分为树的生长算法和剪枝算法两部分。其中,ID3和C45作为决策树生长的基本算法(贪心算法),都使用信息论度量为
4、树中每一个非树叶节点选择测试属性。C45对1D3算法预测变量的缺失值处理、剪枝技术、派生规则等方面进行了补充和改进,能够将决策树转为等价的规则,是一种比较流行的算法。[2]本文主要应用C45算法构造决策树。二、决策树构造实例为有效说明问题,通过长春工程学院学生对图书馆数字资源使用情况的调查问卷屮选取了少量样本数据,这样构造出的决策树比较简单直观。决策树的每个内部节点(非叶)表示一个属性上的测试,每个叶节点表示一个类别,本实例的类别为自身因素(用户是经常使用数字资源):是(1)和否(0)两类。我们采用自顶向
5、下递归算法來构造决策树。可将表中的数据元组训练集分为2类,即自身因素{是,否},所以有2个不同的类(in二2)。设类C1对应于是,有12个样本,类C2对应于否,冇6个样木,据(1),可以得出该样木的期望信息:I(rl,r2)=1(12,6)二-(12/18)*log2(12/18)-(6/18)*log2(6/18)二0918然后计算每一个决策属性的期望信息量(即爛值)。对属性“宣传因素”,当宣传因素二高I(sll,S21)二-(2/3)*log2(2/3)-(1/3)*log2(1/3)=0918当宣传
6、因素二良I(sl2,s22)=-(7/8)*log2(7/8)-(1/8)*log2(1/8)=0544当宣传因素二中I(sl3,s23)二-(3/7)*log2(3/7)-(4/7)*log2(4/7)二0985由此得出“宣传因素”的爛值E(宣传因素)二3/18*1(sll,s21)+8/18*1(sl2,s22)+7/18*1(sl3,s23)=0778因此属性“宣传因素”的信息增益为G(宣传因素)二I(门,r2)-E(宣传因素)二0140同理,可得岀表中英他各属性的期望信息和信息增益值。由于属性“宣
7、传因素”具冇最大信息增益,故而选择该属性作为决策树的根节点。对于每一个分枝,依据分枝顺序,重复上述步骤,只画出关于笫一层次单位和最差情况的决策树,生成的决策树如图1所示。三、结果分析与应用(-)模型结果分析由模型结果可以看出,最人的障碍是图书馆对如何使用数字资源的宣传力度不够,使用户不了解其使用方法,甚至可能是不会利用数字资源来获取信息,其次是资源本身的更新情况和图书馆的设备情况制约了其对资源的使用。要提高图书馆数字资源的利用率,就耍提高高校图书馆対数字资源的宣传和培训,使更多用户知道,熟悉其使用,其次,
8、则需侧重加强资源木身的优化,确保数据库收录内容是否全面、准确、权威、时效性强,是否符合本馆需求与图书馆设备的更新。以往的调查问卷因为缺乏科学分析工具,无法及时对用户的需求情况进行合理的统计分析,也就无法发现庞杂的数据中存在的关系和规则,图书馆管理者更多的依靠经难和习惯來进行工作。而利用决策树C45算法,针对长春工程学院图书馆调查问卷的数据,有目的分类构造模型后,统计结果比以往手工统计调查问卷效率提高了数倍,结果分析的准确性也大
此文档下载收益归作者所有