欢迎来到天天文库
浏览记录
ID:10135620
大小:33.50 KB
页数:11页
时间:2018-06-11
《基于知识依赖度约简的知识发现研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于知识依赖度约简的知识发现研究摘要:粗糙集理论中的属性约简问题属于NP难问题。以教育技术学专业读者2013学年度图书借阅历史数据为原型,采用借阅类目的次数多少作为属性重要度进行启发式选择,利用粗糙集理论中的知识依赖度对类目约简,挖掘出本专业和各年级借阅类目的核心集,并经问卷调查证明其规律的正确性。通过与教育技术学专业学科知识体系结构的比较,能够发现学科知识体系结构建设的不足之处,以促进其更科学完善。关键词:粗糙集;知识依赖度;数据挖掘;知识发现DOIDOI:10.11907/rjdk.143896中图分类号:TP391文献标识码:A文章编号文章编号:167278
2、00(2015)006013503基金项目基金项目:安徽省高等学校图书情报工作委员会基金项目(TGW13B08)作者简介作者简介:李化明(1974-),男,江西东乡人,硕士,淮北师范大学图书馆馆员,研究方向为数字图书馆、读者服务。0引言11高校图书馆自动化建设经过多年发展,已经积累了大量历史数据,这些数据不但完整,而且质量高,充分反映了读者学习成长的过程。如何对其进行挖掘提炼并从中发现有价值的知识,是了解读者需要、开展知识推送服务的重要信息来源。前人研究主要是根据读者的借阅历史数据,利用关联规则算法发现某类书籍之间的关联规则[14],或利用聚类算法挖掘具有共同阅读
3、兴趣的读者群体[5],以及通过时间流分析得到读者借阅时间的分布规律[6]等。也可以利用粗糙集进行挖掘。例如,柳炳祥等[7]只是介绍有关理论,文章中并没有对粗造集挖掘进行深入阐述。这些挖掘结果往往只是反映读者已往的借阅规律,而不能反映其当前和今后一段时间的真实需要,因为这些读者还需要不断地进行知识更新和深化学习。本文通过对教育技术学专业读者群进行数据挖掘,利用知识依赖度约简方法发现其学科知识体系结构,并通过与相关专业的知识体系结构建设进行比较,以发现建设中的不足之处。如果利用所得的知识库进行推送服务,则能把读者真正需要的知识推送给他们。1粗造集有关理论粗糙集理论认为
4、“知识是一种对对象进行分类的能力”,它将分类理解为在特定空间上的等价关系,而等价关系构成了对该空间的划分[8]。定义1(论域、知识):设U是感兴趣的对象组成的非空有限集合,称为一个论域。论域U11上的任一子集XU,称为论域U的一个概念或范畴。论域U中的任何子集簇(概念簇)称为关于U的抽象知识,简称知识[9]。在二维表中,知识是由某些列对所有行的划分构成的集合所表示。定义2(知识库):给定一个论域U和U上的一簇等价关系S,称二元组K=(U,S)是关于论域U的一个知识库或近似空间。因此,论域上的等价关系即代表着划分和知识。这样,知识库就表示了论域上由等价关系导出的各种
5、知识,即划分或分类模式,同时代表了对论域的分类能力,并隐含着知识库中概念之间存在的各种关系[9]。定义3(不可分辨关系):给定一个论域U和U上的一簇等价关系S,若PS,且P≠,则∩P(P中所有等价关系的交集)仍然是论域U上的一个等价关系,称为P上的一个不可分辨关系,记作IND(P)。IND(P)的等价类称为知识P的基本范畴[9]。2知识发现2.1样本数据选取本研究以教育技术学专业学生作为研究原型,经统计,教育技术学专业自2008年以来每年招收1个班学生,系统有2008年以来的所有借阅历史记录,符合研究要求。为了简化样本数据,选择2013学年度(2013225~20
6、14119日)教育技术学专业2010~2013级学生借阅历史数据作为研究对象(即大一至大四学生),借阅情况统计数据如表1所示。112.2数据预处理在进行数据挖掘之前,需要对数据进行去噪、补缺和转换等预处理操作。数据预处理步骤如下:①根据年级、专业代码和时间段获取读者借阅历史记录,并通过汇总获得借阅图书的人数、未借阅人数和总借阅册数;②去除借阅书目的种次号,得到借阅类目,汇总后得到借阅类目数。由于中图法是通过标记符号代表各级类目和固定先后次序的分类体系,标记符号不同,其表示的知识类目也不同,故不能把相近类目合并为一类;③按类目进行汇总,求得各类目借阅册数和所有类目的
7、平均借阅册数,并删除低于平均借阅册数的类目,因为其表现的只是某个学生的个人爱好,不是大家共同学习的知识,相当于噪音数据;④求出借过大于平均借阅册数类目的所有读者,这些读者即是进行知识约简的对象;⑤生成上述读者对象和其借阅类目的二维表,并对表中数据进行转换处理,如果此读者借过该类目书籍则为1,否则为0。类目列按类目总借阅册数降序添加到表中。2.3知识约简经过上面的数据预处理后,得到了知识库的关系簇S11和论域U,即不小于平均借阅册数的类目和借阅这些类目的读者。然而,即使经过上述预处理后,其约简的类目数还有几十种;如果直接利用知识依赖度(定义5)来约简,其需要计算的次
8、数为M*l
此文档下载收益归作者所有