浅谈如何做好建设工程档案编研工作

浅谈如何做好建设工程档案编研工作

ID:32489740

大小:28.79 KB

页数:3页

时间:2019-02-08

浅谈如何做好建设工程档案编研工作_第1页
浅谈如何做好建设工程档案编研工作_第2页
浅谈如何做好建设工程档案编研工作_第3页
资源描述:

《浅谈如何做好建设工程档案编研工作》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、浅谈如何做好建设工程档案编研工作摘要:介绍了关联规则,应用Apriori算法对图书馆读者借阅记录进行分析,发掘存在其中的关联规则,在图书馆提供的个性化服务中具有很大的价值。关键词:数据挖掘;关联分析;Apriori算法紧跟着教育体制的不断改革深化的步伐,高等院校办学的规模也随之扩大,相应的图书馆藏书也日益丰富起来。不断扩充的藏书容量在提供大量知识的同时,人们查找自己所需信息的难度也在逐渐增大,在信息时代迅猛发展的今天如何给读者提供方便快捷的搜索方式也已摆在管理者眼前。鉴于高校图书馆目前广泛采用了信息化的管理系统,会产生大量借阅数据资源,如果发掘这些海量数据资源中的关系和规则

2、,寻找出背后隐藏的借阅信息,进而可对不同的读者提供具有针对性的个性化服务。数据挖掘经过近些年的逐步发展,在提供关联分析等方面能够便于发现隐藏在大量数据后的有用资源,可为读者提供更为主动地服务,提高知识的利用效率。1关联规则的相关概念1.1关联规则关联规则(associationrule)是是数据挖掘的主要技术之一,它对数据库中的数据项的依存性和关联性进行描述,从而在已知项的基础上对未知项进行预测,是形如X→Y的表达式,其中X和Y是不相交的项集,即X∩Y=Ф。关联规则的强度可以用它的支持度(support)和置信度(confidence)来度量。支持度代表该规则所代表的事例(

3、元组)占全部事例(元组)的百分比;而置信度代表该规则所代例占满足前提条件事例的百分比。即:使用支持度和置信度是由于一方面支持度是一种重要度量,低支持度概率的规则可能仅为偶然出现,多数是无意义的,通常可将其删去。另一方面,置信度度量通过规则进行推理具有可靠性。对于给定的规则XY,置信度越高,Y在包含X的事务中出现的可能性就越大。但由关联规则做出的推论只表示规则前件和后件中的项明显地同时出现,而不能说明其必然蕴涵因果关系。关联规则发现:给定事务的集合T,关联规则发现是指找出支持度大于等于minsup并且置信度大于等于minconf的所有规则,其中minsup和minconf是对

4、应的支持度和置信度阈值。挖掘关联规则的一种原始方法是:把每个可能存在的规则的支持度和置信度都计算出来。但是这种方法将会花费相当大的代价,从包含d项的数据集提取的规则的数目可以达指数级3395988.png,但最终大部分规则将被丢弃。因此,对规则事先进行剪枝并拆分其支持度和置信度要求可免于将它们计算出来。例如,涉及同一个项集的{甲,乙,丙}的规则:{甲,乙}{丙},{甲,丙}{乙},{乙,丙}{甲},{甲}{乙,丙},{丙}{甲,乙},{乙}{甲,丙}。如果能够判断出项集{甲,乙,丙}是非频繁的,则可以将这6个候选规则给剪掉,从而能够有效地减少算法开销。因此,通常?用将挖掘任

5、务分解为如下两个主要的过程的挖掘算法:(1)频繁项集产生:寻找满足最小支持度阈值的所有项集作为频繁项集(frequentitemset)。(2)规则的产生:从上一步发现的频繁项集中提取所有高置信度的规则作为强规则(strongrule)。1.2Apriori算法Apriori算法采用通过候选项集产生频繁项集的基础上再由频繁项集产生关联规则的方法,来达到系统地控制候选项集指数增长的目的。首先扫描事务数据库,从中寻找出频繁项集1的集合L1,然后用L1寻找频繁二项集2的集合L2,再用L2找出L3,直到不能再找到频繁项集K为止,来完成了频繁项集的挖掘,其中连接和剪枝是两个最关键的步

6、骤。1.2.1连接(join)合并筛选后的候选k-项集与Lk-1,产生下一个项集支持度。即为寻找Lk,通过Lk-1与自己合并候选k-项集的集合。1.2.2剪枝(prune)由于Ck是Lk的超集,可能有些元素不是频繁的。Ck很大是会带来巨大的计算量,为减少Ck的规模,Apriori遵从下列性质:任何非频繁的(k-1)项集必定不是频繁k-项集的子集。所以,当候选k-项集的某个(k-1)子集不是Lk-1中的成员时,则该候选项集不可能是频繁的,可以从Lk-1中移去。2Apriori算法在图书馆推荐服务中的应用2.1数据预处理对于大量的借阅数据来说,借阅次数较少的读者产生的借阅记录对

7、于关联分析分析没有太大的参考价值,因此在录入数据库时要剔除借阅量少于十本的读者记录,而仅将活跃读者的借阅数据信息录入到数据库中;将在架图书按标准的中图法进行编号归类,分为基于类型的多个借阅记录来避免出现一个较大的数据库,减少一次数据库扫描的容量;在借阅记录中出现借阅两本完全相同的概率很小,关联中只考虑到类别的书籍,而推荐出在此类别中借阅记录最高的一本来处理。设置最小支持度0.0255和最小置信度0.85。以下是部分经提取后的读者借阅信息:将获得到的数据进行变换和分类,得出每个读者的借阅记录2.2对处理的数据通过Ap

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。