资源描述:
《数据仓库_数据挖掘在财政系统中的应用_陈化》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、网络出版时间:2015-10-2613:29:04网络出版地址:http://www.cnki.net/kcms/detail/22.1323.N.20151026.1329.060.html30/30长春工程学院学报(自然科学版)2015年第16卷第3期ISSN1009G8984124G128J.ChangchunInst.Tech.(Nat.Sci.Edi.),2015,Vol.16,No.3CN22G1323/Ndoi:10.3969/j.issn.1009G8984.2015.03.030数据仓库、数据挖掘在财政系统中的应用陈化(徐州医学院后勤管理处,江苏徐州221004)
2、摘要:随着技术发展,财政系统信息化建设得到较好发展,各类业务管理系统积累了大量的数据,如何在海量数据中挖掘有用的信息资源,就显得十分迫切.简述了数据仓库、知识发现和数据挖掘的产生、发展及相关技术和应用,研究了聚类算法及聚类分析的度量标准.以聚类算法为例,讲述了针对实际应用中数据挖掘算法的应用改进.提出了应用推广阶段的改进型聚类分析算法,并对某市财政的数据集合进行了实验分析.针对财政决策系统的应用整合问题,选择以某市财政决策管理系统为例,介绍了进行数据挖掘之前要经历的步骤,最后得出了税源户聚类信息.关键词:财政;数据仓库;数据挖掘;聚类;KGMeans中图分类号:TP319文献标志码
3、:A文章编号:1009G8984(2015)03G0124G05们有价值的高层次、多层次的信息.从而使大型数0引言据仓库成为一个丰富、可靠的资源,为知识的提取在信息化时代,财政系统面临着如何从数以[2-3]服务.万计的历年数据中筛选信息、挖掘重要的潜藏信1DW和DM概述息,为财政管理决策者提供必要的信息支持的难题.信息网络技术的飞速发展使得数据库应用有为解决如何对已有的海量数据进行深层有效的了很大的进展.随着数据和数据库的快速增长,组织和应用的问题,产生了数据仓库DW(Data依靠单纯的查询检索机制和统计分析方法已很难Warehouse)及数据挖掘技术DM(DataMining),
4、也满足现实需要.就是知识发现(KnowledgeDiscoveryinDatabasG我国的税收信息化建设已经发挥了一定的作es).用,取得了较大进展,但从税收工作的实际需求来1.1数据仓库(DW)看,税收信息化还有很多不足.主要体现在:1)高技数据仓库是一个面向主题的、集成的、相对稳定[4-5]术与低效益并存;2)高投入与低产出共生,税收成本的数据集合,用于支持管理决策.数据仓库相不但没有减少,反而不断攀升;3)税收业务与信息化对于操作性数据库的优势见表1.发展的不一致;4)设备闲置与紧缺现象并存;5)信息数据仓库概念结构包括:数据源,数据准备区,数收集和数据采集准确性欠佳;6)
5、人才不足是信息化据仓库数据库、数据集市/数据挖掘库和各种管理及[1]建设的“瓶颈”.应用工具.数据仓库在创建以后,首先需要从数据源数据仓库、数据挖掘就是为迎合这种要求而产中抽取所需要的数据到数据准备区,初始数据在数据生并迅速发展起来的,它是对以前的旧数据进行传准备区中经过净化处理后再加载到数据仓库数据库统的检索查询,找出数据彼此之间的内部联系,进行中,最后再根据用户需求把数据发布到数据集市/数[6-7]更高层次的分析.运用数据仓库和数据挖掘,我们据挖掘库中.数据仓库结构如图1所示.就可以从数据库的海量数据集合中抽取整合出对我1.2数据挖掘(DM)数据挖掘是指从数据集中提取出可信的、
6、新颖的、有效的并能被人们理解的模式的非平凡过收稿日期:2015-04-29[8-9]程.数据挖掘的方法有如下几种:作者简介:陈化(1978-),男(汉),江苏徐州,助理实验师主要研究现代教育技术、数据挖掘.1)回归分析(regressionanalysis)是寻求2种以陈化:数据仓库、数据挖掘在财政系统中的应用125然后以每一个原始数据减去该列中的最小值,再除以极差,即得规格化数据.对变量的规格化变换是对数据矩阵的每列数据做规格化变换.设变量X(1≤j≤m,m为变量个j数)为X,x,...,x),x∗表示变换后的规j=(x1j2jnjij格化数据,则变换公式为:xij-min{xi
7、j}∗1≤i≤n,(3)xij=max{xij}-min{xij}1≤i≤n1≤i≤n式中:1≤i≤n(n为样本容量);min{xij}表示1≤i≤n取{x1j,x2j,...,xnj}中最小的元素;max{xij}表示图1数据仓库结构1≤i≤n取{x1j,x2j,...,xnj}中最大的元素.上(含2种)变量之间相互依赖的定量关系的一种统经过规格化变换后,将每列的最大数据变为1,[10]计分析方法.最小数据变为0,其余数据取值在0~1之间.规格[11]化变换后的数据