欢迎来到天天文库
浏览记录
ID:360303
大小:45.00 KB
页数:5页
时间:2017-07-27
《连续数据的离散化研究[开题报告]》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、(2011届)本科毕业论文(设计)开题报告题 目: 连续数据的离散化研究 学 院: 数学与信息工程学院 专 业: 信息管理与信息系统 班 级: 学 号: 姓 名: 指导教师: 教 务 处 制一、选题的背景、意义21世纪以来,随着科学技术和社会生产力的迅速发展以及人们认识和管理水平的提高,同时伴随着信息化,电子化进程的发展,信息处理在整个社会规模上迅速产业化。同时计算机和信息技术的高速发展给人类社会带来了巨大的变化和影响,数据库
2、管理系统的日益普及,使人们能够非常方便地获取和存储大量的数据,数据成为了最重要的战略资源。如今,随着计算机、网络和通讯等信息技术的高速发展,当今社会已经进入了网络信息时代,计算机技术得到了迅猛的发展,特别是存储技术、数据库技术和网络技术,信息处理在整个社会规模上迅速产业化,在技术表现为整个社会对大规模数据操作的产业化。存储设备单位价格的不断下跌而容量的急剧扩大,关系数据库、对象数据库、多媒体数据库、地理信息数据库和空间数据库的不断成熟并得到广泛的应用,数据库管理系统的日益普及,这使得人们所积累的数据越来越多,并且数据与信息系统中的不确定性更
3、加显著。海量的数据背后隐藏着许多重要的信息,人们希望能够对其进行深入分析,以便更好地利用这些数据所隐藏的信息。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,缺乏挖掘数据背后隐藏知识的手段,导致了“数据爆炸但知识贫乏的现象”。例如,商业上条形码的普遍使用,使得每天很多行业都积累了数以万计的数据,各种同步卫星每小时传回地球的遥感图像数据就达50千兆字节。要把大量的数据作为信息,信息成为知识,知识付诸于应用,已使一些传统的方法感到无能为力。海量的数据背后隐藏着许
4、多重要的信息,人们希望能够对其进行深入分析,以便更好地利用这些数据所隐藏的信息。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,缺乏挖掘数据背后隐藏知识的手段。因此,如何从大量的、杂乱无章的、强干扰的数据中挖掘出潜在的、有利用价值的信息,便成为人类智能信息处理中面临的前所未有的挑战。由此产生了人工智能研究的一个崭新领域一一数据挖掘(DataMining,简称DM)。实际数据库中存在较多的连续型数值属性,而现有的很多数据挖掘方法只能处理离散型的属性,因而需要对
5、连续属性进行离散化。因此,连续属性离散化方法成为数据挖掘领域重要的基础性工作,直接影响到数据挖掘的质量。由于各种相关领域的实际应用的推进,对于连续数据的离散化算法取得了突飞猛进的发展,连续属性的离散化问题被广泛研究,并取得了大量成果,研究人员从不同领域提出了多种离散化方法。连续数据离散化技术在传统的机器学习中被当作边缘性课题而没有受到足够的重视,随着近年来数据挖掘的不断更新发展,数据离散化在数据挖掘技术中渐渐显现出其不可替代的重要性,在规则提取、特征分类等很多算法中,尤其是在应用粗集理论进行数据挖掘的研究中,连续属性数据必须进行离散化。但作
6、为一种相对比较新兴的领域,其现有的算法还远没有达到领人满意的程度。因此,本人认为对连续数据的离散化研究是当今国内的一个重要的课题。为数据挖掘做准备,掌握连续数据的离散化方法并知道各种方法的适用环境对于数据处理是必要的。因此,本次毕业设计选择连续数据的离散化研究的选题。二、研究的基本内容与拟解决的主要问题1.研究的基本内容掌握连续值属性离散化方法的基本思想,设一个具有连续值属性的决策信息系统s=(U,AT∪D),这里U为有限非空的样本集合,称为论域或对象空问,AT是样本空间的非空属性集合,D为决策属性集合,对于每个连续值属性a∈AT,其值域旷
7、是样本空间U在属性a上的取值范围,由实数域上的一段左闭右开的区间[Va,Wa)来表示。对样本空间U的连续值属性离散化的结果就是要在每个连续值属性a的值域Vɑ中寻找一个恰当的划分ɑ,且在划分Pɑ下的系统与初始系统具有相同的决策能力,只将属性值域划分为若干互不相交的子区间,对每个子区间以符号赋值,即得到一组屹上的离散化取值。因为任何划分只是由一组值域屹内的分割点序列(v.8、练掌握其中一种,利用编程工具实现并编写一个连续数据离散化的方法,并用实际的连续数据进行离散化后放置到程序决策树分析方法C4.5中进行测试。2.拟解决的主要问题学习连续数据离散化的
8、练掌握其中一种,利用编程工具实现并编写一个连续数据离散化的方法,并用实际的连续数据进行离散化后放置到程序决策树分析方法C4.5中进行测试。2.拟解决的主要问题学习连续数据离散化的
此文档下载收益归作者所有