欢迎来到天天文库
浏览记录
ID:14569012
大小:2.55 MB
页数:80页
时间:2018-07-29
《clementine数据的读入》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、Clementine数据的读入Clementine数据的读入Clementine数据挖掘是通过数据流方式实现的数据流的核心是数据数据流都是从数据的读入开始,然后是数据的加工管理,继而是数据的建模,最后以模型评价结束。2.1变量的类型变量是数据读入和分析的基本单位明确变量的类型是数据管理和挖掘的第一步,是实现数据正确加工和分析的前提变量类型可以从数据挖掘和数据存储两个角度划分2.1.1从数据挖掘角度看变量类型从数据挖掘角度看,变量类型反映了其代表事物的某种特征的类型。从计量层次方面归纳,变量通常包括以下类型,即数
2、值型变量、定类型变量和定序型变量,后两个类型也统称为分类型变量。例如表示客户年龄、家庭人口数的变量是数值型变量表示性别、职业的变量是定类型变量表示学历和收入水平的变量是定序型变量2.1.1从数据挖掘角度看变量类型为更细致地反映事物类型,Clementine将变量类型进一步细分为:连续数值型(Range),如年龄离散数值型(Discrete),如家庭人口数二分类型(Flag),如性别多分类型(集合,Set),如职业定序型(OrderedSets),如学历和收入水平缺省型(Default):缺省型是一种尚未明确的变
3、量类型2.1.1从数据挖掘角度看变量类型缺省型:用户定义变量时,如仅指定了变量名称而没有输入或读入具体的变量值,此时系统并不能确定该变量的具体类型,于是默认其为缺省型。系统称这样的变量为非实例化变量。当用户输入或读入变量值后,系统将根据所输入数据自动将缺省型改为上述其他类型,此时称变量已被实例化。2.1.1从数据挖掘角度看变量类型无类型型(Typeless):对变量值为文字等复杂数据的变量,系统无法将其归到上述前五种类型中,所以指定为无类型型。无类型型变量通常不参与数据建模。2.1.2从数据存储角度看变量类型从
4、数据存储角度看,变量类型反映了数据在计算机中的存储方式。从存储所占用字节上归纳,变量通常包括以下类型整数型(Interger)实数型(Real)字符串型(String)时间型(Time)日期型(Date)时间戳型(TimeStamp)2.1.2从数据存储角度看变量类型时间型和时间戳型的数据表示形式相同,如01:25:30,但含义不同。时间型表示所持续的时间,如时间持续了1小时25分30秒时间戳型则表示某个时刻,如某人登录服务器的时间是1点25分30秒。2.2读入数据数据挖掘中数据量通常较为庞大,一般存储在数据库
5、中,或者以文本或其他类型的文件形式存储。数据流都是以从外部读入数据开始的,数据读入的节点放置在节点工具箱的数据源选项卡中,支持自由格式的文本文件固定格式的文本文件SPSS数据文件、SAS数据集Excel电子表格数据库文件读自由格式的文本文件自由格式通常一行数据为一个样本每行数据有相同的列,分别依次对应不同的变量列之间以逗号等分隔符分隔变量名一般存储在文件的第一行上读自由格式的文本文件应通过源选项卡中的可变文件节点实现读自由格式的文本文件下面以药物研究数据为例,该数据是自由格式的文本,文件名为DRUG.txt。首
6、先,选择源选项卡中的可变文件选项节点并将其放置到数据流编辑区域中,右击鼠标,选择弹出菜单中的编辑选项,显示的参数设置窗口如下图所示读自由格式的文本文件可变文件节点的参数设置窗口包含文件、数据、筛选、类型和注释五个选项卡。文件选项卡:指定所读入数据的基本格式。主要参数的含义如下。文件:指定读入文本文件所在的文件夹和文件名读自由格式的文本文件文件选项卡:指定所读入数据的基本格式。其中主要参数的含义如下。读取文件中的字段名:如果文件中的第一行是变量名,则选择该项;否则不选。指定字段数:指定文件中包含几个变量列。由于文
7、件中的列是以分隔符分隔的,系统可依此自动判断列数,该选项通常忽略。读自由格式的文本文件文件选项卡:指定所读入数据的基本格式。在定界符中指定文件中的列分隔符(一般为逗号)和行分隔符(通常为新行)。读自由格式的文本文件其余参数包括指定文件中数据开始前是否有几个说明性的字符,读入数据时应跳过指定压缩各列的前置空格和后置空格对无效数据是忽略处理还是替换为指定的数值等数据选项卡指定所读入数据的基本类型等。数据选项卡显示将读入数据的变量名,以及系统根据数据判断出的变量存储类型。如需修改,先在某变量行的覆盖项上画勾,然后下拉
8、存储框,选择所需的存储类型。过滤选项卡过滤选项卡:指定读数据时不读哪些变量并可重新修改变量名。如不希望读入某变量,只需单击相应行的过滤项,打×即可。类型选项卡指定所读数据的变量类型、变量取值范围等信息允许指定变量缺省值,对取值合理性进行检查,以及指定变量角色等类型选项卡数据尚未读入时,系统粗略的判读变量的计量类型通过读取值按钮读入数据,得到变量的准确类型和变量取值范围,称为对节点进行实
此文档下载收益归作者所有