SAS编程数据挖掘学习与帮助文档-2.doc

SAS编程数据挖掘学习与帮助文档-2.doc

ID:49615262

大小:40.23 KB

页数:14页

时间:2020-03-02

SAS编程数据挖掘学习与帮助文档-2.doc_第1页
SAS编程数据挖掘学习与帮助文档-2.doc_第2页
SAS编程数据挖掘学习与帮助文档-2.doc_第3页
SAS编程数据挖掘学习与帮助文档-2.doc_第4页
SAS编程数据挖掘学习与帮助文档-2.doc_第5页
资源描述:

《SAS编程数据挖掘学习与帮助文档-2.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、《SAS编程与数据挖掘商业案例》学习笔记之五(2013-07-3120:39:22)转载▼标签:sas数据挖掘应用案例学习笔记merge语句分类:SAS编程六:merge语句的使用(一个指针,一个pdv)merge语句是横向合并数据集,合并前必须两个数据集都要按照合并变量进行排序;procsortdata=chapt3.merge_a;byx;run;procsortdata=chapt3.merge_b;bybx;run;dataed;mergechapt3.merge_a(in=a)chapt3.merge_b(rename=(bx=x)in=b);byx;Ina=a;inb=b;run

2、;以两个数据集的x变量为关键表链两个表相连,由于两个表中都有一个y变量,由于同名b表中的y会覆盖对应匹配到的a中的y的值;七:update语句(一个指针,一个pdv)update在横向合并两个数据集时的方式和merge相似,都是用更新数据集修改主数据集。procsortdata=chapt3.merge_a;byx;run;procsortdata=chapt3.merge_b;bybx;run;dataed;Updatechapt3.merge_achapt3.merge_b(rename=(bx=x));byx;run;update语句一定要和by语句一起;这个by语句给出了主数据集和更

3、新数据集共有的变量;update语句必须先对数据集按照by后面的变量进行排序;主数据集中by后面指定的变量对应的观测值最好是唯一的,因为如果不唯一,则只会替代第一个记录;更新数据集存在的缺失值处理是通过updatemode来完成的,updatemode=missingcheck,则检查修改数据集,若存在缺失值,则保留主数据集中相应数据,该选项为默认值;Updatemode=nomissingcheck,不检查修改数据集,主数据集中相应值一概被替换《SAS编程与数据挖掘商业案例》学习笔记之六(2013-07-3123:59:59)转载▼标签:sas数据挖掘modify语句学习笔记分类:SAS编

4、程八:modify语句((一个指针,两个pdv))merge语句和update语句对数据集横向合并的主要功能还只能体现在匹配访问上,如通过by语句,对每个by组中的匹配数据集进行修改或更新,对于非常庞大的数据集需要定期更新,并且每次更新的观测对象是动态的时候,merge和update会消耗更多的资源,而是用modify可以通过高效的访问机制来实现这个需求。四种语法:1.匹配访问Datamaster_data;modifymaster_datetransaction_data;…;byvariable;Run;注:除非使用output语句,否则data步后面只能接一个数据集,并且modify后

5、面的第一个数据集必须和data步后面的数据集同名;by语句对应的是标识变量,不同于merge和update中的by语句对应的变量需要排序主数据集对应by变量的消除重复值后的集合应该包含更新数据集对应的by变量消除重复值猴岛集合;主数据集有重复时只更新第一条,更新数据集中有重复值时,最后一条起更新作用。2.索引访问Datamaster_data;settransaction_data;modifymaster_datakey=variable;…..;Run;注:更新数据集在主数据集没有找到主数据集key=对应的变量值,系统会设置自动变量_error_值为1,并在日志报错中显示该变量,索引访问

6、和匹配访问的不同点:匹配访问中更新数据集同名变量会自动覆盖主数据集;索引访问会被当做不同的变量;对于更新数据集出现by重复值的处理,索引访问会报错并终止程序,不过可以通过unique来纠正。3.观测序号访问Datamaster_data;settransaction_data;modifymaster_datapoint=variable;…;Run;如果更新数据集在主数据集中没有找到point=对应的变拉直,系统会自动设置自动变量_error_的值为1,另外point=有可能陷入死循环,需要配合stop使用。4.顺序访问Datamaster_data;modifymaster_data;…

7、;Run;注:关于自动变量_iorc_,当运行modify语句时,_iorc_变量自动生成,包含系统每次运行modify语句时返回的I/O操作码,以匹配访问为例,如果主数据集by变量值在更新数据集中存在,自动变量_iorc_返回0,如果主数据集by变量值在更新数据集中不存在,不产生自动变量_iorc_,但是如果更新数据集by变量值在主数据集中不存在,自动变量_iorc_会返回一个非0值。Eg:修改观测值:Da

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。