数据挖掘与生物医学应用作业 杨帆.doc

数据挖掘与生物医学应用作业 杨帆.doc

ID:48601022

大小:420.37 KB

页数:10页

时间:2020-01-29

数据挖掘与生物医学应用作业 杨帆.doc_第1页
数据挖掘与生物医学应用作业 杨帆.doc_第2页
数据挖掘与生物医学应用作业 杨帆.doc_第3页
数据挖掘与生物医学应用作业 杨帆.doc_第4页
数据挖掘与生物医学应用作业 杨帆.doc_第5页
资源描述:

《数据挖掘与生物医学应用作业 杨帆.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、《数据挖掘与生物医学应用》作业姓名:杨帆学号:B110903141.请用分箱方法对向量[3,6,7,15,11,40,33,20,30]进行清除噪声处理。要求是分别使用等深度和等宽度分割,然后再分别使用均值、中值和边界平滑。答:等深度分割:分类一:367分类二:111520分类三:303340均值平滑:555151515343434中值平滑:666151515333333边界平滑:377111120303040等宽度分割:分类一:36711[3,14]分类二:1520[15,26]分类三:303340[27,40

2、]均值平滑:77771818343434中值平滑:77771818333333边界平滑:3331415152727402.用直方图表示价格向量[1,1,5,5,5,6,6,8,8,10,10,10,12,13,13,14,15,16,17,17,17,17,18,18,18,18,18,18,18,18,20,20,22,22,23,23,25,26,26,26,27,27,27,27,27,27,27,30,30,30]。答:1.请用表一所示数据作为训练数据,给出构建分类预测模型的步骤。用表二所示数据作为测试数

3、据,给出预测每个人是否为终身教授(Tenured)的步骤。表一表二答:分为两步:一,构建基于训练数据的模型;在测试样本数据时,我们以样本的Years和Rank两个属相值为评判标准,来获得训练模型。在上述的实验中,我们对表一进行训练,得出模型的训练标准为Rank属性为Professor或者Years属性值大于6时,我们判断该目标的Tenured为Yes,否则,为No二,使用构建模型预测目标的类型或特征值。将表二中的数据带入训练模型,通过判断其Rank和Years属性是否符合判断标准,断定其Tenured属性。则结果

4、:TomRank属性不是Professor且Years属性为2,故其Tenured属性为No;MerlisaRank属性不是Professor但Years属性为7,故其Tenured属性为Yes;GeorgeRank属性是Professor故其Tenured属性为Yes;JosephRank属性不是Professor但Years属性为7,故其Tenured属性为Yes;1.请用年龄、是否为学生以及信用等级为属性构建一棵决策树,用于判断能否批准客户的信用卡申请。答:决策树(DecisionTree)是在已知各种情况

5、发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在本题中,我们对一个目标的年龄、是否为学生以及信用等级来作为判断标准进行评判。在这三个属性中,很明显年龄属性可以包含其余两个属性,因此我们将其作为决策树的根节点。对于大部分人小于30岁的一般为学生或者刚毕业,要对其进行是否学生的评判。30到40岁的人一般都有工作,默认其有能力申请信用卡。而大于40岁的人一般都已经建立了

6、自己的信用等级,可以根据这个判断能否申请信用卡。具体的决策树如下:年龄?>40<3030-40信用等级?学生?是否是优良一般否否否否2.请查阅相关文献后给出决策树发展历史上有哪些重要的决策树算法?并简要描述其基本原理,并给出相关文献的出处。答:(一):第一个关于决策树的算法[E.B.Hunt,J.Marin,andP.T.Stone’sbook“ExperimentsinInduction”publishedbyAcademicPressin1966]原理:从一个空的决策树出发,通过添加新的判定节点来完善原有的决

7、策树,直到新的决策树能够正确地将训练实例分类为止。它从一组无次序、无规则的元组中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较,并根据不同的属性值从该结点向下分支,叶结点是要学习划分的类。从根到叶结点的一条路径就对应着一条合取规则,整个决策树就对应着一组析取表达式规则。(二):第一个引起广泛关注的决策树算法--ID3原理:ID3采用贪心方法,其中决策树以自顶向下递归的分治方式构造。大多数决策树归纳算法都沿用这种自顶向下的方法,从训练元组集和它们的相关联的类标号开始构造

8、决策树。随着树的构建,训练集递归地划分成较小的子集。ID3算法中关键的一步是属性选择度量,即选择分裂准则。其中的三种度量方法分别是信息增益、增益率和Gini指标。(示例算法选择了第一种方法)。当获取信息时,将不确定的内容转为确定的内容,因此信息伴着不确定性。出处:[J.R.Quinlan’spaperinabook“ExpertSystemsintheMicroElect

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。