数据挖掘与生物医学应用作业杨帆.doc

ID：48601022

大小：420.37 KB

页数：10页

时间：2020-01-29

资源描述：

《数据挖掘与生物医学应用作业杨帆.doc》由会员上传分享，免费在线阅读，更多相关内容在行业资料-天天文库。

1、《数据挖掘与生物医学应用》作业姓名：杨帆学号：B110903141.请用分箱方法对向量[3,6,7,15,11,40,33,20,30]进行清除噪声处理。要求是分别使用等深度和等宽度分割，然后再分别使用均值、中值和边界平滑。答：等深度分割：分类一：367分类二：111520分类三：303340均值平滑:555151515343434中值平滑:666151515333333边界平滑:377111120303040等宽度分割：分类一：36711[3,14]分类二：1520[15,26]分类三：303340[27,40

2、]均值平滑：77771818343434中值平滑：77771818333333边界平滑：3331415152727402.用直方图表示价格向量[1,1,5,5,5,6,6,8,8,10,10,10,12,13,13,14,15,16,17,17,17,17,18,18,18,18,18,18,18,18,20,20,22,22,23,23,25,26,26,26,27,27,27,27,27,27,27,30,30,30]。答：1.请用表一所示数据作为训练数据，给出构建分类预测模型的步骤。用表二所示数据作为测试数

3、据，给出预测每个人是否为终身教授(Tenured)的步骤。表一表二答：分为两步：一，构建基于训练数据的模型；在测试样本数据时，我们以样本的Years和Rank两个属相值为评判标准，来获得训练模型。在上述的实验中，我们对表一进行训练，得出模型的训练标准为Rank属性为Professor或者Years属性值大于6时，我们判断该目标的Tenured为Yes，否则，为No二，使用构建模型预测目标的类型或特征值。将表二中的数据带入训练模型，通过判断其Rank和Years属性是否符合判断标准，断定其Tenured属性。则结果

4、：TomRank属性不是Professor且Years属性为2，故其Tenured属性为No；MerlisaRank属性不是Professor但Years属性为7，故其Tenured属性为Yes；GeorgeRank属性是Professor故其Tenured属性为Yes；JosephRank属性不是Professor但Years属性为7，故其Tenured属性为Yes；1.请用年龄、是否为学生以及信用等级为属性构建一棵决策树，用于判断能否批准客户的信用卡申请。答：决策树(DecisionTree）是在已知各种情况

5、发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在本题中，我们对一个目标的年龄、是否为学生以及信用等级来作为判断标准进行评判。在这三个属性中，很明显年龄属性可以包含其余两个属性，因此我们将其作为决策树的根节点。对于大部分人小于30岁的一般为学生或者刚毕业，要对其进行是否学生的评判。30到40岁的人一般都有工作，默认其有能力申请信用卡。而大于40岁的人一般都已经建立了

6、自己的信用等级，可以根据这个判断能否申请信用卡。具体的决策树如下：年龄?>40<3030-40信用等级?学生?是否是优良一般否否否否2.请查阅相关文献后给出决策树发展历史上有哪些重要的决策树算法？并简要描述其基本原理，并给出相关文献的出处。答：（一）：第一个关于决策树的算法[E.B.Hunt,J.Marin,andP.T.Stone’sbook“ExperimentsinInduction”publishedbyAcademicPressin1966]原理：从一个空的决策树出发，通过添加新的判定节点来完善原有的决

7、策树，直到新的决策树能够正确地将训练实例分类为止。它从一组无次序、无规则的元组中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式，在决策树的内部结点进行属性值的比较，并根据不同的属性值从该结点向下分支，叶结点是要学习划分的类。从根到叶结点的一条路径就对应着一条合取规则，整个决策树就对应着一组析取表达式规则。（二）：第一个引起广泛关注的决策树算法--ID3原理：ID3采用贪心方法，其中决策树以自顶向下递归的分治方式构造。大多数决策树归纳算法都沿用这种自顶向下的方法，从训练元组集和它们的相关联的类标号开始构造

8、决策树。随着树的构建，训练集递归地划分成较小的子集。ID3算法中关键的一步是属性选择度量，即选择分裂准则。其中的三种度量方法分别是信息增益、增益率和Gini指标。（示例算法选择了第一种方法）。当获取信息时，将不确定的内容转为确定的内容，因此信息伴着不确定性。出处：[J.R.Quinlan’spaperinabook“ExpertSystemsintheMicroElect

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 10



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

数据挖掘与生物医学应用作业杨帆.doc

数据挖掘与生物医学应用作业杨帆.doc

相关文章

相关标签

数据挖掘与生物医学应用作业 杨帆.doc

数据挖掘与生物医学应用作业 杨帆.doc

相关文章

相关标签

数据挖掘与生物医学应用作业杨帆.doc

数据挖掘与生物医学应用作业杨帆.doc