欢迎来到天天文库
浏览记录
ID:58635682
大小:50.08 KB
页数:34页
时间:2020-10-17
《《数据科学导论》复习资料.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、《数据科学》课程期末复习资料《数据科学》课程讲稿章节目录:第一章导论第一节了解数据科学的基本概念第二节了解数据科学的应用第三节了解数据科学的过程第四节掌握数据科学的方法第二章数据获取及预处理第一节了解获取数据的途径和方法第二节掌握数据质量检验的方法第三节掌握数据清洗第四节掌握数据集成第五节掌握数据规约第六节掌握数据变换第三章数据分析第一节了解探索性数据分析的概念第二节掌握单变量分析方法第三节掌握多变量分析方法第四节掌握样本相似性与相异性分析的方法第四章特征工程第一节了解特征的介绍和创建过程第二节了解降
2、维的基本概念第三节掌握主成分分析-PCA第四节掌握奇异值分解-SVD第五节了解特征选择的基本概念第六节掌握过滤式方法第七节了解产生特征子集的搜索策略第八节了解封装式方法第九节了解嵌入式方法第五章关联规则算法第一节了解关联规则的基本概念第二节掌握频繁项集的产生过程第三节掌握Apriori算法第六章分类算法第一节了解分类问题基本概念第二节掌握k近邻算法第三节了解贝叶斯定理第四节掌握朴素贝叶斯第五节了解决策树的基本概念第六节了解决策树-特征选择第七节了解决策树-剪枝算法第七章线性回归算法第一节了解线性回归的
3、基本概念第二节掌握一元线性回归第三节掌握多元线性回归第八章人工神经网络第一节了解神经网络的基本概念第二节掌握感知机的学习算法第三节掌握多层感知机-反向传播算法第九章聚类算法第一节了解聚类问题的介绍第二节掌握层次聚类第三节掌握K-means聚类第四节了解BFR聚类一、客观部分:(单项选择、判断)(一)、选择部分1、通过构造新的指标-线损率,当超出线损率的正常范围,则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的(C)A.简单函数变换B.规范化C.属性构造D.连续属性离散化★考核知识点:数
4、据变换参见讲稿章节:2-6附1.1.1(考核知识点解释):数据变换是对数据进行规范化处理,将数据转换成“适当的”形式,更适用于任务及算法需要。包括简单函数变换、规范化、属性构造、连续属性离散化等。简单函数变换:对原始数据进行某些数学函数变换,常用来将不具有正态分布的数据变换成具有正态分布的数据。比如个人年收入的取值范围为10000元到10亿元,区间太大使用对数变换对其进行压缩是常用的一种变换处理方法。规范化:不同评价指标具有不同的量纲,数值间的差别可能很大。为了消除量纲和差异的影响,需要进行标准化处理
5、。将数据按照比例进行缩放,落入特定区域,便于进行综合分析。例如将工资收入属性值映射到[-1,1]或者[0,1]内属性构造:利用已有的属性集构造新的属性,加入到现有的属性集合,提高结果精度,挖掘更深层次模式。连续属性离散化:在数据的取值范围内设定若干个离散的划分点,将取值范围划分为一些离散化的区间,最后用不同的符号或整数值代表落在每个子区间中的数据值。2、实体识别属于以下哪个过程(B)A.数据清洗B.数据集成C.数据规约D.数据变换★考核知识点:数据集成参见讲稿章节:2-4附1.1.2(考核知识点解释)
6、:数据集成是将多个数据源合并,存放在一个一致的数据存储(如数据仓库)中。数据集成是数据预处理的一部分。数据预处理通常包括数据清洗、数据集成、数据规约和数据变换。其中:数据清洗一般包括缺失值处理和异常值处理。数据集成一般包括实体识别和冗余属性识别。数据规约一般包括属性规约和数值规约。数据变换一般包括简单函数变换、规范化、属性构造等。3、数据质量检验的主要任务就是检查原始数据中是否存在“脏数据”,概括性来说,脏数据不包括以下(A)A.普通值B.异常值C.不一致的值D.重复值★考核知识点:数据质量检验参见讲
7、稿章节:2-2附1.1.3(考核知识点解释):对于数据分析而言,只有一份高质量的基础数据,才可能得到正确、有用的结论。期望数据完美是不现实的,因为会受到人的错误、测量设备的限制、数据收集过程的漏洞等因素影响。比如以下情况都可能导致问题:数据的值、整个数据对象都可能会丢失,可能有不真实的或重复的对象,可能有不一致的对象。数据质量检验的主要任务就是检查原始数据中是否存在以上的“脏数据”。概括性来说,脏数据主要包括四点:缺失值、异常值、不一致的值、重复值。4、决策树在什么情况下结点需要划分(D)A.当前结点
8、所包含的样本全属于同一类别B.当前属性集为空,或是所有样本在所有属性上取值相同C.当前结点包含的样本集为空D.还有子集不能被基本正确分类★考核知识点:决策树参见讲稿章节:6-5附1.1.4(考核知识点解释):决策树学习算法流程1.构建根结点node,将所有的训练数据都放在根结点。2.选择一个最优特征,按照这一特征将训练数据集分割成子集,使得各个子集有一个在当前条件下的最好分类。3.如果这些子集已经能够被基本正确分类,那么构建叶结点,并将这些子集分到所对应
此文档下载收益归作者所有