欢迎来到天天文库
浏览记录
ID:83586870
大小:22.87 KB
页数:26页
时间:2024-09-01
《大数据分析与预测技术智慧树知到课后章节答案2023年下山东财经大学.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
大数据分析与预测技术智慧树知到课后章节答案2023年下山东财经大学山东财经大学第一章测试1.以下哪些情景可以使用大数据分析与预测建模技术?A:预测某移动运营商客户转移到竞争对手的可能性B:保险公司的骗保分析C:统计某零售超市一个月内哪类牛奶的销量最大D:预测电商网站某商品未来的销售量答案:预测某移动运营商客户转移到竞争对手的可能性;保险公司的骗保分析;预测电商网站某商品未来的销售量2.有关大数据分析与预测的过程认识正确的是?A:大数据分析与预测一般需要人的参与,只要把数据输入合适的算法就可以得到有用的结果。B:大数据分析与预测的问题一般都是用户给定的,因此不需要与用户交流和调研。C:大数据分析与预测得到的结果需要通过检验样本的测试,甚至需要在现实中实验才能投入使用。D:A零售企业的客户行为数据分析得到的规律也可以直接用于B零售企业。答案:大数据分析与预测得到的结果需要通过检验样本的测试,甚至需要在现实中实验才能投入使用。3.有关数据质量的认识正确的是?A:有些机器学习算法具有比较强的抗噪型,因此不需要预处理也能得到有用的规律。B:数据质量一般可以由机器自动完成,不需要数据分析人员参与。 C:各种数据质量问题对机器学习算法的影响很大,因此需要充分预处理才能进入建模阶段。D:数据预处理就是删除有问题的数据。答案:各种数据质量问题对机器学习算法的影响很大,因此需要充分预处理才能进入建模阶段。1.下面有关机器学习正确的说法是?A:在机器学习过程中,需要人的经验指导数据的选择、噪声的消除、合适算法的选择以及调参等工作。B:机器学习就是简单的统计分析。C:每种机器学习算法都有一定的使用范围,只能处理某类数据和问题。D:机器学习可以从有限的样本数据中得到有用的规律,并能对新样本进行一定的泛化预测。答案:在机器学习过程中,需要人的经验指导数据的选择、噪声的消除、合适算法的选择以及调参等工作。;每种机器学习算法都有一定的使用范围,只能处理某类数据和问题。;机器学习可以从有限的样本数据中得到有用的规律,并能对新样本进行一定的泛化预测。2.组织通过销售数据或洞察以创造新的收入来源,这属于大数据应用成熟度的哪一个阶段?A:业务监控B:数据货币化C:业务转型D:业务优化答案:数据货币化3.如果以药品B来代替药品A的使用,那么这个病人生存的几率有多大?这种分析属于A:预测性分析B:描述性分析C:诊断性分析D:规范性分析答案:预测性分析4.NoSQL数据库作为非关系型数据库,只能够用来存储非结构数据。 A:错B:对答案:错1.根据患者的视网膜图像等相关医疗信息,使用机器学习算法进行建模,预测患者患糖尿病的可能性。这个任务需要以下使用哪一类机器学习算法?A:无监督学习B:监督学习C:诊断性分析D:统计分析答案:监督学习2.大数据分析的预测建模任务主要包括哪几大类问题?A:回归B:模式发现C:关联分析D:分类答案:回归;关联分析;分类3.下列哪些分析需要机器学习?A:预测移动运营商用户未来使用的网络流量B:比较不同移动运营商用户对漫游业务的使用量C:寻找移动运营商用户对某类套餐使用的潜在客户D:统计移动运营商的用户在某段时间对短信的使用数量答案:预测移动运营商用户未来使用的网络流量;寻找移动运营商用户对某类套餐使用的潜在客户;统计移动运营商的用户在某段时间对短信的使用数量第二章测试4.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务? A:分类和预测B:数据预处理C:频繁模式挖掘D:数据流挖掘答案:数据预处理1.下面哪个步骤不属于数据预处理的过程?A:数据归约B:数据转换C:分类和预测D:数据清洗答案:分类和预测2.下面哪种不属于数据预处理的方法?A:估计遗漏值B:变量代换C:聚集D:离散化答案:估计遗漏值3.以下哪种方法不属于特征选择的标准方法A:过滤B:嵌入C:抽样D:包装答案:抽样4.下面不属于创建新属性的相关方法的是A:特征构造B:映射数据到新的空间C:特征修改D:特征提取答案:特征修改5.数据清洗包括以下哪几个方面?A:缺失数据处理方法B:噪声数据平滑技术C:按标准差进行的标准化D:时间相关数据的处理答案:缺失数据处理方法;噪声数据平滑技术;时间相关数据的处理 1.以下哪几个是数据归约的策略?A:数据立方体聚集B:离散化和概念分层产生C:维度归约D:数值归约E:数据压缩答案:数据立方体聚集;离散化和概念分层产生;维度归约;数值归约;数据压缩2.以下哪些是数据离散化技术?A:分箱技术B:饼图分析C:ChiMerge技术D:基于熵的离散化答案:分箱技术;ChiMerge技术;基于熵的离散化3.特征选择的目标有哪些?A:挖掘多个抽象层上的数据B:更好地理解生成数据的基本过程C:提高数据挖掘模型的性能D:提供更快、性价比更高的学习过程答案:更好地理解生成数据的基本过程;提高数据挖掘模型的性能;提供更快、性价比更高的学习过程4.特征选择算法一般分为那几类?A:特征排列算法B:基于熵的离散化C:子集选择算法D:分箱技术答案:特征排列算法;子集选择算法第三章测试5.有关决策树的说法哪个是错误的? A:对新样本起到分类预测的作用B:可以转化为决策规则C:决策树的算法和神经网络的原理不一样D:决策树的深度越大越好答案:决策树的深度越大越好1.有关决策树与特征工程的关系,以下说法错误的是?A:决策树获得的特征是区分不同类别的最优特征。B:如果要了解影响签署合同快慢的主要因素,可以使用决策树算法。C:决策树获得的特征可以作为其他算法(例如回归算法的自变量)输入的依据。D:决策树可以得到对分类重要的属性,因此可以作为分类特征获取的一种方法。答案:决策树获得的特征是区分不同类别的最优特征。2.下面有关支持向量机错误的说法是?A:支持向量机一般处理两分类的问题。B:支持向量机既可以处理线性可分的问题,也可以处理非线性可分的问题。C:支持向量机是把高维的数据投影到低维的空间进行分类。D:对于小样本集,支持向量机的分类准确度可能优于其他对样本数量要求比较高的分类算法。答案:支持向量机是把高维的数据投影到低维的空间进行分类。3.以下哪些不是贝叶斯网络的应用场景?A:招聘人才选拔规则B:根据客户消费行为对其进行分组C:中文分词D:机器故障诊断答案:招聘人才选拔规则;根据客户消费行为对其进行分组4.下面有关线性判别分析错误的说法是哪个? A:提高不同类样本的可分性。B:线性判别分析中线性变换可以使同类样本的方差变大。C:线性变换可以使不同类别样本的距离加大。D:通过对原始的数据进行线性变换,使得不同类的样本尽量分开。答案:线性判别分析中线性变换可以使同类样本的方差变大。1.下面有关随机森林的说法哪个是错误的?A:类似装袋法的样本抽样方法,保证每棵树的学习样本集的多样性。B:随机森林是一种集成算法,可以使用CART等基学习器提高分类的性能。C:随机森林训练后只需选择性能最好的树最为预测模型。D:每颗树都是从属性集随机抽取一定数目的属性作为候选的特征。答案:随机森林训练后只需选择性能最好的树最为预测模型。2.如果发现决策树模型的检验结果达不到要求,可以执行下面哪些方法进行改进?A:采用多种算法组合。B:补充或调整样本的选择,并加强样本的预处理。C:对算法的选择以及参数的调整进行优化。D:修改用户的需求。答案:采用多种算法组合。;补充或调整样本的选择,并加强样本的预处理。;对算法的选择以及参数的调整进行优化。3.以下哪个算法不是基于规则的分类器?A:C4.5B:贝叶斯分类器C:ID3D:C5.0答案:贝叶斯分类器4.如果从员工的日常表现数据预测其升职的可能性可以使用下面哪种机器学习方法? A:决策树类算法B:聚类分析C:线性回归分析D:关联分析答案:决策树类算法1.以下哪个指标不能用于决策树的性能评价指标?A:ROC曲线下的面积AUCB:召回率C:准确率D:决策树规则的数目答案:决策树规则的数目2.以下关于人工神经网络(ANN)的描述正确的说法是?A:只能用于分类B:神经网络对训练数据中的噪声不敏感,因此数据质量可以差一些也没关系C:训练ANN是一个很耗时的过程D:不能确定输入属性的重要性答案:训练ANN是一个很耗时的过程3.神经网络由许多神经元(Neuron)组成,下列关于神经元的陈述中哪一个是正确的?A:一个神经元可以有一个输入和多个输出B:其他选项都正确C:一个神经元可以有多个输入和一个输出D:一个神经元可以有多个输入和多个输出答案: 其他选项都正确1.有关前馈神经网络的认识正确的是?A:神经网络模型的分类能力比决策树好B:神经网络可用于分类和聚类C:神经网络训练过程是拟合训练数据模式的过程D:神经网络训练后很容易得到分类的规则答案:神经网络训练过程是拟合训练数据模式的过程2.下面关于感知机的说法中正确的是?A:其他都不对B:某一神经元可以连接下一层的多个神经元,表示该神经元有多个输出C:单个感知机是线性回归的训练过程D:在感知机中引入激活函数可以解决与异或问题(XOR)答案:单个感知机是线性回归的训练过程3.在一个神经网络里,确定每一个神经元的权重和偏差是模型拟合训练样本的目标,比较有效的办法是什么?A:赋予一个初始值,然后迭代更新权重,直至代价函数取得极小。B:根据人工经验随机赋值。C:搜索所有权重和偏差的组合,直到得到最佳值。D:其他选项都不正确 答案:赋予一个初始值,然后迭代更新权重,直至代价函数取得极小。1.有关神经网络训练时使用的学习率参数说法正确的是A:学习率可以随着训练误差动态调整效果更好。B:学习率可以与其他网络参数一起训练,对降低代价函数是有利的。C:网络训练时刚开始学习率可以大一些,以便提高学习速度,随后应减少学习率,以免引起学习震荡。D:学习率过大更容易导致训练陷入局部极小值。答案:学习率可以随着训练误差动态调整效果更好。;学习率可以与其他网络参数一起训练,对降低代价函数是有利的。;网络训练时刚开始学习率可以大一些,以便提高学习速度,随后应减少学习率,以免引起学习震荡。2.激活函数通过具有以下哪些性质?A:计算简单B:可微性C:非线性D:单调性答案:计算简单;可微性;非线性;单调性3.在神经网络训练中,有关学习率调整说法错误的是?A:学习率可以根据损失函数(代价函数)减少的快慢动态调整。B:学习率太小会使神经网络的训练迅速达到极小值。C:固定学习率设置太大可能会使神经网络训练震荡不收敛。D:学习率设置不当会引起神经网络过拟合。答案:学习率太小会使神经网络的训练迅速达到极小值。;学习率设置不当会引起神经网络过拟合。4.减少神经网络过拟合可以通过增加网络的神经元个数或层数解决。 A:错B:对答案:错1.BP神经网络在训练过程中,损失函数可能比较大,但随着训练的进行,损失函数基本不变化了,这种现象说明神经网络陷入全局最优解A:错B:对答案:错第四章测试2.以下哪些数据的特征会对聚类有影响?A:噪声B:样本规模C:离群点D:高维性答案:噪声;样本规模;离群点;高维性3.有关聚类算法不正确的说法是?A:聚类算法可以找出每组样本不同的特征B:聚类是分类的基础C:必须给出聚类的组数D:把分析的样本根据距离分组答案:必须给出聚类的组数4.聚类是一类重要的机器学习算法,以下哪些场景不属于聚类问题?A:判断一个网络访问是否为入侵访问。B:根据学生的成绩,给出学生的名次。C:对数据库的论文根据内容主题的不同做划分。D:某网商对客户的购物行为进行分析,从而分析不同组用户的偏好。 答案:判断一个网络访问是否为入侵访问。;根据学生的成绩,给出学生的名次。1.对联通客户进行分组,以便根据各组的特点,策划不同的营销方案,需要客户哪些数据?A:家庭男女组成B:客户长途市话以及漫游等通话数据C:收入数据D:客户人口数据答案:家庭男女组成;客户长途市话以及漫游等通话数据;客户人口数据2.下列说法错误的是?A:在聚类分析中,簇之间的相似性越大,簇内样本的差别越大,聚类的效果就越好B:聚类分析可以看作是一种非监督的样本分组过程C:k均值算法是一种常用的聚类算法,簇的个数算法不能自动确定D:k均值算法的计算耗时与初始假设聚类中心的位置有关答案:在聚类分析中,簇之间的相似性越大,簇内样本的差别越大,聚类的效果就越好3.有关聚类的算法,正确的说法有以下哪些?A:自底向上的层次聚类算法对样本的输入顺序比较敏感。B:类似Kmeans基于划分的聚类与基于层次的聚类都是样本的距离为划分基础。C:聚类的簇密度指样本的个数多少。D:聚类的结果要考虑业务的可解释性。答案:类似Kmeans基于划分的聚类与基于层次的聚类都是样本的距离为划分基础。;聚类的结果要考虑业务的可解释性。4.有关k-means下列说法正确的是?A:适合任意数据集的分组B:聚类的结果与初始选择的假设聚类中心有关 C:可以确定样本属性的重要性D:可以处理凸型分布数据的聚类答案:可以处理凸型分布数据的聚类1.根据用户使用移动运营商的数据,可以为他们设计合适的套餐,使用哪种挖掘方法比较合适?A:聚类B:神经网络C:回归分析D:关联分析答案:聚类2.对于Kmeans而言,不同的初始聚类中心选择可能导致不同的聚类结果。A:错B:对答案:对3.在kmeans的训练过程中,可以选择不同的k值,比较使绝对误差标准较小的k值,结合聚类业务的可解释性,从而选择合适的k值。A:对B:错答案:对第五章测试4.以下有关关联算法错误的说法是哪个?A:提升度是强关联规则的一个必要条件。B:关联算法主要由2个步骤组成:首先是求频繁项目集,然后再筛选满足最小置信度的关联规则。C:关联算法是一种非监督学习算法。D:关联算法可用于分析新闻库中经常一起出现的人物。答案:提升度是强关联规则的一个必要条件。 1.以下哪种情景最不适合用关联分析?A:在警务领域,发现有些罪犯会在一次犯罪的过程中实施多种罪行。B:根据以前的股价预测未来的股价。C:在医疗诊断领域,对一种疾病确诊时提醒其他疾病的可能性。D:分析一个论文集中相关的研究主题。答案:根据以前的股价预测未来的股价。2.在频繁项目集的分析过程中,以下说法哪种是正确的?A:如果一个项目集是非频繁的,那么它的子集肯定不是频繁的。B:频繁项目集的交集肯定是频繁的。C:FP增长算法计算频繁项目集仅仅扫描1次样本集。D:两个频繁项目集的并集也一定是频繁的。答案:频繁项目集的交集肯定是频繁的。3.以下有关关联分析的说法,正确的是哪些?A:关联分析本身就是一种推荐方法,用于网商商品的推荐,理由是购买某种商品的人在同次购物也可能会买其他商品。B:关联分析的结果表明在同次事务中,有关联的项目存在因果关系。C:提升度可以帮忙改进某些商品的推荐或营销效果。D:关联分析就是相关性分析。答案:关联分析本身就是一种推荐方法,用于网商商品的推荐,理由是购买某种商品的人在同次购物也可能会买其他商品。;提升度可以帮忙改进某些商品的推荐或营销效果。4.以下哪些领域可比较适合使用关联分析?A:从公司应聘的候选人中选择可能适合某岗位的候选人。B:预测贷款的人群中哪些人可能会产生坏账。 C:分析网上商品的评论和评分数据,讨论什么样的商品容易得到好的评分。D:从学生评教数据中,找到评分较好的课程相关重要因素。答案:分析网上商品的评论和评分数据,讨论什么样的商品容易得到好的评分。;从学生评教数据中,找到评分较好的课程相关重要因素。1.有关Apriori算法和FP-增长算法,正确的说法有哪些?A:对于同样的样本集和算法参数(支持度和置信度等),Apriori算法的速度一般要慢于FP增长算法。B:对于Apriori算法和FP增长算法,随着最小支持度的提高(最小置信度不变),得到的关联规则数会增加。C:Apriori算法发现的关联规则要比FP增长算法多,因为前者扫描的次数多。D:对于同一个样本集,Apriori算法和FP增长算法的结果是相同的。答案:对于同样的样本集和算法参数(支持度和置信度等),Apriori算法的速度一般要慢于FP增长算法。;对于同一个样本集,Apriori算法和FP增长算法的结果是相同的。2.假设{花生,啤酒,可乐,牛奶}项目集的支持度大于最小支持度,请问下面哪些项目集的支持度一定能达到最小值支持度要求?A:{啤酒,可乐}B:{花生,啤酒}C:{花生,可乐,土豆}D:{花生,啤酒,可乐}答案:{啤酒,可乐};{花生,啤酒};{花生,啤酒,可乐}3.下面哪个通常不是关联算法的应用领域?A:分析文档集是否有一定数量的文档含有某2个主题B:分析某些用户一次访问网站购买的商品C:分析论坛用户是否在一次访问中浏览了不同版面的帖子D:分析信用卡欺诈答案:分析信用卡欺诈 1.关联规则中前向和后项存在因果关系才能投入使用。A:对B:错答案:错2.关联规则是有方向的,A->B与B->A的支持度相同,它们的置信度也相等。A:错B:对答案:错第六章测试3.常用的异常检测算法有哪些?A:KNN(K-最近邻)B:基于聚类的方法C:高斯分布建模D:分类算法答案:KNN(K-最近邻);基于聚类的方法;高斯分布建模4.下面这些场景中哪些用到异常检?A:系统入侵异于正常用户登录行为检测入侵异常B:使用传感器采集油气井的地球物理数据,构建预测模型预测油气井产量C:利用公交车上手机位置数据,优化车辆调度和交通实时讯息D:从盗窃信用卡的人的购买行为不同于信用卡持有者分析信用卡欺诈答案:系统入侵异于正常用户登录行为检测入侵异常;从盗窃信用卡的人的购买行为不同于信用卡持有者分析信用卡欺诈5.基于统计方法的异常检测有以下哪些局限性?A:高维空间里,数据是稀疏的,邻近度变得没意义 B:对于高维数据难以估算其真实分布C:大多数统计模型检验只是针对单个特征D:许多情况下数据对象的分布是未知的答案:对于高维数据难以估算其真实分布;大多数统计模型检验只是针对单个特征;许多情况下数据对象的分布是未知的1.基于邻近度的异常检测算法的局限性有哪些?A:高维空间里,数据是稀疏的,邻近度变得没意义B:对于高维数据难以估算其真实分布C:参数k选择困难D:对参数k选择敏感,如k太小,少量的邻近点导致离群点得分较低,而k太大,则点数少于k的数据点都可能成为离群点答案:高维空间里,数据是稀疏的,邻近度变得没意义;对参数k选择敏感,如k太小,少量的邻近点导致离群点得分较低,而k太大,则点数少于k的数据点都可能成为离群点2.以下哪个场景用到基于统计方法的异常检测?A:正常数据出现在高密度邻域,异常数据则远离其最近邻B:正常数据出现在随机模型的高概率区域,异常数据则位于随机模型的低概率区域C:正常数据出现在高密度邻域,异常数据位于稀疏邻域D:高维空间里,数据是稀疏的答案:正常数据出现在随机模型的高概率区域,异常数据则位于随机模型的低概率区域3.下面哪个是基于密度的方法算法的局限性?A:对于高维数据难以估算其真实分布B:不能处理不同密度区域的数据集C:参数k选择困难D:许多情况下数据对象的分布是未知的答案:参数k选择困难 1.高维空间里,数据是稀疏的,我们会用到以下哪种异常检测的方法A:支持向量机B:基于统计方法C:基于密度的方法D:基于邻近度的方法答案:基于密度的方法2.异常检测(Anomalydetection)是发现与大部分其他对象不同的对象,所以又成为离群点检测A:对B:错答案:对3.数据分析任务通常是去掉离群点,离群点是没有意义的点A:错B:对答案:错4.在基于邻近度的方法中,离群点的定义不包括以下哪个?A:一个对象的离群点得分是该对象周围密度的逆B:到K个最近邻平均距离最大的前n个数据点为离群点C:在距离D内,最近邻点数少于P的数据点为离群点D:到第K个最近邻的距离最大的前n个数据点为离群点答案:一个对象的离群点得分是该对象周围密度的逆第七章测试5.有关文本特征的理解,错误的说法是哪个?A:文本不方便直接处理,需要提取表征内容的特征数值化。B:one-hot可以表示一个词的重要性。C: TF-IDF和互信息都是文本特征提取的方法。D:信息增益是文本特征提取的方法。答案:one-hot可以表示一个词的重要性。1.下面哪个选项不是文本分析的组成?A:语义分析B:词法分析C:句法分析D:文本翻译答案:文本翻译2.有关文本分析的说法,正确的是哪些?A:从一个word文档中查询是否包含某个词汇属于文本分析。B:处理文本分类需要经历原始文本的提取、分词等预处理、特征提取与表示、分类模型构建以及评估等阶段。C:从一个文本集中查询包含某些主题的文本也属于文本分析。D:文本属于非结构化数据,因此需要经过预处理转化为向量等结构才方便处理。答案:处理文本分类需要经历原始文本的提取、分词等预处理、特征提取与表示、分类模型构建以及评估等阶段。;从一个文本集中查询包含某些主题的文本也属于文本分析。;文本属于非结构化数据,因此需要经过预处理转化为向量等结构才方便处理。3.以下有关文本分词的说法正确的是哪个?A:英文文本不需要分词。B:分词算法都需要一个词典。C:分词合适与否不会引起句子的歧义。D:基于统计的分词方法的性能与训练语料库的质量密切相关。答案:基于统计的分词方法的性能与训练语料库的质量密切相关。4.下面有关向量空间模型(VSM)的描述中,错误的是哪个? A:文本特征词的向量权重可通过TF-IDF实现,从而保留文本词序结构信息B:以向量来表示文档后,两者的夹角余弦值越小说明相似度越高C:基于向量的文本相似度计算中,除了内积外,还可以用夹角余弦等方法D:在向量空间模型中,当有新文档加入时,需要重新计算特征词的权重答案:文本特征词的向量权重可通过TF-IDF实现,从而保留文本词序结构信息1.下面哪种方法是文本特征获取的方法?A:信息增益B:卡方统计量C:互信息D:one-hot表示法答案:信息增益;卡方统计量;互信息2.面关于词法分析的描述中,正确的说法有哪些?A:语义角色标注关注句子主要谓词的论元及谓词与论元之间的关系B:基于词频统计的分词方法是一种无字典分词方法C:基于统计的命名实体识别方法目前还主要采用统计的方法D:语义依存分析主要用于分析词和词之间的依存关系,例如句⼦的主语、谓语、宾语等形式结构答案:基于词频统计的分词方法是一种无字典分词方法;基于统计的命名实体识别方法目前还主要采用统计的方法3.下面哪些算法不能用于文本的分词?A:TF-IDF算法B:基于规则的分词C:词嵌入D:反向最大匹配法答案:TF-IDF算法;词嵌入4.下面有关文本分析正确的说法是哪些?A:文本分类可以通过贝叶斯分类器完成。B:时间和日期都是需要识别的命名实体。 C:信息抽取不需要了解实体之间的语义关系。D:句法分析可以表达组成句子的词语之间的搭配或修辞关系。答案:文本分类可以通过贝叶斯分类器完成。;时间和日期都是需要识别的命名实体。;句法分析可以表达组成句子的词语之间的搭配或修辞关系。1.使用基于统计的方法进行特征选择、分词等分析都对语料库的要求比较高。A:错B:对答案:对第八章测试2.可视化分析的说法正确的是哪一个?A:可视化就是简单的画图,美观就行。B:目前的可视化工具可以自动展示数据中的规律。C:可视化是一种基本的数据分析方法,需要选择合适的图表,展示数据中隐藏的信息。D:可视化分析前不用对数据进行预处理,因为可视化反映了数据的趋势和大致规律。答案:可视化是一种基本的数据分析方法,需要选择合适的图表,展示数据中隐藏的信息。3.有关可视化分析的方法,下面错误的说法是哪种?A:可视化分析在分析前,对数据进行一定的变换,可能会提升分析结果的有用性。B:可视化只是表格数据的另一种简单呈现。C:可视化分析有多种图形可供选择,每种图形只适用某些场合。D:错误的数据如果不进行处理,可能会影响可视化分析的结果质量。答案:可视化只是表格数据的另一种简单呈现。 1.有关可视化分析与其他机器学习方法的关系,错误的说法是哪一种?A:可视化分析可用于展示神经网络的训练过程,从中确定模型是否出现过拟合。B:可视化分析可以为神经网络等分类算法初选重要的变量。C:可视化分析可以作为决策树算法的预处理方法,从中找出错误或异常的数据。D:可视化分析可以对分类模型的正确率进行评估。答案:可视化分析可以对分类模型的正确率进行评估。2.下面哪种可视化方法比较适合聚类分析?A:箱图B:条状图C:直方图D:散点图答案:散点图3.在线教学学生行为的分析中,下面哪个选项不是可视化的作用?A:可视化可以帮助发现有问题的学生,从而可以提前做学情预警。B:可视化可以预测一个刚选课不久的学生学完一门课程所需要的时间。C:可视化可用于分析不同类别学生的学习轨迹(流程)。D:可视化可动态展示不同时期学生群体的学习行为。答案:可视化可以预测一个刚选课不久的学生学完一门课程所需要的时间。4.有关可视化分析错误的说法有哪些?A:可视化分析的结果是否可用不需要人工检验。B:可视化分析可以与其他机器学习算法组合使用,可以应用于机器学习的各个阶段。C:可视化分析可以帮助决策者获得其以前没有意识到的规律。D:对于同样数据、同样的问题,不同数据分析师给出的可视化分析结果是一样的。答案:可视化分析的结果是否可用不需要人工检验。;对于同样数据、同样的问题,不同数据分析师给出的可视化分析结果是一样的。 1.有关箱(线)图的说法,正确的是哪些?A:箱图可用于分析某个变量A对变量B的影响程度,主要看A的不同取值对应B变化的箱子的大小和位置变化。B:若某变量的中位数是10,说明这个变量有一半的取值平均值小于10。C:从箱图可以发现变量的异常或噪声。D:在箱图中,某个变量上四分位和下四分位的差(四分位矩)越大,说明此变量的方差可能越小。答案:箱图可用于分析某个变量A对变量B的影响程度,主要看A的不同取值对应B变化的箱子的大小和位置变化。;若某变量的中位数是10,说明这个变量有一半的取值平均值小于10。;从箱图可以发现变量的异常或噪声。2.在可视化分析的应用过程中,最终用户抱怨没有看到有用的信息,可能的原因有以下哪些?A:图表展示出来了容易让人误解的信息,误导了用户。B:数据分析人员对业务理解不够,未能选好指标(变量),给出的可视化难以看到有用的信息。C:数据没有充分的预处理,展示出来的信息基本是已经的事实。D:图画的不好看,未能引起用户的兴趣。答案:图表展示出来了容易让人误解的信息,误导了用户。;数据分析人员对业务理解不够,未能选好指标(变量),给出的可视化难以看到有用的信息。;数据没有充分的预处理,展示出来的信息基本是已经的事实。3.以下有关可视化方法作用的说法,正确的有哪些?A:可视化不是简单地把数据展示成图形,可能要放在原始数据加工后更有效。B:可视化可以在数据预处理阶段,帮助数据分析者发现变量之间的关系。C:可视化就是一种艺术创作,可以创造新的规律。D:可视化可用作机器学习过程的观察以及结果的展示。答案: 可视化不是简单地把数据展示成图形,可能要放在原始数据加工后更有效。;可视化可以在数据预处理阶段,帮助数据分析者发现变量之间的关系。;可视化可用作机器学习过程的观察以及结果的展示。1.标签云是图像数据常用的可视化方法A:对B:错答案:错第九章测试2.SparkStreaming是什么软件栈中的流计算?A:StormB:FlumeC:HiveD:Spark答案:Spark3.下列选项中,不是kafka适合的应用场景是?A:日志收集B:流式处理C:消息系统D:业务系统答案:业务系统4.在数据量一定的情况下,MapReduce是一个线性可扩展模型,请问服务器数量与处理时间是什么关系?A:没什么关系B:数量越多处理时间越短C:数量越小处理时间越短D:数量越多处理时间越长答案:数量越多处理时间越短 1.整个MapReduce的过程大致分为Map、Shuffle、Combine和以下哪个?A:CleanB:ReduceC:HashD:Loading答案:Reduce2.Spark是基于什么的迭代计算框架?它适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小A:显卡B:硬盘C:磁带D:内存答案:内存3.HBASE的特点不包括哪两项?A:稠密性B:多版本C:面向行D:高可靠性答案:稠密性;面向行4.Yarn架构在Hadoop生态圈中有哪些作用?A:计算数据B:调度C:资源分配D:保证协同答案:调度;资源分配;保证协同5.HDFS适用于哪些场景?A:存储和管理PB级别数据B:一次写入,多次读取C:大量小文件D:低延迟读取答案:存储和管理PB级别数据;一次写入,多次读取6.NoSQL数据库具有以下哪几个特点? A:分布式存储B:灵活的可扩展性C:灵活的数据模型D:与云计算紧密融合答案:灵活的可扩展性;灵活的数据模型;与云计算紧密融合1.关于RDD,说法正确的两项是?A:RDD能生成childrenRDDB:是一个容错的、并行的数据结构C:弹性、集中式内存集D:RDD不能由多个分区(partition)组成答案:是一个容错的、并行的数据结构;弹性、集中式内存集
此文档下载收益归作者所有
举报原因
联系方式
详细说明
内容无法转码请点击此处