大数据分析作业.doc

ID：57155831

大小：40.71 KB

页数：21页

时间：2020-08-04

资源描述：

《大数据分析作业.doc》由会员上传分享，免费在线阅读，更多相关内容在工程资料-天天文库。

1、单选关于聚类挖掘，表述错误的是A.好聚类的方法的标准是要产生高质量的聚类结果B.好的聚类结果应该有高类内相似性和低类间相似性这样的特征C.聚类结果的好坏取决于相似性的度量方法以及具体实现D.聚类结果的好坏与能否发现隐含模式无关2单选关联规则挖掘的应用领域有哪些A.①②B.①②③C.②④D.①②③④3单选哪个不属于知识发现的步骤A.数据清理B.数据选择C.数据集成D.数据开发4单选不属于社交网络特点的是A.海量用户B.数据单一C.完整数据D.实时数据5单选舆情的系统架构正确的是A.规划-采集-存储-分析-报告-管控B.规划-存储-分析-采集-报告-管控C.规划-存储-采集-分析-报

2、告-管控D.规划-采集-分析-存储-报告-管控6单选以下不属于网络舆情的主要来源的是A.论坛与BBSB.QQC.书信D.微信7多选以下属于推荐系统算法的是A.CF协同过滤算法B.聚类及相似度算法C.基于知识推理算法D.关联规则算法8单选关于推荐系统的说法错误的是A.推荐系统的架构为离线计算-在线计算-推荐引擎APPB.推荐系统的相关技术包括机器学习及数据挖掘算法等C.推荐系统的常见表现形式有猜你喜欢、买了又买、精品推荐等D.推荐系统经历了很短的时间形成9单选以下关于搜索引擎说法错误的是A.是基于web相关技术为基础的B.是对网络信息资源进行抓取和采集建立索引数据库C.是能依据用户

3、需求查找相应信息的在线搜索系统D.呈现的搜索结果是凌乱无序的10多选以下属于能产生大数据，即大数据的源头的有A.社交网络B.电子商务C.搜索引擎D.移动互联网E.互联网电视F.游戏单选属于高质量聚类分析的要求：①可扩展性②处理相同类型数据的能力③发现任意形状的能力④领域知识参数输入的最大化⑤处理噪声数据的能力⑥数据输入顺序敏感A.①②③④⑤⑥B.①③⑤C.①③⑥D.②④⑥单选社群结构聚合探测算法的步骤中，（）条件满足时，算法会停止并输出探测结果。A.maxφpq≥0B.maxφpq≤0C.maxφpq=0D.maxφpq<0单选以下说法错误的是A.APRIORI算法最大的缺点是复

4、杂度太高B.FP-树频集算法是针对Apriori算法缺点进行改进后的算法C.FP-树频集算法虽然克服了Apriori算法复杂度的问题，但是获得的结果却是不靠谱的D.关联规则在使用时的两个指标是支持度和置信度单选关联规则的基本概念中错误的是A.K项集指的是K个项的集合B.项集频率指的是项集所有交易中出现的次数C.相对支持度指的是项集出现次数除以总的交易次数D.置信度是项集出现次数除以总的交易次数8单选K均值算法的缺点（）：①经常终止于局部最优解②需要先验的领域知识③对噪声和离群点比较敏感④不能发现任意类型的类⑤不能处理分类变量A.①②③④⑤B.①③⑤C.①③D.②④多选数据挖掘面临

5、的问题有哪些A.噪声处理B.数据缺失C.算法的有效性和可伸缩性D.挖掘方法与用户交互单选Hive的数据计算使用A.HBASEB.HDFSC.MapReduceD.PIG2单选Hadoop生态系统中，最核心的设计是（）A.HBASE和STORMB.HDFS和MAPREDUCEC.TEZ和PIGD.HIVE和HDFS3单选Web挖掘中内容挖掘的基本技术是（）A. 数据挖掘B.技术挖掘C.文本挖掘D.图片挖掘4多选以下Web信息特点的是A.信息量庞大B.信息复杂C.信息是动态的D.垃圾信息特别多E.信息使用者复杂5单选布尔权重是指如果某个词条在一篇文本中出现，则将其权值定义为（），否则

6、定义为（）A. 0，1B.0,2C.1,0D.2,06多选文本挖掘的主要任务A.确立需求B.关键词提取C.概念提取D.可视化显示和导航7单选以下哪个不是推荐系统的评测指标A.覆盖率B.统一性C.新颖性D.惊喜度8多选基于知识的推荐的产生是由于A. 推荐系统无法依赖购买记录进行推荐B. 推荐系统需要利用额外的因果知识生成推荐C.推荐系统会用到有关当前用户和有效物品的额外信息D.把各种推荐方法根据优缺点和试用场景进行搭配产生9多选用户建模模块的功能是A.获取、表示用户的兴趣偏好B.对用户进行识别和分类C.帮助用户找到需要的东西D.存储或者修改用户的兴趣偏好10多选以下属于推荐系统产生

7、的原因的是A.信息过载B.无明确需求C.具有明确需求D.有效信息量少单选1单选以下说法正确的是A.Spark可以基于HDFS这样分布式文件存储系统也可以基于Tachyon这样基于内存分布式文件存储系统B.Spark只能基于HDFS这样分布式文件存储系统C.Spark只能基于Tachyon这样基于内存分布式文件存储系统D.Spark既无法基于HDFS这样分布式文件存储系统也无法基于Tachyon这样基于内存分布式文件存储系统2单选能同时进行交互式计算，批处理，流式计算的计算框架为A

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 21



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

大数据分析作业.doc

大数据分析作业.doc

相关文章

相关标签