2017年全国职业院校技能大赛高职组大数据赛题

2017年全国职业院校技能大赛高职组大数据赛题

ID:48306949

大小:230.70 KB

页数:7页

时间:2019-11-06

2017年全国职业院校技能大赛高职组大数据赛题_第1页
2017年全国职业院校技能大赛高职组大数据赛题_第2页
2017年全国职业院校技能大赛高职组大数据赛题_第3页
2017年全国职业院校技能大赛高职组大数据赛题_第4页
2017年全国职业院校技能大赛高职组大数据赛题_第5页
资源描述:

《2017年全国职业院校技能大赛高职组大数据赛题》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、2017年度职业院校技能大赛大数据技术与应用赛项赛题第一节赛题“四合影业”公司计划参与投拍一部电影,名为《青春的竞赛》。为提高票房收入,降低投资风险,需要了解电影市场的情况,包括何种类型的电影票房收入高,不同类型观众对电影的偏好等等。为此,四合影业公司计划聘请“TMS”大数据分析公司,收集并分析电影市场的相关信息,并最终给出分析报告。合作之前,“四合影业”需要“TMS”公司提出可行的技术解决方案。为完成四合影业的项目,“TMS”公司选用了在业界广泛应用的“Python”语言,作为开发分析程序的基础语言,并综

2、合利用numpy、pandas、matplotlib、scikit模块和MapReduce技术提高开发效率,由于预计数据量会超过“T”级,“TMS”公司在技术方案中提出在一个高性能工作站集群上利用Hadoop平台提高数据处理能力,并利用Hive以及streaming技术提高效能和简化MapReduce过程。但此技术方案需要较高成本,为向“四合影业”展示该技术方案的合理性并达成与“四合影业”的合作,“TMS”公司先用廉价PC集群,配置了小规模的技术演示环境,并利用网络爬虫抓取了历年来影音娱乐行业的信息,数据量

3、约为4G,随后开发了程序对数据进行清洗、整理、计算、表达、分析,力求展示“TMS”技术方案的合理性和自身出色的技术能力。作为“TMS”公司的技术人员,你们是这次技术方案展示的核心成员,请按照下面步骤完成本次技术展示任务,并提交技术报告。圆满完成展示并得到预期结果,“TMS”就能获得这个数百万元的项目合同,祝你们成功。任务一、部署Hadoop平台,并根据计算对象调优Hadoop平台的性能(15分)1、按下面如下个步骤完成Hadoop环境的部署:1)Hadoop系统存储于“/usr/local/hadoop”,

4、要求配置hadoop.tmp.dir目录存放位置为“/usr/local/hadoop/tmp”1)配置hadoop的dfs.namenode.name.dir为/usr/local/hadoop/tmp/dfs/name2)配置hadoop的dfs.datanode.data.dir为/usr/local/hadoop/tmp/dfs/data3)格式化NameNode4)开启NameNode和DataNode守护进程本题要求配置完成后在Hadoop平台上运行jps命令,要求jps运行结果的截屏保存于文件

5、ans0101.jpg中1、按下面步骤建立用户目录,并导入存于竞赛平台arg目录中的数据文件dat0102.dat,并完成Hadoop平台的性能测试:1)在hdfs中创建用户目录(如果系统用户为hadoop,请建立/user/hadoop)2)在hdfs中创建input目录,把数据文件上传至input目录3)运行hadoop-mapreduce-examples-2.7.3.jar查询特定字符串出现次数4)用hdfs命令查看输出结果。本题要求将第4步运行结果的截屏保存于文件ans0102.jpg中。2、对H

6、adoop平台进行性能调优,设置:yarn.scheduler.maximum-allocation-mb的值为系统内存减1024MB,mapreduce.map.memory.mb的值为1024MB,设置mapreduce.map.java.opts的值为-Xmx768m,设置mapreduce.reduce.memory.mb的值为2048MB,设置mapreduce.reduce.java.opts的值为–Xmx1536m。重新启动hadoop。本题要求提交修改后的配置文件,文件名为在原有文件名加前缀

7、”ans0103_”。(5%)任务二、数据抓取(30分)1、现在,网络爬虫抓取到约4G的数据,保存于arg目录的spider.log中,但其中既有电影市场放映信息数据也有其他数据,通过分析数据样本,发现从网站“http://www.movie.com/bor/”抓取的数据包含有效的电影市场数据,数据中有效数据项包括:电影名称、上映日期、上映场次数、院线城市、导演、演员、影片类型、票房收入,请从spider.log中筛选出一部分有效数据项,并以规定格式保存于ans0201.csv文件中。本题的赛前抽取参数是:

8、数据文件spider.log、需要保存于ans0201.csv文件的有效数据项以及有效数据项的保存格式。1、网页“http://movie.xtime.com/FilmId/”中包含观众对电影的评分信息,请编写程序抓取网页(网页样本保存于task0202目录中)上电影的评分信息并计算其统计信息(统计方法指对某部电影的评分求极值或求平均值),本题的赛前抽取参数是统计方法以及网页样本,请参赛学生将本题的答案保存于an

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。