重点提示:如果查询不到相应复习答案,请联系客服 配合客服的要求处理!
获取更多参考答案,请关注【雅宝知识库】 公众号发送题目获取
免费试题原文:www.ybaotk.com
免费试题答案:www.ybaotk.com
原题带图或者小论文、画图,请查阅:www.ybaotk.com。
Spark程序设计过程性考核作业2(占总成绩7.5%)
课程名称: Spark程序设计
发布人: 吴旭姿
来源: 第四单元 Spark SQL
满分: 100.0
发布时间: 2025-07-03
作业要求: 本次作业考核内容涵盖第三到四学习单元内容,题型包括单选题、多选题、填空题和简答题。
单选题
1. 下面关于spark-submit描述错误的是? (分值: 2.0)
A. 不需要自行初始化SparkContext
B. 作为独立的脚本运行
C. 在大规模的数据集上应用不同的集群管理器运行程序
D. 需要自行初始化SparkContext
2. Spark Shell在启动时,采用local[*]时,它的含义是? (分值: 2.0)
A. 使用单个进程来本地化运行Spark
B. 使用任意个线程来本地化运行Spark
C. 自动设定CPU的最大Core数来进行运算
D. 所有计算都在一个线程中运行
3. 下面关于结构化数据描述错误的是? (分值: 2.0)
A. 应用于航空预定系统
B. 易于搜索
C. 有明确定义的数据类型组成
D. 占总数据80%以上
4. 下面关于Spark SQL描述错误的是? (分值: 2.0)
A. Spark SQL执行计划生成和优化需要依赖Hive来完成
B. Spark SQL在Hive兼容层面仅依赖HiveQL解析和Hive元数据
C. 在Shark原有的架构上重写了逻辑执行计划的优化部分,解决了Shark存在的问题
D. Spark SQL执行计划生成和优化都由Catalyst(函数式关系查询优化框架)负责
5. 下面关于Hive描述错误的是? (分值: 2.0)
A. Hive可以快速实现简单的MapReduce统计
B. Hive具备存储功能
C. Hive具有高度的容错与扩展功能
D. Hive可以将HDFS上结构化的数据映射成一张表,然后通过Hive提供HiveQL语言进行查询
6. 以下不属于非结构化数据的是? (分值: 2.0)
A. 视频
B. 信用卡号码
C. 图像
D. 文本
7. 下面哪个选项不是RDD的特点? (分值: 2.0)
A. 可修改
B. 可分区
C. 可持久化
D. 可容错
8. 有一个键值对RDD,名称为pairRDD,包含4个元素,分别是(“Hadoop”,1)、(“Spark”,1)、(“Hive”,1)和(“Spark”,1),则pairRDD.mapValues(x => x+1)操作得到的RDD中所包含的元素是? (分值: 2.0)
A. 1,1,1,1
B. ("Hadoop",2)、("Spark",2)、("Hive",2)和("Spark",2)
C. ("Hadoop",1)、("Spark",1)、("Hive",1)和("Spark",1)
D. 2,2,2,2
9. 下面关于RDD持久化描述错误的是? (分值: 2.0)
A. persist()函数可以设置缓存级别
B. 通过持久化(缓存)机制可以避免重复计算的开销
C. cache()函数只有一个缓存级别MEMORY_ONLY
D. 持久化级别中MEMORY_ONLY性能最低
多选题
1. 以下操作中,哪些是转化操作? (分值: 3.0)
A. collect()
B. map()
C. filter()
D. count()
2. 关于RDD分区的作用,下面描述正确的是? (分值: 3.0)
A. 增加时间开销
B. 减少并行度
C. 增加并行度
D. 减少通信开销
3. 下面哪些是Shark的设计导致的问题? (分值: 3.0)
A. Spark是线程级并行,而MapReduce是进程级并行,因此,Spark在兼容Hive的实现上存在线程安全问题,导致Shark不得不使用另外一套独立维护的、打了补丁的Hive源码分支
B. 执行计划优化完全依赖于Hive,不方便添加新的优化策略
C. 执行计划优化不依赖于Hive,方便添加新的优化策略
D. Spark是进程级并行,而MapReduce是线程级并行,因此,Spark在兼容Hive的实现上存在线程安全问题,导致Shark不得不使用另外一套独立维护的、打了补丁的Hive源码分支
4. RDD操作包括哪两种类型? (分值: 3.0)
A. 转化
B. 行动
C. 分组
D. 连接
5. 以下操作中,哪些是行动操作? (分值: 3.0)
A. collect()
B. map()
C. reduce()
D. union()
6. 下面关于为什么推出Spark SQL的原因的描述正确的是? (分值: 3.0)
A. Spark SQL可以提供DataFrame API,可以对内部和外部各种数据源执行各种关系操作
B. Spark SQL无法融合结构化数据管理能力和机器学习算法的数据处理能力
C. Spark SQL无法对各种不同的数据源进行整合
D. 可以支持大量的数据源和数据分析算法,组合使用Spark SQL和Spark MLlib,可以融合传统关系数据库的结构化数据管理能力和机器学习算法的数据处理能力
简答题/计算题
1. 列举两个典型的Spark SQL的应用场景。 (分值: 12.0)
2. 简述窄依赖和宽依赖的区别。 (分值: 15.0)
3. 简述Spark SQL的特点。 (分值: 15.0)
4. 列举三个常用的DataFrame操作,并说明其功能。 (分值: 12.0) |