2025秋江苏开放大学Spark程序设计过程性考核作业3占总

admin · 发表于 2025-11-7 15:29:25

重点提示：如果查询不到相应复习答案，请联系客服配合客服的要求处理！

获取更多参考答案，请关注【雅宝知识库】公众号发送题目获取
免费试题原文：www.ybaotk.com
免费试题答案：www.ybaotk.com
原题带图或者小论文、画图，请查阅：www.ybaotk.com。

Spark程序设计过程性考核作业3（占总成绩7.5％）
课程名称: Spark程序设计
发布人: 吴旭姿
来源: 第六单元 Spark MLlib
满分: 100.0
发布时间: 2025-07-03
作业要求: 本次作业考核内容涵盖第五到六学习单元内容，题型包括单选题、多选题、填空题和简答题。

单选题
1. 以下哪个场景不需要使用流处理？ (分值: 2.0)
A. 某金融公司对一周内的所有交易记录进行处理
B. 实时对市场的数据进行计算
C. 实时对病人的身体状态进行监控
D. 某金融公司实时对交易记录进行监测

2. Spark Streaming的数据抽象是什么？ (分值: 2.0)
A. DataFrame
B. RDD
C. Dstream
D. Structured Streaming

3. 下面关于Spark Streaming和Storm的描述正确的是？ (分值: 2.0)
A. Spark Streaming可以实现毫秒级的流计算，而Storm无法实现毫秒级响应
B. Spark Streaming和Storm都可以实现毫秒级的流计算
C. Spark Streaming无法实现毫秒级的流计算，而Storm可以实现毫秒级响应
D. Spark Streaming和Storm都无法实现毫秒级的流计算

4. 下面论述中错误的是？ (分值: 2.0)
A. 推荐系统、金融反欺诈、语音识别、自然语言处理和机器翻译、模式识别、智能控制等领域，都用到了机器学习的知识
B. 机器学习可以看作是一门人工智能的科学，该领域的主要研究对象是人工智能
C. 机器学习强调三个关键词：算法、经验、性能
D. 机器学习和人工智能是不存在关联关系的两个独立领域

5. 下面关于pyspark.ml描述错误的是？ (分值: 2.0)
A. pyspark.ml主要操作的是RDD
B. pyspark.ml中的操作可以使用pipeline
C. pyspark.ml提供了统一的算法操作接口
D. pyspark.ml中的随机森林支持更多的功能：包括重要度、预测概率输出等

6. 下面关于监督学习描述错误的是？ (分值: 2.0)
A. 核心是分类
B. 分类原因不透明
C. 有标签
D. 所有数据都相互独立分布

7. 下面关于机器学习处理过程的描述错误的是？ (分值: 2.0)
A. 评估的性能如果达到要求，就用该模型来测试其他的数据
B. 评估的性能如果达不到要求，就要调整算法来重新建立模型，再次进行评估
C. 在数据的基础上，通过算法构建出模型并对模型进行评估
D. 通过算法构建出的模型不需要评估就可以用于其他数据的测试

8. 下面描述错误的是？ (分值: 2.0)
A. 在Spark SQL编程中需要生成一个StreamingContext对象
B. 在RDD编程中需要生成一个SparkContext对象
C. 运行一个Spark Streaming程序需要首先生成一个StreamingContext对象
D. 在Spark SQL编程中需要生成一个SparkSession对象

9. 下面关于pyspark.mllib描述错误的是？ (分值: 2.0)
A. pyspark.mllib操作的是RDD
B. pyspark.mllib提供常用的机器学习功能
C. pyspark.mllib中不同模型会有各种各样的train
D. 目前pyspark.mllib是MLlib主要的API

10. 下面关于Spark Streaming的描述错误的是？ (分值: 2.0)
A. Spark Streaming最主要的抽象是DStream（Discretized Stream，离散化数据流），表示连续不断的数据流
B. Spark Streaming的基本原理是将实时输入数据流以时间片为单位进行拆分，然后采用Spark引擎以类似批处理的方式处理每个时间片数据
C. Spark Streaming的数据抽象是DataFrame
D. Spark Streaming可整合多种输入数据源，如Kafka、Flume、HDFS，甚至是普通的TCP套接字

多选题
1. 以下哪些属于Spark Streaming的特点？ (分值: 3.0)
A. Spark Streaming仅支持“恰好处理一次”的处理模式
B. Spark Streaming可以与任何其他Spark组件（如MLlib和Spark SQL）无缝集成
C. Spark Streaming方便调试编译允许对资源进行细粒度的计算分配
D. Spark Streaming可以处理多个不同来源的实时数据，包括Kafka，Flume和Amazon Kinesis等

2. 下面论述中正确的是？ (分值: 3.0)
A. MapReduce可以高效支持迭代计算
B. 利用MapReduce框架在全量数据上进行机器学习，这在一定程度上解决了统计随机性的问题，提高了机器学习的精度
C. Spark无法高效支持迭代计算
D. 传统的机器学习算法，由于技术和单机存储的限制，大多只能在少量数据上使用

3. 下面关于Spark MLlib的描述正确的是？ (分值: 3.0)
A. pyspark.mllib包含基于RDD的原始算法API
B. MLlib库从1.2版本以后分为两个包：pyspark.mllib和pyspark.ml
C. pyspark.ml提供基于RDD的、高层次的API
D. pyspark.mllib包含基于DataFrame的原始算法API

4. 下面属于监督学习的应用场景的是？ (分值: 3.0)
A. 语音识别
B. 计算机视觉
C. 垃圾邮件检测
D. 手写识别

5. 流处理系统与传统的数据处理系统的不同之处在于？ (分值: 3.0)
A. 流处理系统处理的是实时的数据，而传统的数据处理系统处理的是预先存储好的静态数据
B. 流处理系统无需用户主动发出查询，实时查询服务可以主动将实时结果推送给用户
C. 流处理系统处理的是历史的数据，而传统的数据处理系统处理的是实时的数据
D. 用户通过流处理系统获取的是实时结果，而通过传统的数据处理系统获取的是过去某一时刻的结果

6. 以下关于流数据特征的描述，哪些是正确的 (分值: 3.0)
A. 数据顺序颠倒，或者不完整，系统无法控制将要处理的新到达的数据元素的顺序
B. 数据来源众多，格式复杂
C. 数据量大，但是不十分关注存储，一旦流数据中的某个元素经过处理，要么被丢弃，要么被归档存储
D. 数据快速持续到达，潜在大小也许是无穷无尽的

7. Spark Mllib提供哪些工具？ (分值: 3.0)
A. 保存和加载算法，模型，管道
B. 构造和评估机器机器学习管道
C. 机器学习算法
D. 特征工程

简答题/计算题
1. MLlib提供了一系列基本数据类型以支持底层的机器学习算法。主要的数据类型包括哪些？ (分值: 10.0)

2. 列举三种Spark Mllib的应用场景。 (分值: 12.0)

3. 简述pyspark.mllib和pyspark.ml的区别。 (分值: 15.0)

4. 简述Apache Storm与Spark Streaming的区别。 (分值: 12.0)

2025秋江苏开放大学Spark程序设计过程性考核作业3占总

天涯海角也要找到Ni：2025秋江苏开放大学Spark程序设计过程性考核作业3占总

相关帖子

QQ微信同步：1144766066。

服务

网站

战略合作