2025秋江苏开放大学Spark程序设计过程性考核作业3占总

[复制链接]
查看: 36|回复: 0

3万

主题

4万

帖子

9万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
98637
发表于 2025-11-7 15:29:25 | 显示全部楼层 |阅读模式
重点提示:如果查询不到相应复习答案,请联系客服 配合客服的要求处理!
   
    获取更多参考答案,请关注【雅宝知识库】 公众号发送目获取
    免费试题原文:www.ybaotk.com
    免费试题答案:www.ybaotk.com
    原题带图或者小论文、画图,请查阅:www.ybaotk.com。

Spark程序设计过程性考核作业3(占总成绩7.5%)
课程名称: Spark程序设计
发布人: 吴旭姿
来源: 第六单元 Spark MLlib
满分: 100.0
发布时间: 2025-07-03
作业要求: 本次作业考核内容涵盖第五到六学习单元内容,题型包括单选题、多选题、填空题和简答题。


单选题
1. 以下哪个场景不需要使用流处理? (分值: 2.0)
   A. 某金融公司对一周内的所有交易记录进行处理
   B. 实时对市场的数据进行计算
   C. 实时对病人的身体状态进行监控
   D. 某金融公司实时对交易记录进行监测

2. Spark Streaming的数据抽象是什么? (分值: 2.0)
   A. DataFrame
   B. RDD
   C. Dstream
   D. Structured Streaming

3. 下面关于Spark Streaming和Storm的描述正确的是? (分值: 2.0)
   A. Spark Streaming可以实现毫秒级的流计算,而Storm无法实现毫秒级响应
   B. Spark Streaming和Storm都可以实现毫秒级的流计算
   C. Spark Streaming无法实现毫秒级的流计算,而Storm可以实现毫秒级响应
   D. Spark Streaming和Storm都无法实现毫秒级的流计算

4. 下面论述中错误的是? (分值: 2.0)
   A. 推荐系统、金融反欺诈、语音识别、自然语言处理和机器翻译、模式识别、智能控制等领域,都用到了机器学习的知识
   B. 机器学习可以看作是一门人工智能的科学,该领域的主要研究对象是人工智能
   C. 机器学习强调三个关键词:算法、经验、性能
   D. 机器学习和人工智能是不存在关联关系的两个独立领域

5. 下面关于pyspark.ml描述错误的是? (分值: 2.0)
   A. pyspark.ml主要操作的是RDD
   B. pyspark.ml中的操作可以使用pipeline
   C. pyspark.ml提供了统一的算法操作接口
   D. pyspark.ml中的随机森林支持更多的功能:包括重要度、预测概率输出等

6. 下面关于监督学习描述错误的是? (分值: 2.0)
   A. 核心是分类
   B. 分类原因不透明
   C. 有标签
   D. 所有数据都相互独立分布

7. 下面关于机器学习处理过程的描述错误的是? (分值: 2.0)
   A. 评估的性能如果达到要求,就用该模型来测试其他的数据
   B. 评估的性能如果达不到要求,就要调整算法来重新建立模型,再次进行评估
   C. 在数据的基础上,通过算法构建出模型并对模型进行评估
   D. 通过算法构建出的模型不需要评估就可以用于其他数据的测试

8. 下面描述错误的是? (分值: 2.0)
   A. 在Spark SQL编程中需要生成一个StreamingContext对象
   B. 在RDD编程中需要生成一个SparkContext对象
   C. 运行一个Spark Streaming程序需要首先生成一个StreamingContext对象
   D. 在Spark SQL编程中需要生成一个SparkSession对象

9. 下面关于pyspark.mllib描述错误的是? (分值: 2.0)
   A. pyspark.mllib操作的是RDD
   B. pyspark.mllib提供常用的机器学习功能
   C. pyspark.mllib中不同模型会有各种各样的train
   D. 目前pyspark.mllib是MLlib主要的API

10. 下面关于Spark Streaming的描述错误的是? (分值: 2.0)
   A. Spark Streaming最主要的抽象是DStream(Discretized Stream,离散化数据流),表示连续不断的数据流
   B. Spark Streaming的基本原理是将实时输入数据流以时间片为单位进行拆分,然后采用Spark引擎以类似批处理的方式处理每个时间片数据
   C. Spark Streaming的数据抽象是DataFrame
   D. Spark Streaming可整合多种输入数据源,如Kafka、Flume、HDFS,甚至是普通的TCP套接字

多选题
1. 以下哪些属于Spark Streaming的特点? (分值: 3.0)
   A. Spark Streaming仅支持“恰好处理一次”的处理模式
   B. Spark Streaming可以与任何其他Spark组件(如MLlib和Spark SQL)无缝集成
   C. Spark Streaming方便调试编译允许对资源进行细粒度的计算分配
   D. Spark Streaming可以处理多个不同来源的实时数据,包括Kafka,Flume和Amazon Kinesis等

2. 下面论述中正确的是? (分值: 3.0)
   A. MapReduce可以高效支持迭代计算
   B. 利用MapReduce框架在全量数据上进行机器学习,这在一定程度上解决了统计随机性的问题,提高了机器学习的精度
   C. Spark无法高效支持迭代计算
   D. 传统的机器学习算法,由于技术和单机存储的限制,大多只能在少量数据上使用

3. 下面关于Spark MLlib的描述正确的是? (分值: 3.0)
   A. pyspark.mllib包含基于RDD的原始算法API
   B. MLlib库从1.2版本以后分为两个包:pyspark.mllib和pyspark.ml
   C. pyspark.ml提供基于RDD的、高层次的API
   D. pyspark.mllib包含基于DataFrame的原始算法API

4. 下面属于监督学习的应用场景的是? (分值: 3.0)
   A. 语音识别
   B. 计算机视觉
   C. 垃圾邮件检测
   D. 手写识别

5. 流处理系统与传统的数据处理系统的不同之处在于? (分值: 3.0)
   A. 流处理系统处理的是实时的数据,而传统的数据处理系统处理的是预先存储好的静态数据
   B. 流处理系统无需用户主动发出查询,实时查询服务可以主动将实时结果推送给用户
   C. 流处理系统处理的是历史的数据,而传统的数据处理系统处理的是实时的数据
   D. 用户通过流处理系统获取的是实时结果,而通过传统的数据处理系统获取的是过去某一时刻的结果

6. 以下关于流数据特征的描述,哪些是正确的 (分值: 3.0)
   A. 数据顺序颠倒,或者不完整,系统无法控制将要处理的新到达的数据元素的顺序
   B. 数据来源众多,格式复杂
   C. 数据量大,但是不十分关注存储,一旦流数据中的某个元素经过处理,要么被丢弃,要么被归档存储
   D. 数据快速持续到达,潜在大小也许是无穷无尽的

7. Spark Mllib提供哪些工具? (分值: 3.0)
   A. 保存和加载算法,模型,管道
   B. 构造和评估机器机器学习管道
   C. 机器学习算法
   D. 特征工程

简答题/计算题
1. MLlib提供了一系列基本数据类型以支持底层的机器学习算法。主要的数据类型包括哪些? (分值: 10.0)

2. 列举三种Spark Mllib的应用场景。 (分值: 12.0)

3. 简述pyspark.mllib和pyspark.ml的区别。 (分值: 15.0)

4. 简述Apache Storm与Spark Streaming的区别。 (分值: 12.0)





上一篇:2025秋江苏开放大学Web应用开发实训过程性考核作业三客观
下一篇:2025秋江苏开放大学Spark程序设计过程性考核作业2占总
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

精彩课程推荐
|网站地图|网站地图