江苏开放大学大数据库管理辅导资料

[复制链接]
查看: 30|回复: 0

6万

主题

9万

帖子

20万

积分

论坛元老

Rank: 8Rank: 8

积分
205849
发表于 2025-3-20 16:53:15 | 显示全部楼层 |阅读模式
大数据库管理
学校: 无
问题 1: 1. 在Hadoop生态系统中,Kafka主要解决Hadoop 中存在哪些的问题?
选项:

A. 延迟高,而且不适合执行迭代计算

B. Hadoop生态系统中各个组件和其他产品之间缺乏统一的、高效的数据交换中介

C. 不同的MapReduce任务之间存在重复操作,降低了效率

D. 抽象层次低,需要手工编写大量代码
答案: Hadoop生态系统中各个组件和其他产品之间缺乏统一的、高效的数据交换中介
问题 2: 2. 关于HDFS Federation 的设计的描述,哪个是错误的?
选项:

A. 设计了多个相互独立的名称节点

B. HDFS的命名服务能够水平扩展

C. HDFS Federation中,所有名称节点会共享底层的数据节点存储资源,数据节点向所有名称节点汇报

D. 属于不同命名空间的块可以构成同一个“块池”
答案: 属于不同命名空间的块可以构成同一个“块池”
问题 3: 3. 下列关于Map和Reduce函数的描述,哪个是错误的?
选项:

A. Map将小数据集进一步解析成一批对,输入Map函数中进行处理

B. Reduce输入的中间结果2,List(v

)>中的List(v

)表示是一批属于同一个k

的value

C. Map每一个输入的1,v

>会输出一批2,v

>,

D. Reduce输入的中间结果2,List(v

)>中的List(v

)表示是一批属于不同k

的value
答案: Reduce输入的中间结果2,List(v
问题 4: 4. 下列关于Spark中RDD的说法,描述有误的是?
选项:

A. 每个RDD可分成多个分区,每个分区就是一个数据集片段

B. 一个RDD就是一个分布式对象集合,本质上是一个只读的分区记录集合

C. RDD提供了一种高度受限的共享内存模型

D. RDD是可以直接修改的
答案: RDD是可以直接修改的
问题 5: 5. 下列关于推荐系统的描述,哪一项是错误的?
选项:

A. 推荐系统分为基于物品的协同过滤和基于商家的协同过滤

B. 推荐系统可以创造全新的商业和经济模式,帮助实现长尾商品的销售

C. 推荐系统是大数据在互联网领域的典型应用

D. 推荐系统是自动联系用户和物品的一种工具
答案: 推荐系统分为基于物品的协同过滤和基于商家的协同过滤
问题 6: 6. 在Spark生态系统组件的应用场景中,下列哪项说法是错误的?
选项:

A. Spark Streaming是基于历史数据的数据挖掘

B. Spark Core应用在复杂的批量数据处理

C. Spark SQL是基于历史数据的交互式查询

D. GraphX是图结构数据的处理
答案: Spark Streaming是基于历史数据的数据挖掘
问题 7: 7. 下列关于Spark的描述,错误的是哪一项?
选项:

A. 可运行于独立的集群模式中,可运行于Hadoop中,也可运行于Amazon EC2等云环境中

B. 使用DAG执行引擎以支持循环数据流与内存计算

C. 支持使用Scala、Java、Python和R语言进行编程,但是不可以通过Spark Shell进行交互式编程

D. 提供了完整而强大的技术栈,包括SQL查询、流式计算、机器学习和图算法组件
答案: 请关注ybaotk.com搜题查看答案
问题 8: 8. 下列哪个不属于YARN体系结构中ResourceManager的功能?
选项:

A. 资源分配与调度

B. 监控NodeManager

C. 处理来自ApplicationMaster的命令

D. 处理客户端请求
答案: 请关注ybaotk.com搜题查看答案
问题 9: 9. 下列关于Scala特性的描述,错误的是哪一项?
选项:

A. Scala具备强大的并发性,支持函数式编程,可以更好地支持分布式系统

B. Scala语法复杂,但是能提供优雅的API

C. Scala是Spark的主要编程语言

D. Scala兼容Java,运行速度快,且能融合到Hadoop生态圈中
答案: 请关注ybaotk.com搜题查看答案
问题 10: 10. MapReduce1.0的体系结构中,JobTracker的主要任务是什么?
选项:

A. 会跟踪任务的执行进度、资源使用量等信息,并将这些信息告诉任务(Task)

B. 负责资源监控和作业调度,监控所有TaskTracker与Job的健康状况

C. 会周期性地通过“心跳”将本节点上资源的使用情况和任务的运行进度汇报给TaskTracker

D. 使用“slot”等量划分本节点上的资源量(CPU、内存等)
答案: 请关注ybaotk.com搜题查看答案
问题 11: 11. 下列哪个不属于YARN体系结构中ApplicationMaster的功能?
选项:

A. 任务调度、监控与容错

B. 处理来自ResourceManger的命令

C. 将申请的资源分配给内部任务

D. 为应用程序申请资源
答案: 请关注ybaotk.com搜题查看答案
问题 12: 12. 下列传统并行计算框架,说法错误的是哪一项?
选项:

A. 编程难度高

B. 实时、细粒度计算、计算密集型

C. 共享式(共享内存/共享存储),容错性好

D. 刀片服务器、高速网、SAN,价格贵,扩展性差
答案: 请关注ybaotk.com搜题查看答案
问题 13: 13. 关于Spark运行架构,下列说法错误的是?
选项:

A. 一个Job包含多个RDD及作用于相应RDD上的各种操作

B. Application是用户编写的Spark应用程序

C. DAG反映RDD之间的依赖关系

D. RDD是运行在工作节点(WorkerNode)的一个进程,负责运行Task
答案: 请关注ybaotk.com搜题查看答案
问题 14: 14. 下列说法哪项有误?
选项:

A. 相对于Spark来说,使用Hadoop进行迭代计算非常耗资源

B. Spark将数据载入内存后,之后的迭代计算都可以直接使用内存中的中间结果作运算,避免了从磁盘中频繁读取数据

C. Hadoop的设计遵循“一个软件栈满足不同应用场景”的理念

D. Spark可以部署在资源管理器YARN之上,提供一站式的大数据解决方案
答案: 请关注ybaotk.com搜题查看答案
问题 15: 15. 下列关于推荐系统的描述,有误的是?
选项:

A. 混合推荐:结合多种推荐算法来提升推荐效果

B. 协同过滤推荐:应用最早和最为成功的推荐方法之一

C. 基于统计的推荐:通过机器学习的方法去描述内容的特征,并基于内容的特征来发现与之相似的内容

D. 专家推荐:人工推荐,由资深的专业人士来进行物品的筛选和推荐,需要较多的人力成本性
答案: 请关注ybaotk.com搜题查看答案
问题 16: 16. MapReduce计算模型主要用于实时、计算密集型应用。
选项:
答案: 请关注ybaotk.com搜题查看答案
问题 17: 17. 在Hadoop生态系统中,Pig主要解决Hadoop 中存在的延迟高、不适合执行迭代计算的问题。
选项:
答案: 请关注ybaotk.com搜题查看答案
问题 18: 18. Spark运行架构中,每个Application都有自己专属的Executor进程,该进程在Application运行期间一直驻留。
选项:
答案: 请关注ybaotk.com搜题查看答案
问题 19: 19. 推荐系统是大数据在互联网领域的典型应用,是自动联系用户和爱好的一种工具。
选项:
答案: 请关注ybaotk.com搜题查看答案
问题 20: 20. MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数。
选项:
答案: 请关注ybaotk.com搜题查看答案
问题 21: 21. MapReduce相较于传统的并行计算框架有什么优势?
选项:

A. 非共享式,容错性好

B. 批处理、非实时、数据密集型

C. 使用普通PC机,便宜,扩展性好

D. 编程简单,只要告诉MapReduce做什么即可
答案: 请关注ybaotk.com搜题查看答案
问题 22: 22. MapReduce体系结构主要由以下那几个部分构成?
选项:

A. JobTracker

B. Client

C. Task

D. TaskTracker
答案: 请关注ybaotk.com搜题查看答案
问题 23: 23. MapReduce的具体应用包括哪些?
选项:

A. 分组与聚合运算

B. 关系代数运算(选择、投影、并、交、差、连接)

C. 矩阵-向量乘法

D. 矩阵乘法
答案: 请关注ybaotk.com搜题查看答案
问题 24: 24. 下面哪个属于不断完善的Hadoop生态系统中的组件?
选项:

A. Kafka

B. DN8

C. Tez

D. Pig
答案: 请关注ybaotk.com搜题查看答案
问题 25: 25. Spark采用RDD以后能够实现高效计算的原因主要在于?
选项:

A. 高效的容错性

B. 存放的数据可以是Java对象,避免了不必要的对象序列化和反序列化

C. 采用数据复制实现容错

D. 中间结果持久化到内存,避免了不必要的读写磁盘开销
答案: 请关注ybaotk.com搜题查看答案
问题 26: 26. 下列哪些属于大数据应用?
选项:

A. 物流:基于大数据和物联网技术的智能物流

B. 推荐系统:为用户推荐相关商品

C. 智能交通:利用交通大数据,实现交通实时监控

D. 汽车:无人驾驶汽车,实时采集车辆各种行驶数据和周围环境
答案: 请关注ybaotk.com搜题查看答案
问题 27: 27. 在实际大数据处理应用中,当采用多种计算架构来满足不同应用场景需求时,会带来哪些问题?
选项:

A. 不同的软件需要不同的开发和维护团队

B. 不同场景之间输入输出数据无法做到无缝共享,通常需要进行数据格式的转换

C. 需要较高的使用成本

D. 比较难以对同一个集群中的各个系统进行统一的资源协调和分配
答案: 请关注ybaotk.com搜题查看答案
问题 28: 28. 下列选项中,哪些属于Hadoop1.0的核心组件的不足之处?
选项:

A. 难以看到程序整体逻辑

B. 资源浪费(Map和Reduce分两阶段执行)

C. 实时性差(适合批处理,不支持实时交互式)

D. 执行迭代操作效率低
答案: 请关注ybaotk.com搜题查看答案
问题 29: 29. 下列关于MapReduce的体系结构的描述,说法正确的有?
选项:

A. TaskTracker监控所有TaskTracker与Job的健康状况

B. JobTracker负责资源监控和作业调度

C. 用户编写的MapReduce程序通过Client提交到JobTracker端

D. TaskTracker 使用“slot”等量划分本节点上的资源量(CPU、内存等)
答案: 请关注ybaotk.com搜题查看答案
问题 30: 30. 在实际应用中,大数据处理主要包括以下哪三个类型?
选项:

A. 基于历史数据的交互式查询:通常时间跨度在数十秒到数分钟之间

B. 复杂的批量数据处理:通常时间跨度在数十分钟到数小时之间

C. 基于实时数据流的数据处理:通常时间跨度在数百毫秒到数秒之间

D. 基于实时数据流的数据处理:通常时间跨度在数十秒到数分钟之间
答案: 请关注ybaotk.com搜题查看答案

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x





上一篇:学起plus第三十三章辅导资料
下一篇:2025年春江苏开放大学领导科学与艺术辅导资料
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

精彩课程推荐
|网站地图|网站地图