【国开搜题】国家开放大学 一网一平台24春大数据分析与挖掘技术试卷包03期末考试押题试卷与答案

[复制链接]
查看: 50|回复: 0

19万

主题

19万

帖子

59万

积分

论坛元老

Rank: 8Rank: 8

积分
597069
发表于 2024-4-22 00:26:43 | 显示全部楼层 |阅读模式
23春大数据分析与挖掘技术试卷包-03
关注公众号【】,回复【试】获取试题答案


一 、单选题
1. 下列操作不属于数据分析和挖掘的一般流程的是( )。
A. 数据预处理
B. 探索性分析
C. 从平台或渠道获取数据
D. 将模型结果进行可视化
答案:C
- 关注公众号【】,对话框内发送试题,获得答案。
2. 下列关于Python中的注释说法正确的是( )。
A. Python中可以使用“#”作为注释,“#”右边的一切内容均不会被执行
B. Python中可以使用“#”进行一行或多行注释
C. Python中注释下的一切内容会被执行但不显示
D. Python中只有使用“#”这一种注释方法
答案:A
- 关注公众号【】,对话框内发送试题,获得答案。
3. 下列代码可以将数据集data中的重复个体检测出的是( )。
A. data.repeat()
B. data.repetition()
C. data.duplicated()
D. data.duplication()
答案:C
- 关注公众号【】,对话框内发送试题,获得答案。
4. 下面哪项代码是对数据data进行标准化的过程( )。
A. Z = (data - data.mean()) / data.std()
B. Z = (data.mean() - data) / data.std()
C. Z = (data - data.std()) / data.mean()
D. Z = (data.std() - data) / data.mean()
答案:A
- 关注公众号【】,对话框内发送试题,获得答案。
5. 从下面的时序图不能得到的结论是( )

A. 该序列具有零均值
B. 该序列均值不随时间变化而变化
C. 这是一个平稳时间序列
D. 这是一个非平稳时间序列
答案:关注公众号【】,对话框内发送试题,获得答案。
6. 下列不属于要研究平稳时间序列的原因为( )
A. 在平稳的保证情况下,对历史时序数据进行分析的参数估计结果也比较稳定;
B. 平稳时间序列可以直接用于对未来时序数据的预测;
C. 平稳时间序列存在“伪回归”的情况;
D. 非平稳时间序列在分析时,本来没有什么关系的变量之间可能出现“伪回归”的情况。
答案:关注公众号【】,对话框内发送试题,获得答案。
7. 下列关于决定系数的说法不正确的是( )。
A. 越接近于0说明模型拟合得越好
B. 决定系数是指模型解释了的数据波动的比例
C. 取值区间为[0,1]
D. 越接近于1说明模型拟合得越好
答案:关注公众号【】,对话框内发送试题,获得答案。
8. 下列关于偏差和方差的说法不正确的是( )。
A. 偏差和方差受模型的复杂度影响
B. 模型越复杂,偏差越小,方差越大
C. 模型越复杂,偏差越大,方差越小
D. 模型越简单,偏差越大,而方差越小
答案:关注公众号【】,对话框内发送试题,获得答案。
9. 下列关于期望预测误差的说法错误的是( )。
A. 期望预测误差实际上是真实值与预测值在某种损失函数下的差值
B. 期望预测误差实际上是真实值与预测值在某种损失函数下的平均值
C. 通常我们使用期望预测误差作为寻优的目标函数
D. 有监督学习模型的目的是寻找一个可以很好地描述自变量X与因变量Y之间关系的函数f
答案:关注公众号【】,对话框内发送试题,获得答案。
10. 下列不属于回归模型评价指标的是( )。
A. 平均绝对误差
B. 平均相对误差
C. 平均平方误差
D. 决定系数
答案:关注公众号【】,对话框内发送试题,获得答案。
11. 下列关于类间距确定方法说法错误的是( )。
A. 离差平方和法要求样本间距离可以采用欧式距离、马氏距离等;
B. 重心法考虑了每一类中所包含的样本点数目;
C. 类平均法充分利用各个样本的信息;
D. 使用离差平方和作为类间距离时,如果聚类聚得恰当,类内样本点之间的离差平方和应该较小,类间离差平方和应该较大。
答案:关注公众号【】,对话框内发送试题,获得答案。
12. 快速聚类中,要确定数据到底聚成几个类合适,我们可以设定K从1到K的变化,计算相应的( ),选择其最( )的类别个数。
A. SSE;大
B. SSE;小
C. SSR;大
D. SSR;小
答案:关注公众号【】,对话框内发送试题,获得答案。
13. 分析自变量对计数因变量的影响时所建立的模型为( )。
A. 线性回归模型
B. Logistic回归模型
C. 分位数回归
D. 计数模型
答案:关注公众号【】,对话框内发送试题,获得答案。
14. P-P图或Q-Q图形在残差符合正态假定条件下,散点图看起来应该像是( )。
A. 一条水平直线
B. 一条截距为0、斜率为-1的直线
C. 一条截距为0、斜率为1的直线
D. 一条垂直直线
答案:关注公众号【】,对话框内发送试题,获得答案。
15. 假定隐变量的随机误差项服从标准正态分布的模型是( )。
A. 线性概率模型
B. 二元Probit模型
C. 二元Logit模型
D. 计数模型
答案:关注公众号【】,对话框内发送试题,获得答案。
16. 下列关于相关关系的说法不正确的是( )。
A. 相关关系主要体现为变量之间的相互依存关系
B. 主要考察变量之间的相互影响,这种影响不存在方向性
C. 相关关系是确定性的
D. 相关关系是不确定的
答案:关注公众号【】,对话框内发送试题,获得答案。
17. 下列关于相关系数r的说法不正确的是( )。
A. 当r=0时,表现为完全不相关
B. 当r=0时,表现为无线性相关
C. 当r取值为-1时,表示为完全负线性相关
D. 当r取值为1时,表示为完全正线性相关
答案:关注公众号【】,对话框内发送试题,获得答案。
18. 按相关因素(变量)之间的关系形态不同,可以将相关关系分为( )。
A. 单相关和复相关
B. 正相关和负相关
C. 线性相关和非线性相关
D. 偏相关和参数相关
答案:关注公众号【】,对话框内发送试题,获得答案。
19. 对于解决小样本、非线性及高维模式识别问题,( )表现出许多特有的优势。
A. 支持向量机
B. 最近邻分类
C. 随机森林
D. 线性判别
答案:关注公众号【】,对话框内发送试题,获得答案。
20. 每个样本都可以用它最接近的k个邻居来代表的算法是:( )
A. 支持向量机
B. 决策树
C. 最近邻分类
D. 线性判别
答案:关注公众号【】,对话框内发送试题,获得答案。
二 、多选题
1. 要研究平稳时间序列的原因为( )
A. 在平稳的保证情况下,对历史时序数据进行分析的参数估计结果也比较稳定;
B. 平稳时间序列可以直接用于对未来时序数据的预测;
C. 平稳时间序列存在“伪回归”的情况;
D. 非平稳时间序列在分析时,本来没有什么关系的变量之间可能出现“伪回归”的情况。
答案:关注公众号【】,对话框内发送试题,获得答案。
2. 随机森林的优势是( )。
A. 能够处理高维度数据,并且不用做特征选择;
B. 在训练过程中,能够检测到特征间的交互作用;
C. 训练速度快;
D. 容易做成并行化方法。
答案:关注公众号【】,对话框内发送试题,获得答案。
3. 常用的核函数有( )。
A. 线性核
B. 高斯核
C. 神经网络核国开一网一平台
D. 多项式核
答案:关注公众号【】,对话框内发送试题,获得答案。
4. 下列关于偏差和方差的说法正确的是( )。
A. 偏差和方差受模型的复杂度影响
B. 模型越复杂,偏差越小,方差越大
C. 模型越复杂,偏差越大,方差越小
D. 模型越简单,偏差越大,方差越小
答案:关注公众号【】,对话框内发送试题,获得答案。
5. 下列关于性能评估的指标说法正确的是( )。
A. 对于预测任务的数据挖掘,性能评估的指标包括平均绝对误差和均方根误差等
B. 对于分类任务的数据挖掘,评价指标一般可通过一个混淆矩阵计算得到
C. 数据挖掘方法预测性能的评估是数据挖掘中的一个重要内容
D. ROC曲线不是常用的评价方法
答案:关注公众号【】,对话框内发送试题,获得答案。
6. 缺失值的产生,有可能是因为( )。
A. 数据本身为异常值
B. 某些原因没有收集到信息
C. 对于这些个体来说这些属性是不可用的
D. 数据重复出现
答案:关注公众号【】,对话框内发送试题,获得答案。
7. 下面关于Poisson回归模型说法不正确的是( )
A. 又称为计数模型
B. 假设观测因变量数据服从Poisson分布
C. 使用极大似然法进行参数估计
D. 模型不需要进行检验
答案:关注公众号【】,对话框内发送试题,获得答案。
8. 下列不属于相关分析根据相关关系表现形式的不同划分的是( )。
A. 非线性相关分析
B. 偏相关分析
C. 非参数相关分析
D. 线性相关分析
答案:关注公众号【】,对话框内发送试题,获得答案。
9. 下面哪个原则是聚类过程中的类需要遵从的原则( )。
A. 同质性原则
B. 互斥性原则
C. 完备性原则
D. 充分性原则
答案:关注公众号【】,对话框内发送试题,获得答案。
10. 下列属于Python的第三方库的是( )。
A. Statsmodels
B. Matplotlib
C. Scipy
D. Scikit-learn
答案:关注公众号【】,对话框内发送试题,获得答案。
三 、判断题
1. 如果时间序列的一阶矩、二阶矩存在,而且对任意时刻t满足均值为常数,协方差为时间间隔的函数,则称该序列为宽平稳时间序列。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
2. Python是一种面向对象的解释型高级编程语言,其结构简单,易于学习和维护,但可移植性和可扩展性较差。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
3. 相关分析根据其分析方法和处理对象不同,可以分为线性相关分析和非线性相关分析。
A. √国开一网一平台
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
4. 对于Poisson回归模型,可以使用极大似然估计进行参数估计。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
5. 通过样本估计期望预测误差一般有重复抽样和交叉验证两种方式。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
6. Dunn指数刻画了所有类两两之间的最短距离与最大类的“直径”之比,该指数越大,说明类与类之间分得越开。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
7. 多元统计分析中的聚类分析方法既可以对样本进行分类,记为Q型分类,也可以对反映事物特征的指标或变量进行分类,记为R型分类。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
8. 除了填补缺失值,另一个处理缺失值的常用方法就是删除缺失值。这可以通过函数dropna()作用于数据框来实现。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
9. 判别分析的核心是建立判别法则。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
10. 决策树中,我们需要比较父节点与子节点的不纯度,他们的差越小,测试条件的效果就越好。
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
四 、配伍题
1. 请为名词选择①-④表示其含义的描述,将配好的A-D填写到括号中。 设dij表示第i个样本与第j个样本之间的距离。
A. ①绝对距离 ->
B. dij∞=max1≤k≤p⁡xik-xjk
C. ②切比雪夫距离 ->
D. dij1=∑k=1pxik-xjk
E. dij=Xi-Xj'∑-1Xi-Xj
F. ③马氏距离 ->
G. ④欧氏距离 ->
H. dij2=∑k=1pxik-xjk21/2
答案:关注公众号【】,对话框内发送试题,获得答案。
关注公众号【】,回复【试题】获取试题答案





上一篇:【国开搜题】国家开放大学 一网一平台24春大数据分析与挖掘技术试卷包01期末考试押题试卷与答案
下一篇:【国开搜题】国家开放大学 一网一平台24春传感器与测试技术09期末考试押题试卷与答案
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

精彩课程推荐
|网站地图|网站地图