2025年春江苏开放大学机器学习辅导资料

[复制链接]
查看: 7|回复: 0

24万

主题

24万

帖子

34万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
341694
发表于 2025-3-20 17:30:45 | 显示全部楼层 |阅读模式
文档说明:本人针对该科精心汇总了历年题库及答案,形成一个完整的题库,并且每年都在更新。该题库对考生的复习、作业和考试起着非常重要的作用,会给您节省大量的时间。做考题时,利用本文档中的查找工具,把考题中的关键字输到查找工具的查找内容框内,就可迅速查找到该题答案。本文库还有期末考核试题、其他网核及教学考一体化、一网一平台复习试题与答案,敬请查看。
课程题目试题是随机的,请按题目关键词查找(或按Ctrl+F输入题目中的关键词,尽量不要输入整个题目,不要复制空格,连续的几个字就行)
本文由
江开
搜题提供,禁止复制盗取,违者必究
本文由
江开
搜题提供,禁止复制盗取,违者必究
本文由
江开
搜题提供,禁止复制盗取,违者必究
机器学习
学校: 无
问题 1: 1. 下列模型中属于回归模型的是?
选项:

A.
线性回归

B. ID3

C.
逻辑回归

D. DBSCAN
答案: 线性回归
问题 2: 2. 下列关于软投票说法错误的是?
选项:

A.
投票表决器可以组合不同的基分类器

B.
可以对每个基分类器设置权重,⽤于对预测概率求进⾏加权平均

C.
使用概率平均的⽅式来预测样本类别

D.
软投票过程中每个基分类器都预测⼀个类别
答案: 软投票过程中每个基分类器都预测⼀个类别
问题 3: 3. 下列有关DBSCAN聚类算法的理解有误的⼀项是()
选项:

A.
不需要预先设置聚类数量
k

B.
对数据集中的异常点敏感

C.
可以对任意形状的⾼密度数据集进⾏聚类,相对的,
K-Means
之类的聚类算法⼀般只适⽤于凸数据


D.
调参相对于传统的
K-Means
之类的聚类算法稍复杂,需要对距离阈值
ϵ
,邻域样本数阈

MinPts
联合调参,不同的参数组合对最后的聚类效果有较⼤影响
答案: 对数据集中的异常点敏感
问题 4: 4. 下列有关词袋表示法的理解有误的是()
选项:

A.
不考虑词语出现的顺
序,每个出现过的词汇单独作为⼀列特征

B.
不重复的特征词汇集合为词表

C.
将每个⽂本对应词表转化为特征向量

D.
仅出现在少数本⽂的词汇,⼀般被标记为停⽤词不计⼊特征向量
答案: 仅出现在少数本⽂的词汇,⼀般被标记为停⽤词不计⼊特征向量
问题 5: 5. 下列有关特征抽取和特征选择的说法有误的⼀项是()
选项:

A.
特征抽取和特征选择是达到降维⽬的的两种途径

B.
特征选择的⽬标是从原始的
d
个特征中选择
k
个特征

C. PCA

LDA
是特征选择的两种主要⽅法

D.
特征抽取的⽬标是根据原始的
d
个特征的组合形成
k
个新的特征,即将数据从
d
维空间映射到
k
维空间
答案: PCA和LDA是特征选择的两种主要⽅法
问题 6: 6. 若集成模型中,预测值表示为,真实值为,则Adaboost的损失函数(Loss Function)
表示为()
选项:

A.

B.

C.

D.
答案: 无信息
问题 7: 7. 以下四个算法中,哪个不属于Scikit-learn聚类的主要算法()
选项:

A. cluster.SpectralClustering

B. cluster.KMeans

C.
cluster.AgglomerativeClustering

D. neighbors.KNeighborsRegressor
答案
:
请关注
查看答案
问题 8: 8. 下列有关过滤式特征选择的说法错误的是()
选项:

A.
过滤式特征选择的⽅法是评估单个特征和结果值之间的相关程度,
留下相关程度靠前的特征

B.
过滤式特征选择的评价指标主要有
Pearson
相关系数,
互信息,
距离相关度等;其中卡⽅检

(chi2)

F
检验回归
(f_regression) ,
互信息回归
(mut
ual_info_regression)
⽤于回归问
题,
F
检验分类
(f_classif) ,
互信息分类
(mutual_info_classif)
⽤于分类问题

C.
过滤式特征选择的缺点是只评估了单个特征对结果的影响,没有考虑到特征之间的相关作⽤,可能
剔除有⽤的相关特征

D. Scikit-learn
中实现过滤式特征选择的
SelectKBest
类可以指定过滤个数,
SelectPercentile

可以指定过滤百分⽐
答案
:
请关注
查看答案
问题 9: 9. 箱线图是检测离群值的⽅法,下⾯关于箱线图的说法不正确的是?
选项:

A.
箱外的两条线(胡须)分别延伸到最⼩和最⼤⾮异常点

B.
四分位距
IQR = 1.5 ( Q3-Q1 )
,其中
Q3
为上四分位数,
Q1
为下四分位数

C.
箱中⾼于上边缘和低于下边缘的值为离群点

D.
箱线图中框的上边线表示上四分位数,框的下边线表示下四分位数
答案
:
请关注
查看答案
问题 10: 10. 下图给出了三个节点的相关信息,请给出特征A1、A2及A3的特征重要性递减排序()
选项:

A. A3>A1>A2

B
. A1>A2>A3

C.
所给信息不⾜。

D. A2>A3>A1
答案
:
请关注
查看答案
问题 11: 11. 兰德系数和轮廓系数都是常⽤的聚类分析指标,以下对兰德系数和轮廓系数说法错误的是
选项:

A.
轮廓系数适⽤于实际类别信息未知的情况

B.
兰德系数取值为
[0,1]
,越⼤聚类结果与真实情况越接近

C.
在聚类结果随机产⽣的情况下,兰德系数不能保证系数接近于
0

D.
调整兰德系数取值范围为
[-1,1]
,负数代表结果不好,越接近于
0
越好
答案
:
请关注
查看答案
问题 12: 12. 下列有关ROC曲线与AUC的描述错误的是
选项:

A. AUC
的⼏何意义为
ROC
曲线与横轴
FPR
之间的⾯积

B. ROC
曲线可以⽤来考察模型的预测能⼒

C. ROC
曲线越靠近
(0, 1)
证明模型整体预测能⼒越差

D. AUC
的取值为
[0.5, 1]
答案
:
请关注
查看答案
问题 13: 13. 关于线性回归模型的正则化,下列选项叙述不正确的是:
选项:

A.
正则化的常⽤⽅法为岭回归和
LASSO
,主要区别在于岭回归的⽬标函数中添加了
L2
惩罚函数,⽽
LASSO
的⽬标函数中添加的是
L1
惩罚函数

B.
在求解
LASSO
时,常⽤的求解算法包括坐标下降法、
LARS
算法和
ISTA
算法等

C.
对⽐岭回归和
LASSO
,岭回归更容易得到稀疏解

D.
正则化可以减⼩线性回归的过度拟合和多重共线性等问题
答案
:
请关注
查看答案
问题 14: 14. 关于三种常⻅的稳健性回归⽅法--Huber回归、RANSAC回归和泰尔森回归,下列选项说法
正确的是:
选项:

A.
泰尔森回归⽐
RANSAC
回归在样本数量上的伸缩性(适应性)好

B.
从回归的速度上看,⼀般来说,
Huber
回归最快,其次是
RANSAC
回归,最慢的是泰尔森回归

C. Huber
回归可以更好地应对
X
⽅向的中等⼤⼩的异常值,但是这个属性将在⾼维情况下消失

D.
⼀般情况下,泰尔森回归可以更好地处理
y
⽅向的⼤值异常点
答案
:
请关注
查看答案
问题 15: 15. 下列关于特征选择⽬的和原则的说法错误的是( )
选项:

A.
⽅差较⾼的特征应该被剔除

B.
与⽬标特征相关性⾼的特征应该优先被选择

C.
特征选择可以有效提升模型性能

D.
特征选择能有效降低特征维度,简化模型
答案
:
请关注
查看答案
问题 16: 16. 下列有关轮廓系数的说法错误的是()
选项:

A.
某个样本的轮廓系数接近
1
,说明该样本聚类结果合理

B.
所有样本的轮廓系数均值为聚类结果的轮廓系数,是该聚类是否合理、有效的度量

C.
某个样本的轮廓系数近似为
0
,说明该样本在两个簇的边界上

D.

个样本的轮廓系数的绝对值接近
1
,说明该样本聚类结果合理
答案
:
请关注
查看答案
问题 17: 17. 以下程序语句有误的是()
选项:

A. clf=LogisticRegression(penalty='l1',random_state=10,solver='liblinear')

B.
clf=LogisticRegression(penalty='l1',random_state=10,solver='lbfgs')

C. clf=LogisticRegression(penalty='l2',solver='newton-cg')

D. clf=LogisticRegression(penalty='l2',random_state=10,solver='liblinear')
答案
:
请关注
查看答案
问题 18: 18. 将连续型特征离散化后再建⽴逻辑回归模型,这样做对模型有什么影响( )
选项:

A.
易于模型的快速迭代

B.
计算结果⽅便存储,容易扩展。

C.
起到简化逻辑回归模型的作⽤

D.
离散化后的特征对异常数据敏感
答案
:
请关注
查看答案
问题 19: 19. 现有⼀个垃圾邮件分类问题,⽤N个关键词汇X1,X2,...,XN作为特征,将所有的邮件分类为垃圾邮件C1与正常邮件C2。m1为出现了关键词汇X1的垃圾邮件数量,m为垃圾邮件总数,M 为所有邮件总数,则下列加⼊Laplace平滑(平滑系数为1)的概率公式表示正确的是( )
选项:

A
.

B.

C.

D.
答案
:
请关注
查看答案
问题 20: 20. 下列哪些⽅法可以解决数据集的线性不可分问题( )
选项:

A.
软间隔
SVM

B.
硬间隔
SVM

C.
多项式核
SVM

D.
⾼斯核
SVM
答案
:
请关注
查看答案
问题 21: 21. 分类正确率、混淆矩阵是评价分类模型效果的重要依据,下列编程语句有错误的是( ) (其
中x , y 是训练集和训练集标签,分别为DataFrame对象和Series对象)
选项:

A.
语句(
1


B.
语句(
2


C.
语句(
3


D.
语句(
4

答案
:
请关注
查看答案
问题 22: 22. 以下关于集成模型中提升法(boosting)与装袋法(bagging)的⽐较,说法正确的是()
选项:

A. Boosting
的学习器可并⾏训练,⽆顺序;
Bagging
的学习器需要串⾏进⾏,有顺序。

B.
Boosting
⼀般采⽤整个训练集训练学习器;
Bagging
则采⽤部分训练集,没⽤到的数据可⽤于测
试。

C. Boosting
主要⽤于⽤于抑制过拟合;⽽
Bagging
主要⽤于优化弱分类器。

D. Adaboost
是⼀种
Boosting
⽅法;
Random Forest
是⼀种
Bagging
⽅法。
答案
:
请关注
查看答案
问题 23: 23. 下列关于缺失值处理的说法错误的是( )
选项:

A.
连续型特征可以使⽤众数来插补缺失值

B.
可以将缺失值作为预测⽬标建⽴模型进⾏预测,以此来插补缺失


C.
离散型特征可以使⽤平均值来插补缺失值

D.
根据经验,可以⼿动对缺失值进⾏插补
答案
:
请关注
查看答案
问题 24: 24. 下列关于软投票说法正确的是?(多选)
选项:

A.
可以对每个基分类器设置权重,⽤于对预测概率求进⾏加权平均

B.
投票表决器可以组合不同的基分类器

C.
使用概率平均的⽅式来预测样本类别

D.
软投票过程中每个基分类器都预测⼀个类别
答案
:
请关注
查看答案
问题 25: 25. 下列关于⽂本特征抽取中TF-IDF ⽅法理解正确的是()
选项:

A. TF-IDF
⽅法有效过滤掉不常⻅的词语

B. IDF
即逆⽂本频率:词频的权重调整系数

C. TF
即词频:某词汇在该⽂本中出现的频率

D. TF-IDF = TF * IDF
答案
:
请关注
查看答案
问题 26: 26. 关于sklearn中的KNeighborsClassifier 算法类,下列说法正确的是()
选项:

A.
参数
'n_neighbors'
的取值应该越⼤越好

B.
距离度量附属参数
p
可设置为
p
=2“euclidean”(
欧式距离
)

p =1

“manhattan”(
曼哈顿距离
)
,默认为
2

C. K
近邻算法通过对以样本
a
为圆⼼,半径为
k
的圆内的训练样本进⾏多数投票来确定样本
a
的类别。

D.
当样本分布较乱,预测效果不好时,可将
weights
设置为
“distance”
,将距离⽬标更近的近邻点赋
予更⾼的权重,来改善预测效果
答案
:
请关注
查看答案

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x





上一篇:学起plus第十二章辅导资料
下一篇:中国大学mooc2024-2025-1学期信息技术2_计算机2重修辅导资料
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

精彩课程推荐
|网站地图|网站地图