|
|
20230506大数据预处理试卷-14
关注公众号【】,回复【试题】获取试题答案

一 、单选题
1. 下列对定性变量的描述中,不正确的是()。
A. 顺序型变量可以转变为哑变量。
B. 连续型数据很难转变为定性数据。
C. 多分类定性变量可以转变为哑变量。
D. 顺序型变量可以转变成得分变量。
答案:B
- 关注公众号【】,对话框内发送试题,获得答案。
2. 下列表述中,正确的是()。,我们的目标是要做全覆盖、全正确的答案搜索服务。
A. 含有缺失值的变量必须被剔除
B. 数据缺失的原因是该数据不存在。
C. 数据缺失会造成模型解释能力下降。
D. 非随机缺失类型是指数据的缺失仅仅依赖于其它变量。
答案:C
- 关注公众号【】,对话框内发送试题,获得答案。
3. 下列选项中与哑变量具有不同含义是()。
A. 二分类变量
B. 虚拟变量
C. 0-1型变量
D. 数值型变量
答案:D
- 关注公众号【】,对话框内发送试题,获得答案。
4. 数据中心化公式为()。
A. Xscaled=X−X-S。
B. Xscaled=X−X-。
C. Xscaled=XXmax。
D. Xscaled=X−MedianIQR。
答案:B
- 关注公众号【】,对话框内发送试题,获得答案。
5. 下列关于数据归约的表述中,不正确的是()。
A. 过多的数据会导致模型训练效率低下。
B. 在进行数据分析前可以通过数据归约简化数据。
C. 为了简化数据,可以允许损失较多的信息。
D. 在样本量增加到一定程度后,信息含量趋近于不变。
答案:关注公众号【】,对话框内发送试题,获得答案。
6. 确定某个数据是否为异常值时,需要比较该值与()的距离。
A. 平均值
B. 中值国开一网一平台
C. 最大值
D. 最小值
答案:关注公众号【】,对话框内发送试题,获得答案。
7. 下列关于数据预处理的表述中,不正确的是()。
A. 具备专业经验的数据科学家可以在数据分析前忽略数据预处理。
B. 数据预处理是在数据采集后,分析前这段时间里对数据进行的处理操作。
C. 数据预处理的效果与数据分析顺利与否直接相关。
D. 数据预处理往往占据数据分析项目总工作量的60%以上。
答案:关注公众号【】,对话框内发送试题,获得答案。
8. 下列关于数据中心化的表述中,不正确的是()。
A. 中心化后,平均值变为0。
B. 中心化后,标准差发生改变。
C. 中心化后,极差没有发生改变。
D. 中心化后,分布形状没有发生改变。
答案:关注公众号【】,对话框内发送试题,获得答案。
9. 下图是某分类变量各类别计数分布的箱线图,从图中可知()。

A. 少部分分类计数很低。
B. 该变量类别数量非常多。
C. 这个变量不存在低频分类现象。
D. 绝大多数分类计数很高。
答案:关注公众号【】,对话框内发送试题,获得答案。
10. 下列关于数据错误的表述中,不正确的是()。
A. 数据集中所有错误的数据都可以被发现并予以纠正。
B. 数据自身的逻辑规律可以帮助我们发现一些数据错误。
C. 类别名称不统一会造成数据错误。
D. 文字表述不规范会造成数据错误。
答案:关注公众号【】,对话框内发送试题,获得答案。
二 、判断题
1. 通过考察变量中每一个样本值与变量分布中心的相对距离来识别异常值。()?
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
2. 经过Min-Max缩放,数据的正负不会发生改变。()?
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
3. Spearman相关系数小于0时,两个变量正相关。()?
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
4. 多分类定性变量可以转变为one-hot码。()?
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
5. 在数据预处理时,数据集里面变量的数量不能发生变化。()?
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
6. 在数据存储过程中,由于设备故障造成存储失败而导致的数据缺失,属于客观条件原因。()?
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
7. “分箱”是主观法数据离散化的方法。()?
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
8. 低频分类数据的形成完全是来源于数据采集是的不规范格式。()?
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
9. 变量选择的目的是减少数据集的列,样本归约的目的是减少数据集的行。()?
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
10. 数据中心化是数据标准化的第一个步骤。()?
A. √
B. ×
答案:关注公众号【】,对话框内发送试题,获得答案。
三 、问答题
1. 简述数据离散化方法中的等宽法的适用情况。
答案:关注公众号【】,对话框内发送试题,获得答案。
2. 请简述使用相关系数选择变量的思想和步骤。
答案:关注公众号【】,对话框内发送试题,获得答案。
四 、填空题
1. 对group_a组和group_b组样本进行方差分析的F检验: anova = (group_a, group_b)
A. f_oneway
答案:关注公众号【】,对话框内发送试题,获得答案。
2. 将数据集data中的所有变量缩放到区间[0,5],结果保存在data_scale中: new_scaler = MinMaxScaler (feature_range=(0,5)) data_scaler = .fit_transform(data)
A. new_scaler
答案:关注公众号【】,对话框内发送试题,获得答案。
3. 对序列B进行标准化,结果保存在B1中: B1 = (B, with_std= true)
A. scale
答案:关注公众号【】,对话框内发送试题,获得答案。
4. 请将定性变量序列s其转换为哑变量,每个哑变量的变量名均以字母d开头,并将结果存储于数据框df中: df = pd.get_dummies(s, ="d")
A. prefix
答案:关注公众号【】,对话框内发送试题,获得答案。
5. 使用boston数据集实现GBDT模型填补。首先初始化一个GBDT模型,模型的训练集为train,将含有缺失值的变量LSTAT作为目标变量,其余变量作为自变量拟合模型: train = boston.dropna(subset=["LSTAT"]) = GradientBoostingRegressor() GBDT.fit(X=train.drop("LSTAT",axis=1 ), y=train["LSTAT"])
A. GBDT,我们的目标是要做全覆盖、全正确的答案搜索服务。
答案:关注公众号【】,对话框内发送试题,获得答案。
6. 计算序列y与数据集X中每一个变量的Pearson相关系数,并将结果依次存储在序列p中: for i in X: p = pearsonr(y, X)_____
A. [0]
答案:关注公众号【】,对话框内发送试题,获得答案。
7. 对data数据采用等宽分箱,分组数为5组,结果保存在result中: result = pd.cut(data, =5)
A. bins
答案:关注公众号【】,对话框内发送试题,获得答案。
8. 将数据集data中变量v1的缺失值使用其众数进行填补,将填补完的变量保存在v1_fill中: v1_fill = data["v1"].fillna(data["v1"]. [0])
A. mode()
答案:关注公众号【】,对话框内发送试题,获得答案。
9. 使用截断方法,将大于data_mean+5*data_std赋值为data_mean+5*data_std : data[data. (data_mean+5*data_std)] = data_mean+5*data_std
A. gt
答案:关注公众号【】,对话框内发送试题,获得答案。
10. 在序列d1中以字符串形式存储这日期数据,其格式类似于:"2022/08/28",请将d1中的所有日期转换为日期时间型数据并存储于d2中。 d2 = pd. (d1, format="%Y/%m/%d")
A. to_datetime
答案:关注公众号【】,对话框内发送试题,获得答案。
五 、综合题
1. 请写出下方代码的功能 date2 = pd.to_datetime(date1, format="%Y/%m/%d") y = date2.dt.year m = date2.dt.month d = date2.dt.day
答案:关注公众号【】,对话框内发送试题,获得答案。
2. 已知变量x为数值型变量,请写出下方代码的功能,并说明操作结果1和操作结果2输出的内容。 x_bin = x.ge(300) | x.le(1000) x_bin = x_bin.astype(int) d1 = {"X":x, "bin":x_bin} p1 = pd.DataFrame(data = d1) print(“操作结果1: %s”%p1) print(“操作结果2: %s”%x_bin.value_counts())
答案:关注公众号【】,对话框内发送试题,获得答案。
关注公众号【】,回复【试题】获取试题答案
 |
上一篇:【国开搜题】国家开放大学 一网一平台20230506大数据预处理试卷39期末考试押题试卷与答案下一篇:【国开搜题】国家开放大学 一网一平台20230506大数据预处理试卷09期末考试押题试卷与答案
|