数据处理面试题与解析1

优质

小牛编辑

152浏览

2023-03-28

数据处理面试题与解析1

面试高频题1：

题目：处理噪声数据方法

答案解析：

1、分箱

分箱方法是一种简单常用的预处理方法，通过考察相邻数据来确定最终值。所谓“分箱”，实际上就是按照属性值划分的子区间，如果一个属性值处于某个子区间范围内，就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据（某列属性值）按照一定的规则放进一些箱子中，考察每一个箱子中的数据，采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时，需要确定的两个主要问题就是：如何分箱以及如何对每个箱子中的数据进行平滑处理。

分箱的方法：有4种：等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。

（1）统一权重

也称等深分箱法，将数据集按记录行数分箱，每箱具有相同的记录数，每箱记录数称为箱子的深度。这是最简单的一种分箱方法。

（2）统一区间

也称等宽分箱法，使数据集在整个属性值的区间上平均分布，即每个箱的区间范围是一个常量，称为箱子宽度。

（3）用户自定义区间

用户可以根据需要自定义区间，当用户明确希望观察某些区间范围内的数据分布时，使用这种方法可以方便地帮助用户达到目的。

例：客户收入属性income排序后的值（人民币元）：800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000，分箱的结果如下。

统一权重：设定权重（箱子深度）为4，分箱后

箱1：800 1000 1200 1500

箱2：1500 1800 2000 2300

箱3：2500 2800 3000 3500

箱4：4000 4500 4800 5000

统一区间：设定区间范围（箱子宽度）为1000元人民币，分箱后

箱1：800 1000 1200 1500 1500 1800

箱2：2000 2300 2500 2800 3000

箱3：3500 4000 4500

箱4：4800 5000

用户自定义：如将客户收入划分为1000元以下、、2000-3000、3000-000和4000元以上几组，分箱后

箱1：800

箱2：1000 1200 1500 1500 1800 2000

箱3：2300 2500 2800 3000

箱4：3500 4000

箱5：4500 4800 5000

（4）数据平滑方法

数据平滑方法又可以细分为：平均值平滑、按边界值平滑和按中值平滑。

按平均值平滑

对同一箱值中的数据求平均值，用平均值替代该箱子中的所有数据。

按边界值平滑

用距离较小的边界值替代箱中每一数据。

按中值平滑

取箱子的中值，用来替代箱子中的所有数据。

2、聚类

将物理的或抽象对象的集合分组为由类似的对象组成的多个类。

找出并清除那些落在簇之外的值（孤立点），这些孤立点被视为噪声。

3、回归

试图发现两个相关的变量之间的变化模式，通过使数据适合一个函数来平滑数据，即通过建立数学模型来预测下一个数值，包括线性回归和非线性回归。

答案解析

这道题主要考察对噪声数据的处理，在建模过程中，前期数据的处理非常麻烦，所以对噪声数据的处理就更加重要了。常用的噪声处理有3种，为分箱，聚类，回归。

面试高频题2：

题目：常用pandas哪个包

答案解析：

pandas中主要有两种数据结构，分别是：Series和DataFrame。 Series：一种类似于一维数组的对象，是由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据也可产生简单的Series对象。 DataFrame：

数据处理面试题与解析1

面试高频题1：

题目：处理噪声数据方法

答案解析：

面试高频题2：

题目：常用pandas哪个包

答案解析：

热门公司

相关阅读

推荐文章

推荐题库

推荐问答