机器学习算法最终学习结果的优劣取决于两个主要因素:数据的质量和数据中蕴含的有用信息的数量。因此,在将数据集应用于学习算法之前,对其进行检验及预处理是至关重要的。在本章中,我们将讨论主要的数据预处理技术,使用这些技术可以高效地构建好的机器学习模型。
本章将涵盖如下主题:
·数据集中缺失数据的删除和填充
·数据格式化
·模型构建中的特征选择