本章小结
在本章中,我们从宏观上讨论了机器学习,并且介绍相关的重点和主要概念,后续章节会对这些问题进行更详细的探讨。
通过本章的学习,我们已经了解到,监督学习由两个重要的子领域组成:分类和回归。其中,我们可以通过分类技术将对象划分到不同的类别中,而回归则能够对输出为连续型的目标变量进行预测。无监督学习不仅能从众多的无类标数据中发现其整体结构,同时在特征预处理阶段的数据压缩中也发挥了重要作用。
我们还简要介绍了将机器学习应用到实际工作中的具体路线图,这些内容也为在后续章节中做进一步探讨和实践打好了基础。最后,还介绍了Python运行环境及其安装过程,并讲解了如何更新所需的包以满足机器学习实战的需要。
在下一章中,我们将实现一个分类领域最早提出的机器学习算法,并以此作为第3章的铺垫。在第3章中,将借助于开源的机器学习库scikit-learn来讲解更加高级的机器学习算法。既然机器学习算法是通过数据来进行学习,因此如何将有用的信息输入到算法中是至关重要的,第4章将介绍数据预处理技术的几种重要方法。降维是数据预处理领域的一种重要技术,它使得我们可以将数据压缩到一个相对低维的特征子空间上,这对提高机器学习算法的计算效率是非常有效的,大家可以在第5章学到降维的相关内容。在第6章,大家将学习到模型评估和参数调优技术。不过,在某些情况下,即使在参数调优与测试上花费了大量的时间与精力,模型的预测性能可能仍旧无法达到我们的预期。第7章将介绍如何通过组合不同的机器学习算法来构造一个性能更加强大的预测系统。
在掌握了机器学习领域中相关的重要概念之后,我们将了解一下机器学习在实际工作中的应用:第8章介绍使用模型来对文本数据做情感分析;而通过第9章的学习,大家可以了解如何将机器学习模型嵌入到Web应用程序中,使其在整个网络范围内得以共享。如何对目标值为连续变量的数据进行预测分析是机器学习领域的一个重要分支,我们将在第10章中通过回归分析来对其进行讲解。第11章则主要介绍如何通过聚类算法来发现数据中隐含的结构。本书最后将介绍神经网络,这是目前机器学习研究领域的热门话题之一,它使得我们可以解决复杂的问题,如图像和语音识别等。