1.4 Python在机器学习中的应用
Python是数据科学领域最流行的编程语言之一,因此拥有大量由众多社区开发的附加扩展库。
对于计算密集型任务,尽管解释型语言(如Python)在性能方面不如低级别语言,但使用相对低级别语言(如Fortran和C等)开发的扩展库(如NumPy、SciPy等)实现了多维数组高速向量化的运算。
处理机器学习程序开发任务,我们主要使用最流行的开源机器学习库scikit-learn来完成。
安装Python包
Python可用于主流的三大操作系统:Microsoft Windows、Mac OS X和Linux。所有版本的安装程序、文档均可以从Python官网下载:https://www.python.org。
本书中示例需使用Python 3.4.3及以上版本,建议读者安装Python 3的最新版本,不过大部分示例程序均兼容Python 2.7.10及之后的版本。如果读者决定使用Python 2.7运行示例代码,请确保了解这两个Python版本之间的主要区别。链接https://wiki.python.org/moin/Python2orPython3详细地比较了Python 3.4和2.7之间的差异。
本书中所用到的其他包可通过pip来进行安装,在Python 3.3中,pip已经默认为Python标准库的一个组成部分。更多信息请参照链接:https://docs.python.org/3/installing/index.html。
成功安装Python后,我们可以在终端中通过pip命令安装附加Python包:
已经安装的扩展包,可通过——upgrade选项对其进行更新:
强烈推荐由Continuum Analytics开发的Python版本Anaconda来进行科学计算。Anaconda是一款免费的、内置商业应用的Python版本,它已经内置了应用于数据科学、数学、工程领域所需的核心包,是一个用户友好的跨平台发行版本。Anaconda的安装程序可通过链接http://continuum.io/downloads#py34下载,链接https://store.continuum.io/static/img/Anaconda-Quickstart.pdf提供其快速指南手册。
在成功安装Anaconda后,我们可以使用如下命令安装Python包:
可使用如下命令更新现有包:
本书主要使用NumPy的多维数组存储和处理数据。我们也会用到pandas,它是一个建立在NumPy上、更方便处理表格类数据的附加工具包。为了使读者对数据有个直观的感觉,以提高学习体验和数据可视化的质量,我们使用了可高度定制的matplotlib库。
本书使用的主要的Python包的版本如下。请确保你选择的版本号满足此要求或者比所列版本更新,以保证示例代码能正确运行。
·NumPy 1.9.1
·SciPy 0.14.0
·scikit-learn 0.15.2
·matplotlib 1.4.0
·pandas 0.15.2