译者序
机器学习是一门研究如何使用计算机模拟人类行为,以获取新的知识与技能的学科。它是人工智能的核心,同时也是处理大数据的关键技术之一。机器学习的主要目标是自动地从数据中发现价值的模式,亦即将原始信息自动转换为人们可以加以利用的知识。
随着科技的进步,特别是互联网技术的发展,使得我们在不知不觉中被卷入了大数据时代。传统的方法已经无法处理如此庞大的数据量,而机器学习技术正是解决此问题的良方。
不同于晦涩的学术书籍,本书是为程序员而作,因此没有过多枯燥的理论讲解,而是借助于Python语言及其机器学习库scikit-learn来帮助程序员快速理解算法的核心与本质,并能在生产环境轻松地加以应用。
本书对机器学习的各种算法进行了系统的讲解。第1章对机器学习以及Python在机器学习中的应用进行了简要的介绍,在后续章节分别讨论了数据分类(第2、3章)、数据预处理(第4、5章)、模型优化(第6章)、集成学习(第7章)、回归(第10章)、聚类(第11章),以及当前流行的神经网络及其深度学习(第12、13章)。每个章节基本上都是按照算法介绍、Python实现,以及使用scikit-learn来应用算法这样的模式进行讨论的,让读者既能掌握算法的本质,又能尽快将其应用到实际开发中去。
第8、9章介绍了机器学习与其他技术相结合的使用情况。第8章通过与自然语言处理方法相结合,以IMDb电影评论数据集作为信息来源,借助于文本处理技术,对用户的情感倾向进行了分析。第9章包含许多实用的主题,包括如何序列化训练得到的模型、使用SQLite存储数据等,并通过实例演示了如何通过Web来分享分类模型的使用。
翻译的过程本身也是一个学习提高的过程,我们已经尽量去保证译文的准确性,但错误仍旧在所难免,如有问题还恳请读者不吝指教。此外,在本书出版后,我们将与同济大学和深圳大学合作,分别在上海、深圳两地就本书的内容与读者进行多次交流与讲解活动,有兴趣的读者可以邮件联系:gaomingsz@vip.163.com。
在翻译本书的过程中得到了深圳市意行科技开发公司、上海市公安高等专科学校、深圳市六度人和科技有限公司等单位领导的支持,在此一并表示感谢。
高明
gaomingsz@vip.163.com