This repository contains the entire Python Data Science Handbook, in the form of (free!) Jupyter notebooks.
本代码仓库包含着整本Python Data Science Handbook书籍,使用免费的Jupyter notebook格式呈现。
译者注:作者英文版原仓库地址。
- Read the book in its entirety online at https://jakevdp.github.io/PythonDataScienceHandbook/
- Run the code using the Jupyter notebooks available in this repository's notebooks directory.
- Launch executable versions of these notebooks using Google Colab:
- Launch a live notebook server with these notebooks using binder:
- Buy the printed book through O'Reilly Media
The book was written and tested with Python 3.5, though other Python versions (including Python 2.7) should work in nearly all cases.
本书在Python 3.5环境中编写和测试,但其他的Python版本(包括Python 2.7)也应该可以通过绝大部分示例。
The book introduces the core libraries essential for working with data in Python: particularly IPython, NumPy, Pandas, Matplotlib, Scikit-Learn, and related packages.Familiarity with Python as a language is assumed; if you need a quick introduction to the language itself, see the free companion project,A Whirlwind Tour of Python: it's a fast-paced introduction to the Python language aimed at researchers and scientists.
本书介绍了在Python中操作数据的核心库:特别包括 IPython, NumPy, Pandas, Matplotlib, Scikit-Learn 和其他相关的包。预设前提是读者已经熟悉Python语言;如果你需要语言本身的一个快速入门介绍,可以去参考兄弟项目,A Whirlwind Tour of Python: 这是一个面向研究人员和科学家的快速Python语言入门介绍。
译者注:Python旋风之旅中文翻译已经全部完成。
See Index.ipynb for an index of the notebooks available to accompany the text.
可以参见目录查看所有notebooks的列表。
The code in the book was tested with Python 3.5, though most (but not all) will also work correctly with Python 2.7 and other older Python versions.
本书的代码在Python 3.5环境中测试通过,但绝大部分情况下,代码都能在Python 2.7和其他更早的版本下正常使用。
译者注:Python2将于2020年1月停止维护,因此强烈不建议继续使用Python2。
The packages I used to run the code in the book are listed in requirements.txt (Note that some of these exact version numbers may not be available on your platform: you may have to tweak them for your own use).To install the requirements using conda, run the following at the command-line:
$ conda install --file requirements.txt
运行本书的代码需要用到的第三方包列在 requirements.txt 文件中(请注意,部分确定版本的包可能并不适用于你的系统:你可能需要根据需要调整它们)。要使用 conda 安装需要的依赖包,可以执行下面的命令:
$ conda install --file requirements.txt
To create a stand-alone environment named
PDSH
with Python 3.5 and all the required package versions, run the following:
$ conda create -n PDSH python=3.5 --file requirements.txt
如果需要创建一个独立的Python环境,例如叫PDSH
,使用Python 3.5环境和安装所需的第三方包,执行下面的命令:
$ conda create -n PDSH python=3.5 --file requirements.txt
You can read more about using conda environments in the Managing Environments section of the conda documentation.
可以参见conda文档的管理Python环境章节了解更多的内容。
不翻译了,MIT license。
The code in this repository, including all code samples in the notebooks listed above, is released under the MIT license. Read more at the Open Source Initiative.
不翻译了,CC-BY-NC-ND license。
The text content of the book is released under the CC-BY-NC-ND license. Read more at Creative Commons.
第一章 IPython:更好用的Python Shell還是Notebook IPython 的求助與說明文件 在IPython Shell中的快捷鍵 IPython的Magic命令 輸入和輸出的歷程 IPython和Shell命令 和Shell相關的Magic命令 錯誤以及除錯 剖析和測定程式碼的時間 第二章 NumPy介紹 瞭解Python的資料型態 NumPy陣列基礎 NumPy 陣列屬性
知乎问题回答 Python学习完基础语法知识后,如何进一步提高? 如果你已经完成了Python基础语法的学习,想要知道接下来如何提高,那么你得先问问自己你要用Python来做什么?目前学习Python后可能的就业方向包括以下几个领域,我把每个领域需要的技术作为了一个简单的关键词摘要。 说明:以下数据参考了主要的招聘门户网站以及职友集。 职位 所需技能 招聘需求量 Python后端开发工程师 Pyt
商品描述: For many researchers, Python is a first-class tool mainly because of its libraries for storing, manipulating, and gaining insight from data. Several resources exist for individual pieces of this
import numpy as np import matplotlib.pyplot as plt import seaborn; seaborn.set() rand = np.random.RandomState(42) x = rand.rand(10,2) #数组 plt.scatter(x[:,0],x[:,1],s=100) #数组第一列为横坐标,第二列为纵坐标 s=100:散点大
饺子大人的Python-Pandas 我假设你已经有了一定的python基础,而是在日常的使用中为不知道某个函数的功能而发愁的小伙伴。以下是我总结分享出Numpy的一些函数的使用方法。希望能够帮助到大家。 如果您觉得我分享的内容对您有点帮助的话,请点赞收藏吧。 肯定有错,当然不全,但按你胃(Anyway),成长的路上就是要不断的犯错。 博客中的代码都可以在我的GitHub中找到,需要的小伙伴请移步
32_Pandas『Python Data Science Handbook』(英文的免费在线版本) 『Python Data Science Handbook』对一下内容进行了详细的总结 Numpy Pandas Matplotlib Scikit-Learn 值得庆幸的是,在线全文可以在网上找到。图表也按原样显示。 Python Data Science Handbook 还提供Jupyter
本书中,我已经介绍了Python数据分析的编程基础。因为数据分析师和科学家总是在数据规整和准备上花费大量时间,这本书的重点在于掌握这些功能。 开发模型选用什么库取决于应用本身。许多统计问题可以用简单方法解决,比如普通的最小二乘回归,其它问题可能需要复杂的机器学习方法。幸运的是,Python已经成为了运用这些分析方法的语言之一,因此读完此书,你可以探索许多工具。 本章中,我会回顾一些pandas的特
可以在线获取Python Data Scinece Handbook, 章节打开的速度比较慢,可以看一小节的时候,loading另外一个小节。 Chapter 2 Understanding numpy[认识numpy模块在数据处理中的重要性] numpy的基本知识点(nuts and bolts) 动态创建更耗费内存 在第一小节中介绍到python这种动态编程语言因为允许不用声明而创建变量,所以
数据是新的石油。 该声明显示了如何通过捕获,存储和分析满足各种需求的数据来驱动每个现代IT系统。 无论是为商业做出决定,预测天气,研究生物学中的蛋白质结构还是设计营销活动。 所有这些情景都涉及使用数学模型,统计数据,图表,数据库以及数据分析背后的商业或科学逻辑的多学科方法。 因此,我们需要一种能够满足数据科学所有这些不同需求的编程语言。 Python就像一种语言一样闪亮,因为它拥有众多的库和内置功
Learn Python for Data Science A collection of Jupyter Notebooks designed to learn Python for Data Science. There is no better way to learn, than learning by coding. You can open and run this entire re
要在本教程中成功创建和运行示例代码,我们需要一个环境设置,它既包含通用python,也包含Data Science所需的特殊包。 我们首先看一下安装python 2或python 3的通用python。但我们更喜欢本教程的python 2,主要是因为它的成熟度和对外部包的更广泛的支持。 获取Python 最新和最新的源代码,二进制文件,文档,新闻等,可在Python官方网站https://www.
数据科学是通过组织,处理和分析数据从大量不同的数据集中获取知识和见解的过程。 它涉及许多不同的学科,如数学和统计建模,从中提取数据源和应用数据可视化技术。 它通常还涉及处理大数据技术以收集结构化和非结构化数据。 下面我们将看到一些使用数据科学的示例场景。 推荐系统 随着在线购物变得更加普遍,电子商务平台能够捕获用户的购物偏好以及市场中各种产品的性能。 这导致创建推荐系统,该系统创建预测购物者需求的
Complete-Data-Science-Toolkits The overall objective of this toolkit is to provide and offer a free collection of data analysis and machine learning that is specifically suited for doing data science.
Data Science Learning Repository of code, resources and utilities related to different data science and machine learning topics. For learning, practicing and teaching purposes. Utils can be installed