内容摘自:https://github.com/jobbole/awesome-machine-learning-cn
计算机视觉
- SimpleCV—开源的计算机视觉框架,可以访问如OpenCV等高性能计算机视觉库。使用Python编写,可以在Mac、Windows以及Ubuntu上运行。
自然语言处理
- NLTK —一个领先的平台,用来编写处理人类语言数据的Python程序
- Pattern—Python可用的web挖掘模块,包括自然语言处理、机器学习等工具。
- TextBlob—为普通自然语言处理任务提供一致的API,以NLTK和Pattern为基础,并和两者都能很好兼容。
- jieba—中文断词工具。
- SnowNLP —中文文本处理库。
- loso—另一个中文断词库。
- genius —基于条件随机域的中文断词库。
- nut —自然语言理解工具包。
通用机器学习
- Bayesian Methods for Hackers —Python语言概率规划的电子书
- MLlib in Apache Spark—Spark下的分布式机器学习库。
- scikit-learn—基于SciPy的机器学习模块
- graphlab-create —包含多种机器学习模块的库(回归,聚类,推荐系统,图分析等),基于可以磁盘存储的DataFrame。
- BigML—连接外部服务器的库。
- pattern—Python的web挖掘模块
- NuPIC—Numenta公司的智能计算平台。
- Pylearn2—基于Theano的机器学习库。
- hebel —Python编写的使用GPU加速的深度学习库。
- gensim—主题建模工具。
- PyBrain—另一个机器学习库。
- Crab —可扩展的、快速推荐引擎。
- python-recsys —Python实现的推荐系统。
- thinking bayes—关于贝叶斯分析的书籍
- Restricted Boltzmann Machines —Python实现的受限波尔兹曼机。[深度学习]。
- Bolt —在线学习工具箱。
- CoverTree —cover tree的Python实现,scipy.spatial.kdtree便捷的替代。
- nilearn—Python实现的神经影像学机器学习库。
- Shogun—机器学习工具箱。
- Pyevolve —遗传算法框架。
- Caffe —考虑了代码清洁、可读性及速度的深度学习框架
- breze—深度及递归神经网络的程序库,基于Theano。
数据分析/数据可视化
- SciPy —基于Python的数学、科学、工程开源软件生态系统。
- NumPy—Python科学计算基础包。
- Numba —Python的低级虚拟机JIT编译器,Cython and NumPy的开发者编写,供科学计算使用
- NetworkX —为复杂网络使用的高效软件。
- Pandas—这个库提供了高性能、易用的数据结构及数据分析工具。
- Open Mining—Python中的商业智能工具(Pandas web接口)。
- PyMC —MCMC采样工具包。
- zipline—Python的算法交易库。
- PyDy—全名Python Dynamics,协助基于NumPy, SciPy, IPython以及 matplotlib的动态建模工作流。
- SymPy —符号数学Python库。
- statsmodels—Python的统计建模及计量经济学库。
- astropy —Python天文学程序库,社区协作编写
- matplotlib —Python的2D绘图库。
- bokeh—Python的交互式Web绘图库。
- plotly —Python and matplotlib的协作web绘图库。
- vincent—将Python数据结构转换为Vega可视化语法。
- d3py—Python的绘图库,基于D3.js。
- ggplot —和R语言里的ggplot2提供同样的API。
- Kartograph.py—Python中渲染SVG图的库,效果漂亮。
- pygal—Python下的SVG图表生成器。
- pycascading
杂项脚本/iPython笔记/代码库
- pattern_classification
- thinking stats 2
- hyperopt
- numpic
- 2012-paper-diginorm
- python-notebooks
- decision-weights
- Sarah Palin LDA —Sarah Palin关于主题建模的电邮。
- Diffusion Segmentation —基于扩散方法的图像分割算法集合。
- Scipy Tutorials —SciPy教程,已过时,请查看scipy-lecture-notes
- Crab—Python的推荐引擎库。
- BayesPy—Python中的贝叶斯推断工具。
- scikit-learn tutorials—scikit-learn学习笔记系列
- sentiment-analyzer —推特情绪分析器
- group-lasso—坐标下降算法实验,应用于(稀疏)群套索模型。
- mne-python-notebooks—使用 mne-python进行EEG/MEG数据处理的IPython笔记
- pandas cookbook—使用Python pandas库的方法书。
- climin—机器学习的优化程序库,用Python实现了梯度下降、LBFGS、rmsprop、adadelta 等算法。
Kaggle竞赛源代码
- wiki challange —Kaggle上一个维基预测挑战赛 Dell Zhang解法的实现。
- kaggle insults—Kaggle上”从社交媒体评论中检测辱骂“竞赛提交的代码
- kaggle_acquire-valued-shoppers-challenge—Kaggle预测回头客挑战赛的代码
- kaggle-cifar —Kaggle上CIFAR-10 竞赛的代码,使用cuda-convnet
- kaggle-blackbox —Kaggle上blackbox赛代码,关于深度学习。
- kaggle-accelerometer —Kaggle上加速度计数据识别用户竞赛的代码
- kaggle-advertised-salaries —Kaggle上用广告预测工资竞赛的代码
- kaggle amazon —Kaggle上给定员工角色预测其访问需求竞赛的代码
- kaggle-bestbuy_big—Kaggle上根据bestbuy用户查询预测点击商品竞赛的代码(大数据版)
- kaggle-bestbuy_small—Kaggle上根据bestbuy用户查询预测点击商品竞赛的代码(小数据版)
- Kaggle Dogs vs. Cats —Kaggle上从图片中识别猫和狗竞赛的代码
- Kaggle Galaxy Challenge —Kaggle上遥远星系形态分类竞赛的优胜代码
- Kaggle Gender —Kaggle竞赛:从笔迹区分性别
- Kaggle Merck—Kaggle上预测药物分子活性竞赛的代码(默克制药赞助)
- Kaggle Stackoverflow—Kaggle上 预测Stack Overflow网站问题是否会被关闭竞赛的代码
- wine-quality —预测红酒质量。