Apache Mahout

机器学习库
授权协议 Apache
开发语言 Java
所属分类 神经网络/人工智能、 机器学习/深度学习
软件类型 开源软件
地区 不详
投 递 者 仇承志
操作系统 跨平台
开源组织 Apache
适用人群 未知
 软件概览

Apache Mahout 是 Apache Software Foundation (ASF) 开发的一个全新的开源项目,其主要目标是创建一些可伸缩的机器学习算法,供开发人员在 Apache 在许可下免费使用。该项目已经发展到了它的最二个年头,目前只有一个公共发行版。Mahout 包含许多实现,包括集群、分类、CP 和进化程序。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。

Mahout 项目是由 Apache Lucene(开源搜索)社区中对机器学习感兴趣的一些成员发起的,他们希望建立一个可靠、文档翔实、可伸缩的项目,在其中实现一些常见的用于集群和分类 的机器学习算法。该社区最初基于 Ngetal. 的文章 “Map-Reduce for Machine Learning on Multicore”,但此后在发展中又并入了更多广泛的机器学习方法。

Mahout 的目标还包括:

  • 建立一个用户和贡献者社区,使代码不必依赖于特定贡献者的参与或任何特定公司和大学的资金。

  • 专注于实际用例,这与高新技术研究及未经验证的技巧相反。

  • 提供高质量文章和示例。

  • 最近,我有一个有趣的问题要解决:如何使用自动化对不同来源的文本进行分类? 前一段时间,我读到一个有关该项目以及许多其他文本分析工作的项目– Apache Mahout 。 尽管它不是一个非常成熟的版本(当前版本为0.4 ),但它功能强大且可扩展。 在另一个出色的项目Apache Hadoop的基础上 ,它能够分析大量数据集。 因此,我做了一个小项目,以了解Apache Mahout的工作方式。 我

  • apache mahout 最近,我有一个有趣的问题要解决:如何使用自动化对不同来源的文本进行分类? 前一段时间,我读到一个有关该项目以及许多其他文本分析工作的项目– Apache Mahout 。 尽管它不是一个非常成熟的版本(当前版本为0.4 ),但它非常强大且可扩展。 在另一个出色的项目Apache Hadoop的基础上 ,它能够分析巨大的数据集。 因此,我做了一个小项目,以了解Apache

  • 存档日期:2019年4月18日 | 首次出版:2009年9月8日 一旦具有大量研究预算的学术界和公司的专有领域,从数据和用户输入中学习的智能应用程序变得越来越普遍。 对机器学习技术(如群集,协作过滤和分类)的需求从未如此强烈,无论是在大型人群中寻找共同点还是自动标记大量Web内容。 Apache Mahout项目旨在使构建智能应用程序变得更加轻松快捷。 Mahout的联合创始人Grant Inge

  •   Mahout实现的机器学习算法集:   算法大类 算法名称 中文名称 分类算法 Logistic Regression 逻辑回归   Bayesian 贝叶斯   SVM 支持向量机   Perceptron 感知器算法   Neural Network 神经网络   Random Forests 随机森林   Restricted Boltzmann Machines 有限波尔兹曼机 聚类算

 相关资料
  • Python 有着海量的可用于数据分析、统计以及机器学习的库,这使得 Python 成为很多数据科学家所选择的语言。 下面我们列出了一些被广泛使用的机器学习及其他数据科学应用的 Python 包。 Scipy 技术栈 Scipy 技术栈由一大批在数据科学中被广泛使用的核心辅助包构成,可用于统计分析与数据可视化。由于其丰富的功能和简单易用的特性,这一技术栈已经被视作实现大多数数据科学应用的必备品了。

  • 主要内容 前言 课程列表 推荐学习路线 数学基础初级 程序语言能力 机器学习课程初级 数学基础中级 机器学习课程中级 推荐书籍列表 机器学习专项领域学习 致谢 前言 我们要求把这些课程的所有Notes,Slides以及作者强烈推荐的论文看懂看明白,并完成所有的老师布置的习题,而推荐的书籍是不做要求的,如果有些书籍是需要看完的,我们会进行额外的说明。 课程列表 课程 机构 参考书 Notes等其他资

  • 机器学习与人工智能学习笔记,包括机器学习、深度学习以及常用开源框架(Tensorflow、PyTorch)等。 机器学习算法 _图片来自scikit-learn_。 机器学习全景图 _图片来自http://www.shivonzilis.com/_。

  • 机器学习与人工智能学习笔记,包括机器学习、深度学习以及常用开源框架(Tensorflow、PyTorch)等。

  • “三个臭皮匠顶个诸葛亮”。集成学习就是利用了这样的思想,通过把多分类器组合在一起的方式,构建出一个强分类器;这些被组合的分类器被称为基分类器。事实上,随机森林就属于集成学习的范畴。通常,集成学习具有更强的泛化能力,大量弱分类器的存在降低了分类错误率,也对于数据的噪声有很好的包容性。

  • 主要内容:机器学习,深度学习,机器学习与深度学习的区别,机器学习和深度学习的应用人工智能是近几年来最流行的趋势之一。机器学习和深度学习构成了人工智能。下面显示的维恩图解释了机器学习和深度学习的关系 - 机器学习 机器学习是让计算机按照设计和编程的算法行事的科学艺术。许多研究人员认为机器学习是实现人类AI的最佳方式。机器学习包括以下类型的模式 - 监督学习模式 无监督学习模式 深度学习 深度学习是机器学习的一个子领域,其中有关算法的灵感来自大脑的结构和功能,称为人工神经网络。

  • 主要内容:数据量,硬件依赖,特色工程在本章中,我们将讨论机器和深度学习概念之间的主要区别。 数据量 机器学习使用不同数量的数据,主要用于少量数据。另一方面,如果数据量迅速增加,深度学习可以有效地工作。下图描绘了机器学习和深度学习在数据量方面的工作 - 硬件依赖 与传统的机器学习算法相反,深度学习算法设计为在很大程度上依赖于高端机器。深度学习算法执行大量矩阵乘法运算,这需要巨大的硬件支持。 特色工程 特征工程是将领域知识放入指定特征的

  • 我已经找了几个小时了,但找不到一个能回答这个问题的东西。我已经创建并发布了一个新的Azure机器学习服务,并创建了一个endpoint。我可以使用Postman REST客户机调用服务,但是通过JavaScript网页访问它会返回一个控制台日志,说明该服务启用了CORS。现在,对于我来说,我想不出如何为Azure机器学习服务禁用CORS。如有任何帮助,不胜感激,谢谢!