当前位置：首页 > 软件库 > 神经网络/人工智能 > 机器学习/深度学习 >

Facebook Horizon

应用强化学习平台

授权协议 BSD

开发语言 Python

所属分类神经网络/人工智能、机器学习/深度学习

软件类型开源软件

地区不详

投递者澹台星光

操作系统跨平台

开源组织 Facebook

适用人群未知

软件官网

软件文档

官方下载

软件概览

Horizon 是一个开源的端到端的应用强化学习平台，在 Facebook 内部被大量使用。

Horizon 采用 Python 构建，使用 PyTorch 进行建模和训练，使用 Caffe2 提供模型服务。该平台包含主流的训练深度强化学习算法的工作流，包括数据预处理、特征转换、分布式训练、反事实策略评估和优化服务等。

支持的算法

Discrete-Action DQN
Parametric-Action DQN
Double DQN, Dueling DQN, Dueling Double DQN
DDPG (DDPG)
Soft Actor-Critic (SAC)

使用案例

强化学习系列3：Google的Dopamine和Facebook的Horizon

1. 简介除了OpenAI，还有其他巨头在做强化学习的工作（尤其是深度强化学习），这里介绍Google和Facebook两家开源的工程，分别是Dopamine和Horizon，Github上地址分别为：https://github.com/google/dopamine 和 https://github.com/facebookresearch/Horizon 2. Dopamine 2018年
Horizon Client 配置设置和命令行选项

Horizon Client 配置设置和命令行选项 Twitter FaceBook LinkedIn Weibo 添加到库添加到库 RSS 下载 PDF 发送反馈反馈编辑评论更新时间 2022年10月05日选择的产品版本： VMware Horizon Client for Linux 5.5  为方便起见，几乎所有的配置设置都具有键=值属性和一个相应的命令行选项名。对于一些设置，
适用于 Linux 的 VMware Horizon Client 5.5 发行说明

适用于 Linux 的 VMware Horizon Client 5.5 发行说明 Twitter FaceBook LinkedIn Weibo 添加到库添加到库 RSS 纯文本发送反馈反馈编辑评论更新时间 2022年05月09日适用于 Linux 的 Horizon Client 5.5 | 2020 年 10 月 15 日本发行说明包括以下主题： •主要功能 •此版本的新增
Facebook重提“元宇宙”：做游戏，本质还是做社交

2014年3月，Facebook以20亿美元收购了Oculus VR，后者因针对游戏设计的Oculus Rift头戴设备而闻名。这桩巨额收购案在业界激起不小水花。作为移动平台的社交巨头，Facebook此举被认为是在为未来下注，避免错过移动平台之后的下一个时代红利。扎克伯格承诺，Oculus VR将从游戏变革开始，之后将彻底改变数字社交互动场景，成为未来人们日常生活的一部分。考虑到扎克伯格数
Facebook 开启元宇宙模式！豪砸百亿是为什么？

编译：宋一平出品：CSDN云计算引言自从 Neal Stephenson 在 1992 年的小说《雪崩》中创造了这个术语以来，元宇宙的想法就一直在科技圈中蔓延。这是万维网向公众开放之后的一年，也是在一般用途的网站变得广泛可用之前的一年。这个想法是，许多元宇宙将与互联网融合，形成一个大型元宇宙，我们都可以在其中以虚拟方式进行生活。 Epic 的蒂姆·斯威尼 (Tim Sweeney) 谈到了游

相关资料

强化学习

主要内容课程列表基础知识专项课程学习参考书籍论文专区课程列表课程机构参考书 Notes等其他资料 MDP和RL介绍8 9 10 11 Berkeley 暂无链接 MDP简介暂无 Shaping and policy search in Reinforcement learning 链接强化学习 UCL An Introduction to Reinforcement Lea
强化学习

强化学习（Reinforcement Learning）的输入数据作为对模型的反馈，强调如何基于环境而行动，以取得最大化的预期利益。与监督式学习之间的区别在于，它并不需要出现正确的输入/输出对，也不需要精确校正次优化的行为。强化学习更加专注于在线规划，需要在探索（在未知的领域）和遵从（现有知识）之间找到平衡。 Deep Q Learning.
5 强化学习

探索和利用。马尔科夫决策过程。Q 学习，策略学习和深度强化学习。我刚刚吃了一些巧克力来完成最后这部分。在监督学习中，训练数据带有来自神一般的“监督者”的答案。如果生活可以这样，该多好！在强化学习（RL）中，没有这种答案，但是你的强化学习智能体仍然可以决定如何执行它的任务。在缺少现有训练数据的情况下，智能体从经验中学习。在它尝试任务的时候，它通过尝试和错误收集训练样本（这个动作非常好，或者非常
十八、强化学习

强化学习（RL）如今是机器学习的一大令人激动的领域，也是最老的领域之一。自从 1950 年被发明出来后，它被用于一些有趣的应用，尤其是在游戏（例如 TD-Gammon，一个西洋双陆棋程序）和机器控制领域，但是从未弄出什么大新闻。直到 2013 年一个革命性的发展：来自英国的研究者发起了 Deepmind 项目，这个项目可以学习去玩任何从头开始的 Atari 游戏，在多数游戏中，比人类玩的还好，它仅
十六、强化学习

强化学习（RL）如今是机器学习的一大令人激动的领域，当然之前也是。自从 1950 年被发明出来后，它在这些年产生了一些有趣的应用，尤其是在游戏（例如 TD-Gammon，一个西洋双陆棋程序）和及其控制领域，但是从未弄出什么大新闻。直到 2013 年一个革命性的发展：来自英国的研究者发起了一项 Deepmind 项目，这个项目可以学习去玩任何从头开始的 Atari 游戏，甚至多数比人类玩的还要好，它
强化学习（Reinforcement Learning）

在本章中，您将详细了解使用Python在AI中强化学习的概念。强化学习的基础知识这种类型的学习用于基于评论者信息来加强或加强网络。也就是说，在强化学习下训练的网络从环境中接收一些反馈。然而，反馈是有评价性的，而不是像监督学习那样具有指导性。基于该反馈，网络执行权重的调整以在将来获得更好的批评信息。这种学习过程类似于监督学习，但我们的信息可能非常少。下图给出了强化学习的方框图 - 构建
强化学习TD从后状态学习

我正在制作一个程序，通过强化学习和基于后状态的时间差分学习方法（TD（λ）），教两名玩家玩一个简单的棋盘游戏。学习是通过训练神经网络来实现的。我使用萨顿的非线性TD/Backprop神经网络）我很想听听你对我以下困境的看法。在两个对手之间进行回合的基本算法/伪代码如下每个玩家应在何时调用其学习方法玩家。学习（GAME\u状态）。这是难题。选项A.在每个玩家移动后，在新的后状态出现后，如下所示：
强化学习 (DQN) 教程

译者：平淡的天作者: Adam Paszke 本教程将展示如何使用 PyTorch 在OpenAI Gym的任务集上训练一个深度Q学习 (DQN) 智能点。任务智能点需要决定两种动作：向左或向右来使其上的杆保持直立。你可以在 Gym website 找到一个有各种算法和可视化的官方排行榜。当智能点观察环境的当前状态并选择动作时，环境将转换为新状态，并返回指示动作结果的奖励。在这项任务中，每

Facebook Horizon

同类工具

相关阅读

相关文章

相关问答

相关文档