当前位置：首页 > 软件库 > 神经网络/人工智能 > 机器学习/深度学习 >

Gym StarCraft

阿里强化学习研究平台

授权协议未知

开发语言 Python

所属分类神经网络/人工智能、机器学习/深度学习

软件类型开源软件

地区国产

投递者刘泰

操作系统跨平台

开源组织阿里巴巴

适用人群未知

软件概览

Gym StarCraft 是阿里开源的一套专业易用的研究平台，AI 和强化学习研究者可以非常方便地使用 Python 语言来进行深度强化学习智能 Agent 的开发，它底层完成了对 TorchCraft 和 OpenAI Gym 的封装，支持基于 TensorFlow 和 Keras 等主流算法框架进行开发，仅需几十行代码即可完成一个基本的智能 Agent 的开发。

同时，便于评测智能 Agent 的有效性，Gym StarCraft 被集成在了 OpenAI Gym 这一主流的强化学习 AI评测平台中，支持世界各地的星际 AI 研究者基于它去进行公平、快捷的效果评估，提供了一个人工智能的开放协作研究平台。

Usage

使用 Chaoslauncher BWAPI 启动 StarCraft 服务器。
运行:
```
cd examples
python random_agent.py --ip $server_ip --port $server_port
```
$server_ip 和 $server_port 是运行 StarCraft 的服务器的 ip 和端口。

使用案例

Gym-100923H-Por Costel and the Match(带权并查集)

链接: https://vjudge.net/problem/Gym-100923H 题意: Oberyn Martell and Gregor Clegane are dueling in a trial by combat. The fight is extremely important, as the life of Tyrion Lannister is on the line. Obe
G - Por Costel and the Match Gym - 100923H(种类并查集）

G - Por Costel and the Match Gym - 100923H Oberyn Martell and Gregor Clegane are dueling in a trial by combat. The fight is extremely important, as the life of Tyrion Lannister is on the line. Oberyn

相关资料

强化学习

主要内容课程列表基础知识专项课程学习参考书籍论文专区课程列表课程机构参考书 Notes等其他资料 MDP和RL介绍8 9 10 11 Berkeley 暂无链接 MDP简介暂无 Shaping and policy search in Reinforcement learning 链接强化学习 UCL An Introduction to Reinforcement Lea
强化学习

强化学习（Reinforcement Learning）的输入数据作为对模型的反馈，强调如何基于环境而行动，以取得最大化的预期利益。与监督式学习之间的区别在于，它并不需要出现正确的输入/输出对，也不需要精确校正次优化的行为。强化学习更加专注于在线规划，需要在探索（在未知的领域）和遵从（现有知识）之间找到平衡。 Deep Q Learning.
5 强化学习

探索和利用。马尔科夫决策过程。Q 学习，策略学习和深度强化学习。我刚刚吃了一些巧克力来完成最后这部分。在监督学习中，训练数据带有来自神一般的“监督者”的答案。如果生活可以这样，该多好！在强化学习（RL）中，没有这种答案，但是你的强化学习智能体仍然可以决定如何执行它的任务。在缺少现有训练数据的情况下，智能体从经验中学习。在它尝试任务的时候，它通过尝试和错误收集训练样本（这个动作非常好，或者非常
十八、强化学习

强化学习（RL）如今是机器学习的一大令人激动的领域，也是最老的领域之一。自从 1950 年被发明出来后，它被用于一些有趣的应用，尤其是在游戏（例如 TD-Gammon，一个西洋双陆棋程序）和机器控制领域，但是从未弄出什么大新闻。直到 2013 年一个革命性的发展：来自英国的研究者发起了 Deepmind 项目，这个项目可以学习去玩任何从头开始的 Atari 游戏，在多数游戏中，比人类玩的还好，它仅
十六、强化学习

强化学习（RL）如今是机器学习的一大令人激动的领域，当然之前也是。自从 1950 年被发明出来后，它在这些年产生了一些有趣的应用，尤其是在游戏（例如 TD-Gammon，一个西洋双陆棋程序）和及其控制领域，但是从未弄出什么大新闻。直到 2013 年一个革命性的发展：来自英国的研究者发起了一项 Deepmind 项目，这个项目可以学习去玩任何从头开始的 Atari 游戏，甚至多数比人类玩的还要好，它
强化学习（Reinforcement Learning）

在本章中，您将详细了解使用Python在AI中强化学习的概念。强化学习的基础知识这种类型的学习用于基于评论者信息来加强或加强网络。也就是说，在强化学习下训练的网络从环境中接收一些反馈。然而，反馈是有评价性的，而不是像监督学习那样具有指导性。基于该反馈，网络执行权重的调整以在将来获得更好的批评信息。这种学习过程类似于监督学习，但我们的信息可能非常少。下图给出了强化学习的方框图 - 构建
东软，研究员（机器学习方向）

9.2 东软一面（共 23 min）主要问项目相关，因网络不佳而中断？后直接发offer，但逼签自我介绍，项目介绍简历闲聊除了c++还会啥 SQL会吗项目深挖一句话总结项目在做什么？实例分割模型有哪些，你用了那些？污水项目实例分割的评价标准 c++项目为啥不用深度学习做？网络不佳中断，未反问，说后续会有HR联系三分钟后，HR微信问期望薪资，然后邮箱发了网申笔试，已进入流程，最后
强化学习TD从后状态学习

我正在制作一个程序，通过强化学习和基于后状态的时间差分学习方法（TD（λ）），教两名玩家玩一个简单的棋盘游戏。学习是通过训练神经网络来实现的。我使用萨顿的非线性TD/Backprop神经网络）我很想听听你对我以下困境的看法。在两个对手之间进行回合的基本算法/伪代码如下每个玩家应在何时调用其学习方法玩家。学习（GAME\u状态）。这是难题。选项A.在每个玩家移动后，在新的后状态出现后，如下所示：

同类工具

TensorFlow Quantum unsupervised-data-augmentation PARL Stable Diffusion guildsman DBCNN WeFe Conjecture

相关阅读

Mysql性能优化案例研究-覆盖索引和SQL_NO_CACHE C#中foreach语句深入研究 Q表如何根据机器学习中的强化学习来帮助确定“代理”的下一步动作？学习javascript文件加载优化 Flappy.Bird开发者,怎么利用DNQ方法强化学习你的游戏AI

相关文章

字节商业化用户研究（实习面经）阿里数据研发工程师（实习）面经阿里-钉钉-C++研发-暑期实习面经阿里高德机器学习算法实习二面强化学习（实践）：REINFORCE，AC，TRPPO，PPO

相关问答

用新动作/扩展动作集强化学习 java学习 - 哪里有付费的Java学习课程？使用不可重复的动作进行强化学习用于训练深度神经网络的强化学习 @专门研究Wildfly 10.1。0

相关文档

Spark 机器学习算法研究和源码分析强化学习导论中文第二版阿里面试题周志华《机器学习》学习笔记机器学习