轻松驾驭星际争霸II开源AI，仅需i5处理器与GTX1050显卡组合

时间：11-23 现代故事提交错误

各位老铁们，大家好，今天由我来为大家分享轻松驾驭星际争霸II开源AI，仅需i5处理器与GTX1050显卡组合，以及的相关问题知识，希望对大家有所帮助。如果可以帮助到大家，还望关注收藏下本站，您的支持是我们最大的动力，谢谢大家了哈，下面我们开始吧！

转载自：https://zhuanlan.zhihu.com/p/50980092

【Embedded Bull简介】：来自塔尔图大学的Roman Ring开源了第一个星际争霸2代理项目。我们也可以在这个前沿领域开始自己的研究。

【嵌入式牛鼻子】：星际争霸2、强化学习、开源

【嵌入式牛问】：星际2可以玩吗？

Reaver 是一个模块化深度强化学习框架，提供比大多数开源解决方案更快的单机并行化能力。它支持常见环境，如星际争霸2、OpenAI Gym、Atari、MuJoCo等。其网络定义为简单的Keras模型，易于配置和共享设置。在示例中，Reaver 在不到10 秒的时间内通过了CartPole-v0 游戏，在4 核CPU 笔记本电脑上每秒大约有5000 个样本。

Reaver可以在30分钟内征服星际争霸2的MoveToBeacon小游戏，这与DeepMind获得的结果相当。它仅使用配备Intel i5-7300HQ CPU（4 核）和GTX 1050 GPU 的笔记本电脑。您还可以在Google Colab Run 上在线播放并进行比较。

项目链接：https://github.com/inoryy/reaver-pysc2

Reaver的Google Colab地址：https://colab.research.google.com/drive/1DvyCUdymqgjk85FB5DrTtAwTFbI494x7

具体来说，Reaver具有以下特点：

性能：现有研究中的大多数强化学习基线通常针对进程之间基于消息的通信（例如MPI）进行调整。这对于DeepMind、OpenAI 等拥有大规模分布式RL 设置的公司来说是有意义的，但对于只有一台计算机/HPC 节点的研究人员或爱好者来说，这似乎是一个很大的瓶颈。因此，Reaver 使用共享内存，与之前基于消息并行化的项目相比，速度提高了2 倍。具体来说，Reaver 通过无锁方式利用共享内存，并且可以专门针对这种情况进行优化。该方法可以在星际争霸II采样率上实现2倍加速（正常情况下加速100倍），其主要瓶颈是GPU的输入/输出管线。

模块化：许多RL 基线或多或少都是模块化的，但通常与作者使用的模型/环境紧密耦合。从个人经验来说，当我只专注于《星际争霸2》游戏时，每次实验或调试都是一个令人沮丧的漫长过程。借助Reaver，我可以通过一行代码交换环境（甚至从SC2 到Atari 或CartPole）。 models—— 也是如此，任何Keras 模型都可以，只要它遵守基本API 契约（输入=代理obs，输出=logits + 值）。 Reaver的三个核心模块envs、models、agents基本上是完全独立的。这保证了一个模块中的功能扩展可以无缝连接到其他模块。

可配置性：现有代理通常有数十个不同的配置参数，共享这些参数对于每个参与人员来说似乎都是一件令人头疼的事情。我最近偶然发现了这个问题的一个有趣的解决方案，——gin-config，它支持使用类似Python 的配置文件和命令行参数配置任意Python 可调用函数。经过测试，我们发现gin-config只需一个文件就可以共享整个训练过程的环境配置。所有配置都可以轻松共享为.gin 文件，包括所有超参数、环境变量和模块定义。

不会过时：深度学习充满变数，即使是一年前的代码库也可能会过时。我使用即将推出的TensorFlow 2.0 API（主要使用tf.keras，避免使用tf.contrib）编写了Reaver，希望Reaver 不会遭受这种命运。

Reaver 的用途不仅限于《星际争霸II》智能体的深度强化学习训练。如果您有任何扩展想法，请与我分享。我计划在不久的将来向该项目添加VizDoom 环境。

python -m reaver.run --env MoveToBeacon --agent a2c --envs 4 2stderr.log

Reaver只需一行代码即可直接配置训练任务，如上所示。 Reaver的奖励函数可以快速收敛到大约25-26RMe（平均剧集奖励），这与DeepMind在此环境下获得的结果（MoveToBeacon）相当。具体训练时间取决于你自己的硬件。以下日志数据是在配备Intel i5-7300HQ CPU（4核）和GTX 1050 GPU的笔记本上训练30分钟获得的。

基准分数

在：

Human Expert 是DeepMind 从Battle.net 天梯上的大师级玩家那里收集的数据

DeepMind ReDRL是目前业界最好的结果，来自DeepMind 2018年6月的论文《Relational Deep Reinforcement Learning》

DeepMind SC2LE 结果来自DeepMind 和暴雪2017 年8 月的论文《StarCraft II: A New Challenge for Reinforcement Learning》

Reaver（A2C）是通过训练reaver.agents.A2C代理获得的结果，它在硬件上尽可能地复制了SC2LE的架构。通过训练agent--test模块100次迭代，计算总奖励值并收集结果。表中列出的是平均值、标准差（括号内）以及最小值和最大值（方括号内）。

训练详情，请注意，这些训练时间是在配备Intel i5-7300HQ CPU（4 核）和GTX 1050 GPU 的笔记本电脑上获得的。我没有花太多时间调整超参数来首先展示可学习性，但至少在MoveToBeacon 环境中我显着减少了训练样本的数量。

END，本文到此结束，如果可以帮助到大家，还望关注本站哦！