量子位出品 | 公众号 QbitAI
AI在Dota2中的巅峰对决:OpenAI Five与OG战队
Team OG,作为Dota2世界冠军战队,在人工智能OpenAI Five面前显得不堪一击。五个人类组成的战队在两局比赛中以0:2败下阵来,总计只推掉了两座外塔。但这还不是AI的极限。
OpenAI推出全新AI Rerun,胜率高达98%
OpenAI在OpenAI Five的基础上,又训练出了一个全新的AI,名为Rerun。面对OpenAI Five的强大,Rerun的胜率达到了惊人的98%。这一消息一出,立刻引起了广泛关注。
OpenAI发布论文,揭秘AI在Dota2中的胜利之道
为了深入了解AI在Dota2中的胜利之道,OpenAI发布了一篇论文,详细解释了系统的原理、架构、计算量、参数等方面的内容。以下是论文中的几个要点:
要点一:电子竞技游戏的复杂性
与棋类对弈相比,电子竞技游戏如Dota2要复杂得多。攻克这一难题的关键在于将强化学习系统的规模扩展到前所未有的水平。
要点二:分布式训练系统与工具
OpenAI构建了一个分布式的训练系统,并开发了一套名为“surgery”的工具,能够在不损失性能的情况下恢复训练。
要点三:大规模数据与计算量
每局Dota2比赛时长约为45分钟,每秒钟会生成30帧的游戏画面。OpenAI Five每4帧做出一个动作,相当于在Dota2中“下”约20000步。
要点四:神经网络与强化学习
AI背后是一套神经网络,其中policy(π)被定义为从观察数据到动作概率分布的函数,这是一个有1.59亿个参数的RNN神经网络。
要点五:训练方法与资源消耗
OpenAI Five的训练使用了扩展版的近端策略优化(PPO)方法,并预估了用于优化的GPU消耗量,结果显示OpenAI Five的GPU计算用量在770±50~820±50 PFlops/s·days左右。
要点六:人类知识与AI的结合
OpenAI在论文中明确指出,AI系统在学习Dota2的过程中,并非完全依靠强化学习自学,也使用了一些人类的知识。
总结:OpenAI Five与Rerun的胜利之路
OpenAI Five和Rerun的胜利,展示了强化学习技术在复杂电子竞技游戏中的巨大潜力。随着技术的不断发展,未来AI在更多领域的应用将更加广泛。
相关阅读
– [Dota 2 with Large Scale Deep Reinforcement Learning](https://cdn.openai.com/dota-2.pdf)
结语
OpenAI Five与OG战队的对决,不仅是一场技术的较量,更是一次人类与AI的互动。在这场游戏中,我们见证了AI的进步,也感受到了科技的魅力。