数字世界里的足球——数研院探索多智能体足球AI并取得新突破

admin 2024-02-07 74 0

　　世界杯终于回来了，经历了疫情的三年时光，全世界的球迷都尤其期盼着这个也许是人类历史上意义仅次于1948年伦敦奥运会的盛大赛事——2022卡塔尔世界杯。

　　1863年，英国足球协会在伦敦正式成立，标志着真正意义上的现代足球诞生了。在这一百多年的发展中，技战术流派的不断涌现是让比赛越发吸引人的最重要内在因素。英国的两翼齐飞、意大利的九号半、荷兰的全攻全守和巴塞罗那的Tiki-Taka这样风靡一时的战术体系都极大地推动了足球运动的发展。

　　作为一项多人团队配合运动，在足球比赛中战胜对手除了要依靠球员的个人能力，更要依靠11个人的战术配合，如果用计算机科学领域的语言讲：这是一个典型的多智体合作博弈问题。这也是本文要讨论的数字世界里的足球比赛。

　　足球游戏是一个典型的多智能体学习场景，因此谷歌足球环境（Google Research Football）自发布以来就受备受关注。但因为复杂性和计算量等问题，它在多智能体研究方面一直未能得到充分利用。目前大多数开源的代码实现都来自于Kaggle的单智能体足球竞赛，单智能体在工作时同一时间只控制一个球员，其他的10个球员是由内置bot控制，这一操控方式与FIFA游戏的操作方式类似。近来，也有一些相关工作研究了足球环境中的多智能体问题，但往往局限于简单的特定场景。作为最终挑战，11vs11场景一直以来缺少一套开源的训练框架与基准线。

　　今年夏天，数研院联合中科院在IEEE Conference on Game会议上，在线组织了5vs5、11vs11两个赛道的多智能体竞赛。同时，数研院也投入力量进行了该问题的研究，提供了强力的基线模型。在CoG会议比赛结束之后，我们希望能有更多的多智能体研究者和足球爱好者投入到足球AI的研究中来，一直筹备相关代码的开源工作。此次，数研院开放了一系列方便大家快速上手足球AI研究的资源，除了训练框架，还包括分析工具、基线模型等等，希望推动足球AI研究社区的进一步发展。这些内容现在开源在https://github.com/Shanghai-Digital-Brain-Laboratory/DB-Football，欢迎大家关注和加入。

　　在物理世界中，一支球队的组建和训练过程是从个体到整体，自下而上的构建过程。一支优秀的球队首先要拥有在传球、射门、防守、跑位等个人技术能力上足以支撑球队战术体系的球员，然后在小团队层面形成，如撞墙配合、区域防守等局部战术配合，进而在11人完整阵容层面形成战术风格（如上文提到的Tiki-Taka等）。数研院的足球AI训练框架也是参考了这样的训练方式，把每一个球员作为一个单独的策略智能体，在个人层面上，通过提供在不同球场情况下人为设计的奖励信号来指导单个个体学习基础的行为比如带球、射门等。在此基础上，给予个体附近的队友和对手的信息，来提供小范围内的配合的可能，然后再将11个智能体组建成一支球队并一同与不同风格对手对抗来训练球队的技战术配合。漂亮的射门漂亮的传球配合

　　然而，足球11v11 AI 训练面临着训练量极大的问题（足球场大，同一时间控制的球员数量多），这也是很多在谷歌足球环境上做实验的一些工作面临的主要困难之一大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!。针对这一问题，我们在MALib的基础上开发了一套轻量版本的多智能体强化学习的训练框架，并为其命名为Light-MALib。在这套训练框架下，指导队伍并行地进行对战经验收集和球队技术学习，这相当于一边比赛一边上课学习战术，大大提升了学习的效率。此外，我们关注的是如何让智能体从零开始学习，因此频繁采用了自博弈（self-play）的方式（和AlphaGo一样），让球队自我对抗，逐步开发探索出新的技能来升级。我们还设置了专门的陪练球队（exploiter in league training）从零发掘最新球队的战术漏洞，因此在自博弈的流程中，我们的球队需要同时能够打败陪练球队，避免战术上的漏洞。图一：Light-MALib训练框架 (PSRO案例)；rollout指代比赛数据收集，训练器指代战术学习

　　利用我们提供的异步训练框架，研究者只需在实验室级别的服务器上，通过数小时的训练，就可以得到能在11vs11全场比赛中打败最高难度内置bot的足球多智能体大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!。该框架也支持进行多机分布式扩展，充分利用计算资源，进一步加速训练过程。图二：Light-MALib的训练测试，从零学习对抗1.0困难内置AI的胜率变化

　　除开训练，球队战术的评估也是重要的一部分。数研院的科学家们采用了类似足球联赛的大循环赛制来对我们训练流程中得到的不同“球队”的技战术水平进行评价。经过30+轮对抗最终有几支“球队”脱颖而出，他们有擅长精妙传切配合的Tiki-Taka风格球队，也有擅长防反的九号半阵型球队，也有以边路突破两翼齐飞见长的球队，这几支球队凭借风格迥异的技战术特点在多个赛季中名列前茅。为了对智能体的风格做出评估，科学家们还模仿物理世界中真实球队所配备的专业分析师团队，为每支球队配备了风格和能力分析系统，以下是这几支球队的能力分值数据：图三：训练得到的球队智能体能力评估雷达图

　　除开球队智能体之间的评估，数研院也尝试了人机协同来评测球员之间的配合能力。在今年的1024程序员节内部活动中，我们组织了一场人机协同对抗赛，看到了人类和机器智能体间交互的很多有趣现象。如当人类选手的微操水平比较接近智能体时，人和机器可以打出很高水平的配合战术。但如果人类选手只是初级水平时，智能体为了增强取胜把握会显著降低与人类选手的配合意愿，甚至抢夺己方人类选手的球权，自己发动进攻。

　　接下来介绍具体的训练细节和经验。

　　为了使球队的配合水平更加智能，更加贴近物理世界真实球队的技战术特征，我们设计了“个体能力训练——多人配合训练——球队战术训练——针对性训练“的四个环节。

　　在个体能力训练环节，我们的科学家像真正的足球教练一样，用奖励函数的方式告诉智能体应该往什么方向进化。在这里，我们开发了一套GRF数据结构来更加精准的设计奖励函数。这一数据结构帮助记录了一场足球比赛中的足球运动轨迹的信息，并以球队得分将比赛分为若干回合，单回合中以球权转换分隔为若干事件链，事件链中以时间序列的方式记录带球球员的信息。这种数据结构能够在比赛结束后，直接定位某一事件具体的信息，比如某次助攻的时间节点，涉及球员等，这有助于对进球进行个人行为的奖励以及对于丢球进行分锅。

　　球队的技战术风格与个体和小范围配合不同，风格是在更高层次、更长周期对球队的评价。在物理世界中，一支球队的风格往往也需要主教练经过长时间引导和不断调整球员才能养成。在智能体训练过程中，我们也无法像前面的训练一样通过设置奖励函数和输入环境信息对智能体组成的球队的风格产生较大影响。数研院的科学家们在训练智能体的过程中发现AI自身会根据所遇到的球队风格进化出针对性的战术风格，比如在遇到以前场进攻为特长的球队时，智能体会自主训练出中后场抢逼围为主的防反战术模式；若对手有多种不同风格，智能体自主进化的反制风格也会多样化。因此，对手战术风格的多样化是一个关键性问题，我们的解决方案是多样化的奖励设计和陪练球队的设置。多样化的奖励用于初期获得一些具有代表性的战术风格，比如高压逼抢风格可以通过设定球员距离来学习。在中后期阶段，我们采用了联盟训练（league training）的方法（如alpha-star的方法），在每一代球队训练的过程中，加入一个从零学习的陪练球队来专门发掘主球队的弱点以及新的战术风格。

　　在智能体训练进化过程中，也有很多有趣的细节。比如一个主智能体在进化过程中就出现了偏差，由于“进攻欲望”太过强烈，其在比赛中经常受到越位的困扰。数研院的科学家在发现这一异常数据后，对其中部分球员的小范围配合进攻欲望奖励值调低。这一调整也使得这支“火爆脾气”的球队重新打出了漂亮的反越位配合大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!。另外一支球队的进化过程则是另外一个极端，由于盘带奖励值过高，前锋好像很讨厌射门，每次进攻都恨不能把球直接带进对方球门（一如中田英寿时代的日本队），但在逐渐增强防守的对手面前逐渐改掉了这一问题。这是AI技术进化出来的新的表征。数字世界里的足球——数研院探索多智能体足球AI并取得新突破训练过程中的比赛片段https://www.zhihu.com/video/1581325618876231680