您好!欢迎光临哇哈体育直播网站!
 ※ 返回首页 ※ 联系我们  ※ 在线留言
钣金加工一站式制造供应商
设计定制、生产加工、整机装配、设备接线
客户咨询服务热线:
行业动态
您的位置: 哇哈体育直播 > 新闻中心 > 行业动态 > 碾压1138支AI!腾讯『绝悟WeKick』在Kaggle足球竞赛

碾压1138支AI!腾讯『绝悟WeKick』在Kaggle足球竞赛

作者:admin    发布时间:2021-11-24 07:06     浏览次数 :


  腾讯宣布员工入职满15年可提前退休;特斯拉暴跌,市值2天蒸发1.3万亿;滴滴推出嗷嗷吃饭外卖业务|雷锋早报

  消息称华为将打包出售关键服务器部门;曝腾讯发文实行965工作制;张一鸣退出字节跳动全球董事会|雷锋早报

  字节跳动将强制实行1075工作制:早十晚七,加班需申请;工信部要求网盘企业确保免费用户下载速率;微念回应与李子柒争议|雷锋早报

  知名大厂被指公然大挂加班横幅,呼吁员工加班,监管介入调查;腾讯关停学龄前教育业务,上千员工将转岗;恒大降价出售电机业务|雷锋早报

  许家印接连变卖所有个人资产:各地房产、私人飞机,已筹集超70亿资金;国美处罚员工上班摸鱼;罗永浩吐槽苹果文案没文化|雷锋早报

  IBM Watson「败走中国」内幕:舆论失控、利益纠葛、高层激进的不归路

  消息称字节遭大股东私下大幅抛售股份;韩国全国大面积断网;特斯拉市值破万亿美元,马斯克身家大涨360亿|雷锋早报

  【有奖直播报名】TI 最新C2000实时控制芯片 — F28003X

  Socionext 和日本东北大学显著加快基于深度学习的 SLAM 处理

  Nexperia推出业界首款A-selection齐纳二极管 可提供更高精度电压基准

  Microchip交付第5000万片采用MOST®技术的50 Mbps汽车智能网络接口控制器

  采用Microchip的连续线性LED驱动器, 开发更可靠且经济高效的LED照明应用

  看到如此娴熟的球技,你是不是和小编一样误以为是人类,其实赛场上的球员全部是AI代理。刚刚完成传球、射门的黄色球衣球员正式腾讯的绝悟AI——足球版WeKick。

  绝悟,是腾讯AI Lab与王者荣耀联合研发的策略协作型AI,上个月刚刚升级为完全体(让AI掌握了所有英雄的所有技能)。绝悟Wicke版是基于绝悟完全体迁移得到的,并针对足球任务进行了针对性调整。

  WeKick刚刚参加完首届谷歌足球Kaggle竞赛,以上是赛场上传来的精彩片段。在这场全球顶级AI足球赛中,WeKick凭借1785.8分分绝对性优势,一举击败了1138支优秀团队夺得了本次竞赛的冠军。

  这是绝悟完全体首次应用于足球任务,并参加大型国际足球赛事,取得64体育如此成绩,可见其背后深度强化学习方法的通用能力。

  与王者荣耀一样,足球赛也属于即时策略型游戏,需要AI具备长线思考、快速决策、处理复杂环境的能力。在本次竞赛中,一个球员需要一个智能体(11vs11赛制),AI代理不仅需要控制球员之间的相互配合,还要时刻观察对手的行为,并做出及时应对。

  那么,在如此高难度的挑战赛中,为何绝悟WeKick能够杀出重围,夺得冠军?

  得益于深度强化学习在游戏领域突飞猛进,从Atari游戏,围棋,再到多种不同的视频游戏,AI智能体在不断迭代中变得越来越强,使足球运动团队策略的难关也得以被攻克。

  与MOBA游戏中不断有经济、血量、经验等实时学习信号不同,足球的游戏激励非常稀疏,基本只能依靠进球,而稀疏激励一直是目前强化学习一大难题。

  也就是说,单纯的从零开始完全采用强化学习来训练足球AI也相当困难。对此,腾讯AI Lab提出了三项改进方案:

  在特征与奖励设计上,生成对抗模拟学习(GAIL)与人工设计奖励相结合的方案

  首先是定制化框架,研究人员采用自博弈(Self-Play)强化学习来从零开始训练模型,并部署到异步的分布式强化学习框架中。

  虽然该异步架构牺牲了训练阶段的部分实时性能,但灵活性却得到显著提升,而且还支持在训练过程中按需调整计算资源,使其能适应 11 智能体足球游戏训练环境。

  此外,由于MOBA游戏和足球游戏任务目标存在差异,绝悟WeKick采用了生成对抗模拟学习(GAIL)与人工设计的奖励结合的方式,在特征与奖励设计上进行了扩展和创新。

  该方案利用了生成对抗训练机制来拟合专家行为的状态和动作分布,使绝悟WeKick可以从其它球队学习。然后,再将 GAIL 训练的模型作为固定对手进行进一步自博弈训练,进一步提升策略的稳健性。

  但这种通过自博弈强化学习得到的模型有一个天然的缺点:很容易收敛到单一风格。在实际比赛的时候单一风格的模型很容易发生由于没见过某种打法而表现失常,最终导致成绩不佳的情况。

  因此,为了提升策略的多样性和稳健性,绝悟还采用了针对多智能体学习任务的League(若干策略池)多风格强化学习训练方案。

  这种League多风格强化学习训练方案的主要流程可简单总结为先专精后综合,如下:

  首先训练一个具备一定程度竞技能力的基础模型,比如运球过人、传球配合、射门得分;

  接着基于基础模型训练出多个风格化模型。每个模型专注一种风格打法,在风格化模型训练的过程中会定期加入主模型作为对手,避免过度坚持风格,丢失基本能力;

  最后基于多个基础模型训练一个主模型,主模型除了以自己的历史模型为对手以外,还会定期加入所有风格化对手的最新模型作为对手,确保主模型能够适应风格完全不同的对手。

  内部能力评分系统显示,加入对手池训练以后的主模型,可以在基础模型的基础上提高200分,比最强的风格化打法高80分。

  最后基于定制化的框架改进,生成对抗模拟学习(GAIL)方案以及 League (若干策略池)多风格强化学习训练方案,使绝悟远超过其他AI球员,取得了1785.8的高分。

  本届比赛是Kaggle首次针对足球AI领域发布的赛题。Kaggle是全球最大的数据科学社区和数据科学竞赛平台,创立于2010年。

  由于足球运动团队策略因其复杂性、多样性和高难度,一直是困扰世界顶尖AI研究团队的难题,加上稀疏的游戏激励使其成为比MOBA游戏更难攻克的目标。Google Research联合英超曼城在Kaggle上举办了这场赛事,希望进一步推动多智能体技术研究。

  基于此,不同其他AI足球赛事,本届比赛在难度上进行了大幅度升级,如前所述比赛采取11vs11赛制,参赛团队需要控制其中1个智能体与10个内置智能体组成球队。

  当完整的足球独立智能体个数达到11个,强化学习的难度将随着智能体个数的增长呈现指数级的爆炸增长,而且足球智能体之间差距不大,如何自动形成角色分工以及在不同角色间的激励分配将成为各个团队多智能体强化的一大挑战。

  在参加本届比赛之前,腾讯绝悟团队已经从足球比赛中的单个智能体控制转向多智能体同时控制、协同作战深入的研究方向。之前,在参加5v5形式(多智能体)的谷歌天梯比赛Google Research Football League中,腾讯绝悟团队也摘得了冠军。

  此次,绝悟WeKick在足球竞赛中再次夺冠,可以看出完全体升级后的绝悟AI,其背后深度强化学习在处理复杂任务上的能力,以及其底层架构的通用能力。

  腾讯AI Lab在智能体领域已开发多年,从围棋AI绝艺到MOBA游戏AI绝悟再到如今的AI足球队WeKick,其深度强化学习智能体步步进化,在逐渐向更复杂更多样化的问题迁移。腾讯AI Lab表示,他们的终极目标是迈向通用人工智能,长远来看,绝悟背后的研发经验和算法积累,未来还将在AI与农业、医疗及智慧城市等广阔领域的结合上展现巨大潜力,创造出更大的实用价值。

[返回]