重磅!DeepMind“机器猫”自学成才,能操作多个机器人、不依赖人类监督
智东西
作者 | 云鹏
编辑 | 心缘
(相关资料图)
智东西6月21日消息,刚刚, 谷歌DeepMind推出了一种可以自我改进、自我提升(self-improving)的用于机器人的AI智能体,名为RoboCat。
DeepMind称它是全球第一个可以解决和适应多种任务的机器人AI智能体, 并且它可以在各类真实的机器人产品上完成这些任务。
RoboCat操控机械臂完成各种各样的任务,来源:Google DeepMind
整体来看,RoboCat最主要的突破在三个方面:
1、DeepMind让一个神经网络能在多个不同的机器人上工作,可以快速操作新的机械臂,解决新的复杂任务。
2、RoboCat学习的新任务越多,就越擅长学习和解决额外的新任务。
3、RoboCat是通用机器人领域的重要研究进展,能够减少对人类监督训练的需求。
RoboCat解决更多类型的任务,来源:Google DeepMind
AI智能体可以自己操控机械臂,学习玩套圈、搭积木、抓水果了!效率极高,还不需要多少人力。
只需要通过100次左右的演示,RoboCat就可以学会操控机械臂来完成各式各样的任务,并且它还能通过自生成的数据来进行迭代改进。
最重要的是, 不论是它操控的机械臂还是它要完成的任务,RoboCat之前都从来没见过。
RoboCat可以解决的各类任务,来源:Google DeepMind
这种 “通用性学习能力” 是RoboCat的强项,此外,RoboCat最主要的特点就是 “学得快”, 这种能力对于加快机器人领域的研究有重要意义,因为有了这种能力,人类监督训练的需求就会极大减少,这是创造通用机器人非常重要的一环。
在DeepMind演示视频中,RoboCat可以通过自主学习完成“套圈”、“搭积木”、“拿放水果”等任务。目前 RoboCat完成一项新任务的成功率已经从初期的36%提升至74%。
RoboCat前后版本完成任务成功率对比,来源:Google DeepMind
并且根据DeepMind论文, RoboCat完成现实世界训练任务的成功率要远高于传统基于视觉的模型方案, 领先幅度还是比较明显的,这也是DeepMind研究的重要价值所在。
RoboCat与基于视觉的模型在完成现实世界训练任务成功率方面的对比,来源:Google DeepMind
值得一提的是,RoboCat用到的关键技术之一,是一种 多模态模型(multimodal model)Gato, 而Gato在西班牙语里意为“猫”,也就是“cat”,这也是“RoboCat”这一命名的由来之一。
此前研究人员已经在机器人大规模学习多种任务方面进行了探索,并将对语言模型的理解与现实世界的机器人能力相结合。 而RoboCat的进步性在于,它是第一个可以解决和适应多种任务的机器人AI智能体。
DeepMind认为,RoboCat独立学习技能、快速自我提升的能力,以及对于不同硬件设备的快速适应能力,将 对新一代通用机器人AI智能体的发展起到重要推动作用。
论文地址:
https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/robocat-a-self-improving-robotic-agent/robocat-a-self-improving-foundation-agent-for-robotic-manipulation.pdf
一、套圈、搭积木样样精通,将水果从碗里拿出来总共分几步?
首先,我们来看看这个RoboCat到底能做什么。
从DeepMind的演示视频中我们可以看到,研究人员在机器人的摄像头下面将物体摆好,机器人就会将摆好的物体状态设定为“目标图像”,在设定好目标图像后,研究人员会将物体的摆放位置还原,然后让机器人操作还原刚才的物体摆放状态。
RoboCat完成“套圈”任务,来源:Google DeepMind
在“套圈”这个任务中,RoboCat可以很好的操控机械臂还原橘红色圆圈的位置。
在同一类“套圈”任务中,RoboCat还可以解决更复杂的情况,比如区分大圈和小圈并准确套在对应的金属柱上。
RoboCat完成更复杂的“套圈”任务,来源:Google DeepMind
DeepMind还演示了一个任务,就是抓水果。这个任务RoboCat已经在此前的训练中看到过,但值得注意的是,此前的训练数据中从来没有过“人手”出现,这次研究人员给RoboCat设定的目标图像中却包含了人手,最终,RoboCat仍然可以顺利完成任务。
RoboCat在目标图像有“人手”干扰的情况下完成抓水果任务,来源:Google DeepMind
这还没完,后续研究人员进一步提高难度,让RoboCat操控了一个它之前从未见过的机械臂,这个机械臂跟之前抓水果用的有所不同,但最终RoboCat依然可以操控这一新的机械臂来成任务。
RoboCat操控从未见过的机械臂完成此前学过的任务,来源:Google DeepMind
在另一个“搭积木”的测试中,研究人员展示了RoboCat的另一项技能,当目标图像设定好后,不论初始积木位置是怎样的,RoboCat都可以很好的还原目标图像中的积木状态。
当目标图像设定好后,不论初始积木位置是怎样的,RoboCat都可以很好的还原目标图像中的积木状态,来源:Google DeepMind
除了搭积木,RoboCat还可以完成将水果从碗里拿进拿出这样的任务。
二、基于超大数据集,还会自我迭代升级,五步就能掌握新本领
具体来看RoboCat背后的硬核技术,DeepMind提到, RoboCat用到了一种多模态模型Gato ,Gato模型可以在模拟环境和物理环境中处理语言、图像和动作,研究人员将Gato的架构与一个大型训练数据集进行了结合,这个数据集包含了各种机械臂解决数百个不同任务的图像序列和动作。
在第一轮训练之后,研究人员让RoboCat进入一个“自我提升(self-improvement)”的训练周期,在这个训练周期中,RoboCat会学习解决很多以前从未见过的任务。
每项新任务的学习分为五个步骤:
1、收集100-1000个由研究人员控制的机械臂完成的新任务演示。
2、在新任务所使用的机械臂上微调(Fine-tune)RoboCat,创建一个专用的衍生代理。
3、衍生代理在机械臂上练习10000次,以生成更多的训练数据。
4、将演示数据和自生成数据合并到RoboCat的现有训练数据集中。
5、在新的训练数据集上训练RoboCat的新版本。
RoboCat的训练周期示意图,它能够自生成额外的训练数据,来源:Google DeepMind
上述所有这些训练的结合,意味着RoboCat的数据集将包含数百万次的训练轨迹数据,这些数据来自真实机械臂以及模拟机械臂,包括了RoboCat自生成的数据。
RoboCat从各种训练数据类型和任务中学习,来源:Google DeepMind
研究人员总共使用了四种不同类型的机器人和各类机械臂来收集基于视觉的数据。
RoboCat使用现实和虚拟机械臂积累训练数据,来源:Google DeepMind
三、RoboCat:一个“自我提升的通才”
在上述这种多样化的训练方式下, RoboCat可以在几个小时内学会操作不同的机械臂,包括一些更加复杂的从未见过的机械臂。
RoboCat可以操作这些机械臂完成之前见过的任务,比如套圈、拿取水果,甚至是在对应形状的格子中放上对应形状的物品,这些任务会考验RoboCat操作的精准度、理解力以及对于形状匹配难题的解决能力。
RoboCat用新机械臂完成此前学过的任务,来源:Google DeepMind
用DeepMind的话来说, RoboCat是一个“自我提升的通才”, 因为它是基于一个良性的训练循环来学习新任务。简单来说, 它学习的新任务越多,它就能更好地学习和解决额外的新任务。
最初版本的RoboCat,在每个新任务进行500次演示后,只有36%的概率能成功的完成之前从未见过的任务,但是最新版本的RoboCat已经将这一成功率提升至74%。
这些提升归功于RoboCat不断增长的经验广度,就像人类在特定领域不断深化学习,从而发展出更加多样化的能力一样。
今天,机器人在我们的生活中已经广泛应用,但大部分机器人只能完成特定的任务,这些机器人基本上都是被提前编程设定好的。
在制造可以完成更多种类任务的“通用机器人”方面,研究进展一直很缓慢,因为收集现实世界中的训练数据是非常费时费力的。
RoboCat这种独立学习技能、快速自我提升的能力,以及对于不同硬件设备的快速适应能力,将对新一代通用机器人AI智能体的发展起到重要推动作用。
结语:多模态AI模型引入,通用机器人研究再进一步
在全球AI研究热点涌向大模型的当下,谷歌DeepMind似乎对大模型竞赛并不热衷,仍专注于解决AI如何与物理世界交互的问题,并将研究重心锁定在优化机器人技术的基础模型上。
而最新发布的RoboCat,绝对是个了不起的AI模型。它通过视觉目标调节解决了不同平台的各种拾取和放置任务,只需100次演示就能学会在不同的机器人上执行各种任务,从自生成训练数据提高技能的方法令人眼前一亮。
多模态AI模型的引入,为迈向通用机器人的历程贡献了又一个激动人心的进展!
来源:Google DeepMind
关键词:
责任编辑:宋璟
-
重磅!DeepMind“机器猫”自学成才,能操作多个机器人、不依赖人类监督
-
在接受采访时,利物浦中场埃利奥特谈到了U21欧洲..._资讯推荐
-
忌安床是什么意思(今天忌安床是什么意思)
-
2023第三届千岛湖·大下姜艾草文化节开幕|世界速读
-
焦点关注:银川市今晚召开银川市兴庆区富洋烧烤店燃气爆炸事故新闻发布会
-
竞渡天池间,端午享安康,武汉黄陂木兰天池中华龙舟节激情开赛_每日快看
-
人中长痘痘什么原因还痒_人中长痘痘什么原因 当前聚焦
-
全球热资讯!neterrnamenotresolved怎么解决 neterr_name_not_resolved
-
【天天新视野】iPhone SE 4明年真无望?又有分析师预计不会在2024年推出
-
曼龙代村(关于曼龙代村介绍)_天天快消息
-
焦点报道:磋商招标是什么意思(磋商文件和招标文件的区别)
-
奋进中国 大江澎湃 | 一条龙舟,穿越千年
-
温州龙港交警开展三轮车专项整治的通告_世界播资讯
-
女的拼音怎么写(女的拼音)|世界看点
-
推出三门素养课,猿辅导瞄准“下一个十年”|独家|世界滚动
-
开车下雨 雪天应开什么灯光好_开车下雨 雪天应开什么灯|世界报资讯
-
前沿资讯!《封神第一部》特辑 音乐创建神话史诗世界的想象
-
航行警告!南海海域军事训练
-
北京市发布高温橙色预警
-
晚间公告汇总:浪潮信息控股股东及其一致行动人持股比例下降7.09%
-
环球速看:股票行情快报:濮耐股份(002225)6月21日主力资金净买入27.67万元
-
英超疯狂一夜:曼城送走三冠功臣 阿森纳签锋霸 8.6亿豪门拆家重建
-
快资讯丨售89.9万起 全新丰田埃尔法正式上市
-
蔚来获11亿美元“续命钱” 中东土豪偏爱“中国牌”新造车
-
环球看热讯:6月21日基金净值:富国天利增长债券A最新净值1.3375,跌0.01%
-
6月21日基金净值:鹏华新兴产业混合最新净值3.025,跌1.11%_世界今日报
-
西安市浐灞十六小:品数学之美 享双减之趣
-
中国电信19元155g流量卡是真的吗_电信19元无限流量
-
世界快播:中国新能源汽车筑梦欧洲
-
全球最新:重庆铜梁:端午采艾好时节 5000亩艾草供应端午市场
-
止水帷幕有几种做法_止水帷幕
-
天天快讯:【万相之王:龙族】第6章:空相李洛,重磅大瓜
-
最资讯丨Alto 的《奥德赛》开发者为 Netflix 预告了新的手机游戏
-
宋太宗_Ⅱ
-
信用卡没能力还怎么协商?协商个性化分期要满足什么条件?|新动态-世界观点