3月14日凌晨,OpenAI和初创公司Figure最新发布的一段人形机器人视频在社交平台引发热议。
在视频中,这款名为Figure 01的人形机器人与创造者的高级人工智能工程师Corey Lynch进行了互动,Lynch让机器人在一个临时厨房里完成了几项任务,包括识别苹果、碗碟和杯子。
当Lynch要求机器人给他找一些吃的东西时,Figure 01将自然而然地拿起了桌面上的苹果。之后,Lynch让Figure 01把垃圾收集到一个篮子里,它也按照指令完成了任务。
据悉,Figure 01采用了OpenAI最新推出的视觉语言模型技术,结合生成式人工智能与神经网络学习原理,是世界上的一款通用任务人工智能人形机器人。与特定任务AI机器人不同,Figure 01可以同时进行多任务处理、识别周围环境、与用户实时交流。
值得一提的是,这款基于OpenAI大模型的智能人形机器人的问世,距离OpenAI与Figure于3月1日官宣合作仅仅过了13天。
/ 01 / 多任务处理,可与人类实时交流
根据官网介绍,这款机器人高5英尺6英寸(约167cm),重60kg,可承重20kg,续航5h,前进速度1.2m每秒 。
Figure 01能做什么?与以往的工业机器人有何不同,AI工程师Corey Lynch给出了自己的答案:
一是强大的语义理解能力,能够与人类实时沟通 。 “实时”是Figure 01最显著的特征,在Figure公司发布的视频中,该款机器人的语音识别和语义理解速度已经可以和普通人类媲美,并没有以往过程带给使用者的“机械化延时”感受。
二是端对端的神经网络学习能力,能够像人类一样思考、推理。 在FigureAI发布的视频中,Figure01已经能够从“吃的”推断出“苹果”,并且正确识别出了“垃圾”,将其放入垃圾桶。“吃的”“垃圾”等抽象词汇,并非特定指示类的任务处理模式,需要不同于以往工业机器人的抽象学习能力。而Figure 01,即使没有人类指令,也已经知道餐具应该被放在架子上。
三是情感互动,反问交互。 “我可以吃一口吗”这样的回答让人难以与一个基于算法、数据建构而成的“冷冰冰”的机器人联系在一起。即使在交互性人机界面,也鲜少有AI程序能够与用户进行反问式的话题互动与情感交流。Figure 01的“类人性”让很多用户大吃一惊,其研发团队的一名工程师直言Figure 01已经具有常识(common sense),能够通过基本的逻辑推理像人类一样 说话 ,进行简单的任务处理。
四是通用环境下的多任务处理能力。 Figure01出世前,工业机器人都需要预先编程以执行特定功能,但Figure 01可以通过观察学习并纠正自己的错误,识别周围环境中的物体,并在实时对话中通过自然语言理解进行多任务处理。
值得注意的是,在Figure 01强大优越的性能背后,是OpenAI最新视觉语言模型(visual language model)与Figure神经网络系统的联合押注。
据悉,Figure 01的集成摄像头可将数据发送到OpenAI训练的大型视觉语言模型,而Figure自己的神经网络也“通过机器人上的摄像头以10 Hz的频率采集头像”。传统AI机器人需要通过大量数据集和基础的编程代码来学习的特定任务,对于Figure 01,只需要观看10个小时的视频录像就能学会。
Figure01还使用了公司研发的 "学习型低级双臂操作",该系统将精确的图像校准(精确到像素级)与神经网络相匹配,以控制动作。"Figure AI称 :“这些网络以10hz的频率接收板载图像,并以200hz的频率生成24-DOF动作(手腕姿势和手指关节角度)。”如果发现任何偏离所学行为或预期结果的情况,Figure 01就会将其解释为错误,并调整自己的行动,直到达到预期结果。通过强化学习,任务完成后的反馈会加强实现这一任务的神经连接,进一步将其嵌入'已知'过程 。
/ 02 / 估值26亿美元的超级明星,微软、英伟达纷纷下注
FigureAI成立于2021年,团队成员大多是前谷歌工程师。公司的总目标是,研发具有高性能的人形机器人,将人类从危险繁重工作中解放出来,比如采矿、施工、灾后重建等重体力的劳动密集型产业。
看重人形机器人的行业前景与巨大的盈利能力,微软、英伟达、OpenAI等行业巨头纷纷下注。据悉,Figure公司在二轮融资中筹集了6.75亿美元,公司市值总估值达到26亿美元。亚马逊前首席执行官、世界第二富豪贝索斯通过其公司Explore Investments投资了1亿美元,微软投资了9500万美元,英伟达和一家亚马逊附属基金各投资了5000万美元。
Figure团队目前由40名行业专家组成,大多来自波士顿动力公司、特斯拉、IHMC、GoogleX、Cruise和苹果SPG,这些公司大多拥有100年人工智能和仿人机器人的研发经验。在Figure担任首席技术官的Jerry Pratt博士,在IHMC拥有20多年的仿人机器人研发经验,曾带领团队参加DARPA仿真人机器人挑战赛。
AI是技术和资本的联合产物,继生成式人工智能席卷整个世界的资本浪潮后,人形机器人会成为AI行业的新风口吗?
实际上,人形机器人的历史由来已久,但发展速度十分缓慢。
人形机器人起步于1960年代日本早稻田大学的WABOT项目。诞生于1972年,由加藤一郎带领研发的WABOT-1是世界上第一个全尺寸人形机器人。它拥有肢体控制系统、视觉系统和对话系统,可以行走、抓握和搬运物品,并能用日语与人交流。
其后,波士顿公司于2013年发布的Atlas人形机器人经过一系列的优化设计,已经可以完成快速小跑、侧空翻等人类才能完成的跑酷动作,被誉为运动方面最接近人类的人形机器人。
自此,Walker、Ameca、擎天柱等多款赫赫有名的人形机器人也进入了人们的视野。
不过,这些产品最终都没能掀起人形机器人在AI领域的商业化浪潮和资本关注。
究其原因,还是不够“像人”。从用户体验来讲,就像是在与只能执行机械化命令的“冰冷机器”对话。缺乏人性化的设计和情感互动无法激发资本的押注和市场的购买欲。
但是,Figure01的出现可能会大大加速这一进程。
据悉,早在2022年,FigureAI就与德国汽车品牌宝马签订了该公司第一项商业协议,旨在将多功能AI自动化机器人Figure 01部署在美国南卡罗莱纳州斯帕坦堡的汽车加工厂。
而FigureAI高额的融资与市场估值也展现了这一行业巨大的发展潜力和盈利能力。
关于未来走向何方,Future AI称,他们将与OpenAI联手开启人形机器人新纪元。
或许在不久的将来 ,我们就可以看见《黑镜》里机器人与人类在街头漫步的场景了。
或许在更久的将来,《爱德华剪刀手》里机器人的自主意识与感情也不再是电影剧本里浪漫的桥段。
在那一天,这些与人类外形无异的机器人将何去何从,也将成为关乎人类生存问题的一大课题。
原文标题 : OpenAI机器人来了,能说会道善思考