文档详情

20240315-国盛证券-计算机行业Figure 01:OpenAI大模型赋能人形机器人.pdf

发布:2024-05-14约1.06万字共9页下载文档
文本预览下载声明

证券研究报告|行业点评

2024年03月15日

计算机

Figure01:OpenAI大模型赋能人形机器人

人形机器人Figure01发布演示,智能程度惊艳。2024年3月13日,人增持(维持)

形机器人创业公司Figure在X平台发布了自己第一个OpenAI大模型加持的

机器人演示视频。借助OpenAI,Figure01现在可以与人类进行完整的对话,

OpenAI模型提供高层级的视觉和语言智能,Figure的神经网络提供快速、行业走势

低层级、灵巧的机器人动作。Figure01能理解周围环境,流畅地与人类交

谈,理解人类的需求并完成具体行动,包括给人类递苹果、将黑色塑料袋收计算机沪深300

拾进框子里、将杯子和盘子归置好放在沥水架上。此前在2月29日,Figure32%

刚刚宣布以26亿美元的估值获得了包括OpenAI、英伟达、微软在内的新一16%

轮6.75亿美元融资,同时表示OpenAI和Figure签署了一项合作协议开发0%

下一代AI模型。-16%

-32%

OpenAI能力加持,预训练模型决策是重要突破。Figure01现在具备的能-48%

力包括:1)描述其周围环境。2)在做决定时使用常识推理。3)将模棱两2023-032023-072023-11

可的高级请求转换为一些符合上下文的行为,4)用通俗的语言描述为什么

它执行了特定的操作。在实现上,Figure01把机器人摄像头捕获的图像和

机载麦克风捕捉到的语音转录文本输入到一个由OpenAI训练的大型多模态作者

模型中,该模型能够理解图像和文本,处理整个对话的历史,包括过去的图

分析师刘高畅

像,以生成语言回应,同一个模型负责决定在机器人上运行哪种学习到的、

执业证书编号:S0680518090001

闭环的行为来完成给定的命令。一个理解对话历史的大型预训练模型为

邮箱:liugaochang@

Figure01提供了强大的短期记忆,通过预训练模型Figure01能快速形成并

执行计划。关于低层次双手操作技能,所有行为均由基于transformer的视相关研究

觉-运动变换策略驱动,将像素直接映射到动作。预训练模型对图像和文本1、《计算机:脑机接口探索性研究》2024-03-10

进行常识推理,以制定高层次计划。学习到的视觉运动策略执行计划,执行

2、《计算机:全球算力需求持续加码》2024-03-09

难以手动指定的快速、反应性的行为,同时,全身控制器确保安全、稳定的

3、《计算机:全球AI算力基座景气持续》2024-03-03

动态。我们认为Figure01使用多模态预训练模型做高层次决策,再映射到

低层次动作的方式类似于大脑与小脑的分工,是演示中机器人展示良好智能

水平的重要因素,也是AI与机器人结合的技术路径上的重要突破。

人形机器人应用空间广阔,产业进展持续加速。根据Figure

显示全部
相似文档