文档详情

20240315-国盛证券-计算机行业Figure 01：OpenAI大模型赋能人形机器人.pdf

发布：2024-05-14约1.06万字共9页下载文档

文本预览下载声明

证券研究报告|行业点评

2024年03月15日

计算机

Figure01：OpenAI大模型赋能人形机器人

人形机器人Figure01发布演示，智能程度惊艳。2024年3月13日，人增持（维持）

形机器人创业公司Figure在X平台发布了自己第一个OpenAI大模型加持的

机器人演示视频。借助OpenAI，Figure01现在可以与人类进行完整的对话，

OpenAI模型提供高层级的视觉和语言智能，Figure的神经网络提供快速、行业走势

低层级、灵巧的机器人动作。Figure01能理解周围环境，流畅地与人类交

谈，理解人类的需求并完成具体行动，包括给人类递苹果、将黑色塑料袋收计算机沪深300

拾进框子里、将杯子和盘子归置好放在沥水架上。此前在2月29日，Figure32%

刚刚宣布以26亿美元的估值获得了包括OpenAI、英伟达、微软在内的新一16%

轮6.75亿美元融资，同时表示OpenAI和Figure签署了一项合作协议开发0%

下一代AI模型。-16%

-32%

OpenAI能力加持，预训练模型决策是重要突破。Figure01现在具备的能-48%

力包括：1）描述其周围环境。2）在做决定时使用常识推理。3）将模棱两2023-032023-072023-11

可的高级请求转换为一些符合上下文的行为，4）用通俗的语言描述为什么

它执行了特定的操作。在实现上，Figure01把机器人摄像头捕获的图像和

机载麦克风捕捉到的语音转录文本输入到一个由OpenAI训练的大型多模态作者

模型中，该模型能够理解图像和文本，处理整个对话的历史，包括过去的图

分析师刘高畅

像，以生成语言回应，同一个模型负责决定在机器人上运行哪种学习到的、

执业证书编号：S0680518090001

闭环的行为来完成给定的命令。一个理解对话历史的大型预训练模型为

邮箱：liugaochang@

Figure01提供了强大的短期记忆，通过预训练模型Figure01能快速形成并

执行计划。关于低层次双手操作技能，所有行为均由基于transformer的视相关研究

觉-运动变换策略驱动，将像素直接映射到动作。预训练模型对图像和文本1、《计算机：脑机接口探索性研究》2024-03-10

进行常识推理，以制定高层次计划。学习到的视觉运动策略执行计划，执行

2、《计算机：全球算力需求持续加码》2024-03-09

难以手动指定的快速、反应性的行为，同时，全身控制器确保安全、稳定的

3、《计算机：全球AI算力基座景气持续》2024-03-03

动态。我们认为Figure01使用多模态预训练模型做高层次决策，再映射到

低层次动作的方式类似于大脑与小脑的分工，是演示中机器人展示良好智能

水平的重要因素，也是AI与机器人结合的技术路径上的重要突破。

人形机器人应用空间广阔，产业进展持续加速。根据Figure

显示全部

相似文档