Figure AI 是一家致力于开发具有自学习和推理能力的类人机器人公司。他们专注于将人工智能应用于机器人领域,使机器人能够模仿人类行为,执行复杂任务并随着时间的推移进行自我改进 。
Figure01和刚发布不久的Figure02都代表着全球最领先的智能机器人技术,想了解Figure AI的技术,可以参考他们公开的资料以及与OpenAI等合作伙伴的项目。例如,他们通过多模态模型(如视觉、语音、动作)来进行机器人行为的训练,并结合强化学习和神经网络技术,让机器人可以通过语言和图像来处理复杂任务,如动态行走、抓取物体等 。
在这里我们从官方项目中取得Figure智能机器人系统的工作逻辑,我们设计了一个可视流程来,帮助我们在研究中时刻专注这一逻辑主体。这个流程也是我们在智能机器人硬件实践中学习和遵循的模式。
具身智能机器人ROS系统工作流程
1. Speech-to-Text(语音转文本):
用户向机器人发出语音指令,例如“Can I have something to eat?”,该语音输入通过语音识别技术转化为文本信息,传递给机器人系统的后续处理单元。
2.OpenAI模型:
- 这个模块使用OpenAI开发的语言模型,进行常识推理和理解。从输入的文本中识别用户的意图,例如用户想要吃东西,并从视觉信息中理解机器人周围的环境。这一部分类似于人类的语言理解和视觉感知。
- 通过从机器人的摄像头或传感器获取的图像,OpenAI模型能够基于场景进行推理,判断如何执行任务。
3. Neural Network Policies(神经网络策略)
- 这一层是负责机器人动作的核心,通过训练的神经网络来决定具体的动作策略。它处理抓取动作、手臂控制等,需要对复杂物体进行敏捷的操作和处理。
- 该模块能够快速做出灵巧的抓取和操控决定,确保机器人可以高效、灵活地执行任务。
4. Whole Body Controller(全身控制器):
- 负责控制机器人的整体动态,确保在执行任务时动作安全、稳定。这个模块接管机器人的关节和移动控制,通过实时调整机器人全身的姿势和平衡,保证机器人动作流畅且不会失稳。
- 例如,在抓取物体时,全身控制器会协调手臂、腿部和其他关节的协同动作,避免失去平衡。
5. Text-to-Speech(文本转语音):
在机器人执行任务后,会通过文本转语音的方式向用户反馈任务完成情况,例如“Sure thing, here’s an apple.”。这一模块通过生成的语音反馈来完成整个交互过程。
关键技术&细节说明
1. 机器人运动学与控制:
- 核心概念:理解机器人运动的几何学和动力学,掌握如何设计和控制机器人的运动。图中的“Whole Body Controller”与这一部分密切相关,处理机器人整体的稳定性和动作执行。
- 学习资源:
① 机器人学(Robotics):学习机械臂的控制、运动规划和轨迹生成。
② 多体动力学与控制算法,掌握如何实时控制机器人的关节运动和身体协调。
③ 开源机器人操作系统(ROS),用于开发和模拟机器人控制系统。