2025人形机器人“大脑”进化:多模态大模型赋能,开启万亿级新蓝海
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
人形机器人行业正站在2025年的关键转折点上。随着具身智能技术与“物理AI”的深度融合,这类机器人不仅成为技术交汇的核心载体,更被视为继计算机、智能手机和智能汽车之后的下一代智能终端,其背后是万亿级市场的潜力。驱动这一变革的核心,在于机器人“大脑”的突破性进展——以多模态大模型为代表的技术,正在赋予机器人前所未有的自主决策与环境交互能力。
从发展历程看,机器人行业已迈入具身智能时代。早期的工业机器人(2008年前)仅能完成固定场景下的简单重复任务;协作机器人(2008-2015年)和智能机器人(2015-2023年)虽实现了可移动与初步自主,但仍受限于特定任务。如今的具身智能机器人凭借人工智能的赋能,能够在复杂环境中自主规划并完成复杂工作。例如,它们可以听懂人类语言后分解任务,在移动中识别物体并与环境交互,智能化程度与场景适应性实现了质的飞跃。
具身智能机器人的核心在于“大脑”“小脑”与“肢体的协同。其中,“大脑”对应决策交互模块,负责环境感知、行为控制与人机交互等高层级任务;“小脑”是运动控制模块,基于自动控制与机器人操作系统实现高精度运动;“肢体”则是执行模块,集成仿人机械臂、灵巧手等部件,完成具体动作。而“大脑”的核心支撑,正是具身智能大模型——通过多模态建模、强化学习与数据训练,它能像人类大脑一样管理机器人的各项功能,甚至理解需求、分解任务,减少对人类操作的依赖。
多模态大模型的出现,为机器人“大脑”突破高层级控制难题提供了关键技术支撑。传统单一模态模型存在明显局限:大语言模型(LLM)仅能理解文本,无法处理视觉等物理信息;视觉模型虽擅长感知,却缺乏推理能力。而多模态大模型(MLLM)融合了文本、图像、视频等多种信息,既保留了LLM的常识与推理能力,又具备视觉感知能力,更贴合人类“多感官认知世界”的方式。例如,它能直接通过图像识别环境中的物体,结合自然语言指令生成控制代码,让机器人完成“从抽屉取薯片”这类需要多步骤规划的任务——先移动到抽屉旁、打开抽屉、取出薯片,再送到用户手中,整个过程无需人类拆解动作。
全球科技巨头与科研团队已纷纷入局具身大模型研发。谷歌是该领域的重要推动者,先后推出SayCan、RT-1、PaLM-E、RT-2、RT-X等系列模型:SayCan首次实现“语言指令与物理可行性结合”,避免机器人生成超出自身能力的指令;RT-1将Transformer架构与机器人控制结合,通过视觉与语言数据训练输出动作指令;PaLM-E融合大语言模型与视觉模型,能拆解长程任务;RT-2成为首个“视觉-语言-动作(VLA)模型”,可直接通过复杂文本操控机械臂;最新的RT-X系列通过整合22种机器人、527项技能的数据集,将任务成功率提升至此前模型的三倍。
特斯拉则凭借“端到端算法”路线展现独特优势。其自动驾驶系统FSD V12采用纯神经网络控制,取代了30万行以上的传统代码,能直接从视频输入生成车辆操控指令,人工干预频率仅为前代的百分之一。如今,特斯拉正将这套技术迁移至人形机器人Optimus——早期Optimus甚至使用与汽车相同的计算机和摄像头,虽需微调“识别可驾驶空间”为“识别可行走空间”,但已证明车端与机器人端技术的通用性,为感知决策一体化提供了新路径。
投稿邮箱:jiujiukejiwang@163.com 详情访问99科技网:http://www.fun99.cn
