2025人形机器人“大脑”进化:多模态大模型赋能,开启万亿级新蓝海(2)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
国内团队同样表现亮眼。字节跳动推出的GR-2模型先在3800万个互联网视频片段上完成预训练,学习人类在家庭、办公室等场景的行为模式,再通过数据增强与多视角训练微调。该模型不仅能处理105项桌面任务且平均成功率达97.7%,还能端到端完成货箱间的物体拣选——即使面对透明、反光或柔软物体,甚至从未见过的辣椒、葡萄等物品,也能精准抓取,展现出强大的泛化能力。
然而,具身大模型的发展仍面临三大挑战。一是泛化性弱,目前模型在特定场景表现优异,但切换到施工工地、嘈杂后厨等复杂场景,成功率便骤降,核心原因在于机器人操作数据量不足、对错误容忍度低。二是实时性差,谷歌RT-2的推理频率仅1-5Hz,输出运动频率1-3Hz,导致机器人“反射弧”长达0.3-1秒,远低于人类与实际应用需求;Figure机器人的延迟甚至达到2-3秒,影响任务效率。三是数据采集难题,真实数据收集成本高、难度大,而合成数据若生成不当,易出现与真实数据差距大或样式单一的问题,难以支撑模型训练。
为保障“大脑”高效运转,云计算与边缘计算构成了重要外延支撑。云计算凭借强大的算力与存储能力,为大模型训练提供保障——例如谷歌PaLM-E模型融合220亿视觉参数与5400亿语言参数,其训练需依赖云计算的分布式处理能力;同时,云计算还能让机器人随时随地获取算法支持,提升灵活性。而边缘计算则弥补了云计算的短板,它将计算能力靠近机器人终端,降低数据传输时延与安全风险,尤其适合工业场景——部分工厂不愿将设备数据上传云端,边缘计算可在本地完成数据处理,保障隐私与运行安全。目前,德州仪器TDA4x处理器、特斯拉DOJO D1芯片等边缘算力模组,已开始应用于协作机器人与Optimus,推动“云-边”协同成为主流架构。
随着2025年人形机器人进入小批量量产阶段,全球数千台机器人将进入工厂场景训练,这无疑会加速“大脑”的迭代进化。未来,随着大模型泛化性、实时性的突破,以及云边协同架构的完善,人形机器人有望在工业制造、家庭服务等领域广泛落地,真正开启万亿级市场的想象空间,成为改变人类生产生活方式的重要力量。
投稿邮箱:jiujiukejiwang@163.com 详情访问99科技网:http://www.fun99.cn
