一周AI大事:GPT-5.1"情商"大升级,“空间智能”正式上线
扫一扫
分享文章到微信

扫一扫
关注99科技网微信公众号
一、重磅工具:“空间智能”正式上线,AI开始自己造世界
新闻:World Labs发布世界模型Marble。这个生成式AI世界模型允许用户根据文本、图像、视频和3D布局等多种输入,生成可持续交互的3D环境。这些模型基于渲染场景中的高斯溅射特征生成3D世界,能在用户探索时保持一致性。
World Labs一直在开发能够突破空间智能边界的世界模型,其理念基于该公司创始人李飞飞所提出的“空间智能是AI下一个前沿”。空间智能是AI理解物理世界的基础,支持创建和编辑交互式AI世界;这项技术有望成为一种基础性的AI模型技术,既能服务于视频和图像的生成式AI模型,也能支持机器人和自动驾驶汽车等与物理世界交互的AI模型。
锐评:这是要造出《黑客帝国》母体的节奏。
二、AI技术与产品发布:从会说话到会“说人话”,个性成GPT-5.1新亮点
1. 新闻:本周OpenAI发布GPT-5.1。作为GPT-5的更新版,GPT-5.1旨在实现更“富有人情味”的交互体验。它提供两种主要模式:GPT-5.1 Instant (即时模式),用于快速、热情、遵循指令的聊天;以及GPT-5.1 Thinking(思考模式),用于更持久的多步骤推理。即时模式能提供快速、友好的回答,而思考模式则会在处理复杂任务时自动放慢速度。而在“自动”模式下,ChatGPT会自动将用户任务分配给最合适的模式。
GPT-5.1还包含一套更丰富的个性预设(默认、专业、友好、坦诚、古怪、高效、书呆子气、尖酸刻薄),让用户可以通过设置微调回复的语气。GPT-5.1的发布公告并未提及新模型的推理或基准测试能力有何具体提升,而旧版GPT-5模型将会保留数月时间。
评测指出,GPT-5.1感觉更“温暖”、更具个性化,解决了此前GPT-5缺乏个性的问题,在交互式聊天中对指令的响应和遵循能力也有所改善。TechRadar的日常使用评测称GPT-5.1“能力更强且更可控”。Digital Trends则表示:“我更喜欢用Gemini,但GPT-5.1更新可能会让ChatGPT成为你真正想用的AI助手。”
OpenAI还扩展了ChatGPT的协作功能,允许多人与同一个AI对话。GPT-5.1中的这项功能主要针对项目工作、规划和学习小组的需求,允许用户邀请朋友加入进行中的ChatGPT对话,并看到AI结合上下文回复每个人的消息。
锐评:GPT情商拉满,终于学会“好好说话”了。
2. 新闻:百度发布ERNIE-4.5-VL-28B-A3B-Thinking,这是一个基于混合专家(MoE)架构的新型多模态推理模型。其总参数量为280亿,但每个token仅激活30亿参数。ERNIE-4.5-VL-28B-A3B-Thinking能够处理图表理解、视频理解、视觉定位和工具增强的图像搜索等视觉推理任务。在MathVista和其他VQA(视觉问答)套件等基准测试中,它的表现与Gemini 2.5 Pro和GPT-5.1相当,但模型规模要小得多。ERNIE-4.5-VL-28B-A3B-Thinking基于Apache 2.0开源许可协议,其文档、演示以及权重已同步上线Hugging Face。
锐评:百度这波“以小博大”,证明“浓缩就是精华”,顺手还给开源了。
3. 新闻:ElevenLabs推出Scribe v2 Realtime,这是该公司最新的用于实时转录的低延迟语音转文本模型。Scribe v2 Realtime能以低于150毫秒的延迟转录语音,目标应用场景包括语音助手、会议助手和实时字幕,并支持90多种语言。ElevenLabs为使用其API的用户和开发者提供了产品页面和技术文档。
投稿邮箱:jiujiukejiwang@163.com 详情访问99科技网:http://www.fun99.cn
推荐资讯

















