一周AI大事:GPT-5.1"情商"大升级,“空间智能”正式上线(2)
扫一扫
分享文章到微信

扫一扫
关注99科技网微信公众号
锐评:话音未落,已转录成文。
4. 新闻:谷歌更新Android和iOS平台上的Gemini Live,提供更具适应性和表现力的语音功能。用户现在可以调整语速,听到更细微的语调和节奏变化,还可以要求AI用不同角色的口音来讲故事。新版应用还改进了AI对语言学习和练习对话的支持。此外,Gemini Live API中新增的本地音频模型降低了延迟,提升了语音优先应用的性能。
锐评:除了不像人会喘气,啥音都会。
5. 新闻:谷歌在其搜索的AI模式以及Gemini应用中推出了一整套AI购物工具。对话式购物功能可以从包含约500亿个产品列表的图谱中提取信息;“智能结账”功能可跟踪价格,并在商品价格降至用户设定阈值以下时通过Google Pay自动下单;“让Google致电”的智能体功能可代替用户致电本地商店,查询库存和促销信息。
锐评:这下网购花钱更快了。
6. 新闻:Terminal-Bench基准测试已更新至2.0版。Terminal-Bench是一个开源基准测试,包含89个实际终端任务,用于评估AI智能体在真实Shell环境中的操作能力。Terminal-Bench团队还发布了基于容器的标准框架Harbor,可以让不同智能体在相同任务上进行可复现的评估。Terminal-Bench的公开排行榜会跟踪各智能体在终端AI自动化任务上的表现。
锐评:智能体考试也越来越难,还要比拼敲命令行。
7. 新闻:总部位于巴黎的H Company公司发布新一代多模态模型Holo Two,旨在推动跨平台的计算机使用智能体。Holo Two模型有40亿、80亿和300亿-A3B MoE三种规模,均是经过调优的视觉语言模型,用于在真实GUI(图形用户界面)中进行定位、导航和任务执行。这些模型使智能体能够“查看”屏幕,并通过点击和按键来控制屏幕;它们可以在网页、桌面以及移动端运行。Holo Two模型现已开放权重并上线Hugging Face平台。
锐评:能看屏幕、能点按钮、能跑GUI,这不是把坐办公室的活全包了嘛。
8. 新闻:新发布的Robyn是前医生Jenny Shao创建的一款富有同理心的AI伴侣。作为一款iOS应用,Robyn的定位并非替代心理医生,而是一个高情商的伙伴。它能记住用户的详细信息,具备长期跟踪模式,可以提供关于压力、情感依恋风格和习惯方面的见解,同时为了确保安全还内置了防护措施和危机响应流程。
锐评:明明白白你的心,渴望一份真感情。
9. 新闻:Gemini 3和Nano Banana 2即将发布。Gemini 3预览版现已在LMArena上线,代号为“riftrunner”。谷歌新一代AI图像模型Nano Banana 2也已以预览形式出现在Gemini应用内。Nano Banana 2在角度和视点方面具备更强的类相机控制,改进了文本渲染能力,并采用多步骤的“规划、生成、评估、修复”工作流,在呈现最终结果前会反复自我修正图像。
锐评:还会反复纠错,AI出图这是要卷到用户满意为止。
三、AI研究动态:小模型打出大智慧,多语言多环境AI纷纷出炉
1. 新闻:Meta推出语音识别系统Omnilingual ASR,能支持超过1600种语言和方言。Meta表示,Omnilingual ASR是“被设计成一个社区驱动的框架”,其中包含一套用于自动语音识别 (ASR) 的新型开源AI模型和一个涵盖350种冷门小语种的转录语音数据集。这些AI模型的参数量从3.5亿到70亿不等,均基于Meta的wav2vec 2.0架构开发。Meta在论文《Omnilingual ASR:支持1600多种语言的开源多语言语音识别》中公布了他们的研究成果。
投稿邮箱:jiujiukejiwang@163.com 详情访问99科技网:http://www.fun99.cn
推荐资讯

















