主页 > 快资讯 > 正文

英伟达Blackwell GPU助力AI推理速度飞跃,达成千TPS/用户新高度

2025-05-24 14:26来源:今日头条编辑:张易川

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

  英伟达近日宣布了一项令人瞩目的成就:其最新推出的Blackwell GPU在meta的Llama 4 Maverick模型上,成功刷新了大型语言模型(LLM)推理速度的世界纪录。这一突破发生在周四,当时英伟达正式对外公布了这一消息。

  据悉,为了达到这一里程碑,AI基准测试权威机构Artificial Analysis采用了配置了8块Blackwell GPU的DGX B200节点。这一配置使得系统每用户每秒能够生成高达1000个tokens(TPS),这在之前是难以想象的。

  英伟达的技术团队通过深度优化TensorRT-LLM软件栈,并结合EAGLE-3技术,对推测解码草稿模型进行了训练。这种加速技术通过小型快速草稿模型预测token序列,再由大型目标LLM进行并行验证。英伟达表示,这种方法的优势在于单次迭代可能生成多个token,尽管这需要额外的草稿模型计算开销。经过这些优化,整套服务器系统在峰值吞吐配置下,每秒能够处理72,000个tokens。

  英伟达进一步解释说,Blackwell架构与Llama 4 Maverick级别的超大规模语言模型完美适配,这得益于其专为大型语言模型推理加速设计的EAGLE3软件架构。这一架构与GPU硬件架构形成了协同效应,从而实现了性能的显著提升。

  英伟达还强调,他们在提高性能的同时,也确保了响应的准确性。测试结果显示,使用FP8数据格式的准确性与人工分析的BF16数据格式相当。这意味着,在保持高准确性的前提下,英伟达成功地大幅提高了系统的性能。

  英伟达的这一突破,不仅展示了其在GPU技术领域的领先地位,也为大型语言模型的推理加速提供了新的解决方案。随着人工智能技术的不断发展,这一突破将对未来的AI应用产生深远的影响。

     投稿邮箱:jiujiukejiwang@163.com   详情访问99科技网:http://www.fun99.cn

相关推荐
微信“后悔药”上线:5秒黄金时间,误删信息可 微信“后悔药”上线:5秒黄金时间,误删信息可

在繁忙的数字生活中,每一个小小的失误都可能带来不小的麻烦。想象一下,你

快资讯2025-07-23

微信“后悔药”实测:5秒撤销,真的能救急还是 微信“后悔药”实测:5秒撤销,真的能救急还是

近日,一条关于微信新功能的消息在朋友圈引起了广泛关注:“手滑误删工作群

快资讯2025-07-23

直言华为比NVIDIA大得多!黄仁勋狂夸华为:到底 直言华为比NVIDIA大得多!黄仁勋狂夸华为:到底

原标题:直言华为比NVIDIA大得多!黄仁勋狂夸华为:到底是战略布局还是真心话

行业资讯2025-07-23

小鹏MONA连续十月交付破万,上半年累计交付近 小鹏MONA连续十月交付破万,上半年累计交付近

原标题:小鹏MONA连续十月交付破万,上半年累计交付近20万台 小鹏汽车近日在

行业资讯2025-07-23

马斯克xAI筹巨资,剑指五年5000万块H100等效算力, 马斯克xAI筹巨资,剑指五年5000万块H100等效算力,

原标题:马斯克xAI筹巨资,剑指五年5000万块H100等效算力,领跑AI军备竞赛 近期

行业资讯2025-07-23

通用汽车中国市场销量大增20%,连续三季盈利, 通用汽车中国市场销量大增20%,连续三季盈利,

原标题:通用汽车中国市场销量大增20%,连续三季盈利,业绩回暖迹象明显 通

行业资讯2025-07-23

误删小米回收站照片别急!三步教你高效找回珍 误删小米回收站照片别急!三步教你高效找回珍

在数字化生活的快节奏中,手机已成为我们记录生活点滴的重要工具。然而,一

快资讯2025-07-23

严打“帅哥/美女带团游北京”套路,抖音生活服 严打“帅哥/美女带团游北京”套路,抖音生活服

近日,抖音生活服务在平台巡检中发现,个别账号以“美女/帅哥带团游北京”

快资讯2025-07-23

Roblox下载故障不求人:核心难题解析与高效解决 Roblox下载故障不求人:核心难题解析与高效解决

Roblox,这款充满创意与互动乐趣的游戏平台,一直以来都深受全球年轻玩家的喜

快资讯2025-07-22

OPPO携手阿里云,大数据平台实现云端迁移新突破 OPPO携手阿里云,大数据平台实现云端迁移新突破

近期,阿里云宣布与智能手机制造商OPPO携手,成功将OPPO庞大的大数据平台迁移

快资讯2025-07-22