主页 > 快资讯 > 正文

月之暗面发布新论文:AttnRes模块亮相,深度学习2.0时代或将来临

2026-03-18 10:27来源:今日头条编辑:张易川

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

  在深度学习领域,一场关于模型架构创新的讨论正愈演愈烈。近日,月之暗面团队发布了一项突破性研究,提出了一种名为注意力残差(Attention Residuals,简称AttnRes)的新型模型模块,为深度学习模型的发展开辟了新路径。这一成果不仅引发了学界和业界的广泛关注,更得到了前OpenAI核心成员Jerry Tworek等知名学者的高度评价。

  传统Transformer架构中,残差连接是确保深层网络稳定训练的关键设计。每一层的输出会直接与前一层相加,形成"等权累加"的机制。这种设计虽然解决了梯度消失问题,但随着模型层数增加,历史层信息被简单叠加,导致深层网络表达能力受限。月之暗面的研究团队敏锐地捕捉到了这一局限性,提出用动态注意力机制替代固定残差连接的创新方案。

  AttnRes的核心突破在于引入了可学习的权重分配机制。每层网络不再被动接受前层输出,而是通过注意力机制主动"检索"历史层中最有价值的信息。这种设计使模型能够根据当前上下文动态调整信息聚合方式,有效缓解了深层网络中的信息稀释问题。研究团队进一步提出的块级注意力残差(Block AttnRes)结构,通过将网络划分为多个计算块,在保持灵活性的同时显著降低了计算复杂度。

  实验数据显示,将AttnRes集成到480亿参数的Kimi Linear架构后,模型在1.4万亿token的预训练中展现出显著优势。在数学推理、科学问答等复杂任务上,新模型性能提升超过20%,特别是在多步推理基准测试GPQA-Diamond中表现尤为突出。更令人瞩目的是,Block AttnRes在验证损失上达到1.692,相比基线模型1.714的成绩,相当于提升了约25%的计算效率。

  这项创新不仅体现在理论层面,更在工程实现上取得突破。研究团队针对Block AttnRes带来的通信开销问题,开发了跨阶段缓存机制,将训练阶段的额外开销控制在4%以内。在推理阶段,通过两阶段计算策略和序列分片技术,使内存延迟增加不超过2%,同时显著降低了长上下文场景下的显存需求。这些优化措施确保了新技术在实际应用中的可行性。

  据研究团队介绍,该成果是数十名研究员共同协作的结晶,其中Guangyu Chen、Yu Zhang和Jialin Su三位研究员贡献最为突出。这项突破不仅展示了中国研究团队在AI基础架构领域的创新能力,也为全球深度学习社区提供了值得深入探索的新方向。随着相关研究的持续推进,注意力机制在深度维度上的应用有望成为下一代模型架构的关键特征。

     投稿邮箱:jiujiukejiwang@163.com   详情访问99科技网:http://www.fun99.cn

相关推荐
首发主动散热技术及方舟内存引擎 HUAWEI Mate 80 首发主动散热技术及方舟内存引擎 HUAWEI Mate 80

HUAWEI Mate 80系列凭借其设计、屏幕、影像体验的跨越式提升,自发布以来深受用

快资讯2026-03-24

百度APP:春节分5亿现金红包,单个最高10000元, 百度APP:春节分5亿现金红包,单个最高10000元,

1月25日消息,刚刚,百度宣布马年春节百度APP发红包,1月26日到3月12日一起瓜分

快资讯2026-03-24

享界S9T、享界S9焕新升级31.98 万起售,下定至高享 享界S9T、享界S9焕新升级31.98 万起售,下定至高享

2026年3月23日,在华为春季全场景新品发布会上,享界旗舰9系轿旅双车焕新上市

快资讯2026-03-24

黄仁勋达沃斯实录:几千亿只是开胃菜,AI基建还 黄仁勋达沃斯实录:几千亿只是开胃菜,AI基建还

“我们已经投进去的几千亿美元,只是道开胃菜。要把这套架构真正搭起来,后

快资讯2026-03-24

阿里千问上线“一句话打车” 阿里千问上线“一句话打车”

自滴滴上周四正式上线AI小滴语音智能化叫车服务后,今天上午,阿里巴巴旗下

快资讯2026-03-24

零跑首款MPV车型D99亮相:定位30万元级旗舰产品 零跑首款MPV车型D99亮相:定位30万元级旗舰产品

12月28日消息,在今日举行的零跑汽车十周年发布会上,旗下首款MPV车型零跑D

快资讯2026-03-24

尚界Z7双车开启预订,预售价22.98万起,解锁科技 尚界Z7双车开启预订,预售价22.98万起,解锁科技

3月23日,华为春季全场景新品发布会在长沙盛大启幕。尚界面向高端电动市场的

快资讯2026-03-24

小米新动态:AI“龙虾”封测升级,新机或配万毫 小米新动态:AI“龙虾”封测升级,新机或配万毫

近期,小米在科技领域动作频频,不仅在系统更新方面取得新进展,新机配置的

快资讯2026-03-24

阿里达摩院发布玄铁C950:5nm制程性能跃升,引领 阿里达摩院发布玄铁C950:5nm制程性能跃升,引领

在近日举办的阿里达摩院玄铁RISC-V生态大会上,一款备受瞩目的新一代旗舰处理

快资讯2026-03-24

腾讯元宝:春节分10亿现金,最高可得万元 腾讯元宝:春节分10亿现金,最高可得万元

1月25日消息,腾讯元宝发布关于春节分10亿现金的通知。 元宝将在2月1日开启新

快资讯2026-03-24