DeepSeek-Math-V2数学模型开源，成绩碾压OpenAI和谷歌同类模型

2025-12-02 06:23来源：Techweb编辑：张易川

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

　　【TechWeb】12月1日消息，近日， DeepSeek在Hugging Face平台正式开源了DeepSeek-Math-V2模型，这是全球首个达到国际数学奥林匹克竞赛金牌水平的开源数学模型。该模型基于DeepSeek-V3.2-Exp-Base开发。

　　DeepSeek-Math-V2模型在国际数学奥林匹克IMO 2025模拟赛中解出5道题（共6题），在中国数学奥林匹克CMO 2024中获得金牌级评价，更在被誉为“地狱难度”的普特南(Putnam)数学竞赛2024中取得了118/120的接近满分成绩，远超人类最高分90分。

　　“鲸鱼回来了！” 这是AI开源社区在DeepSeek发布新模型后的热烈反应。

　　两大创新，成绩碾压GPT-5-Thinking-High和Gemini 2.5-Pro

　　根据DeepSeek团队发布的论文，DeepSeekMath-V2的核心突破在于成功实现了“自我验证”的数学推理机制。

　　传统的AI数学推理训练存在根本性局限——模型奖励基于最终答案的正确性，但这并不能保证推理过程的正确性或逻辑的严谨性。

　　DeepSeek研究人员在论文中明确指出：“正确答案并不保证推理过程正确”。

　　这种结果导向的训练方式，导致模型可能通过错误的逻辑得出正确答案，成为“自信的骗子”。

　　DeepSeekMath-V2彻底改变了这一模式，转向过程导向的训练方法。它不依赖大量的数学题答案数据，而是教会AI如何像数学家一样严谨地审查证明过程。

　　这种方法模拟了人类数学家的思考方式：写几步之后，停下来反思，发现漏洞就推翻重写，直到自己挑不出毛病为止。

　　另一个大核心创新则是DeepSeekMath-V2构建了一个多层次自我验证系统。

　　该系统由三个关键角色组成，形成了一个相互协作又相互制约的架构。

　　“做题家”（证明生成器）负责解题和撰写证明过程。与以往不同，它被训练成不仅要写答案，还要进行“自我评价”，诚实指出自己可能出错的地方。

　　“铁面判官”（证明验证器）是专门训练的评分模型，它不看答案对错，而是专门盯着证明过程挑刺。它将证明分为三个等级：1分（完全正确）、0.5分（有小瑕疵）、0分（有致命错误）。

　　“判官的审计员”（元验证器）是最绝的一步，它专门检查验证器是否在胡乱挑刺。如果验证器指出了一个不存在的错误，它会被元验证器纠正。

　　通过这种精巧的架构，DeepSeekMath-V2实现了真正的自我反思能力。

　　模型不再盲目相信自己的第一直觉，而是学会了怀疑、审视和批判性思维。

　　根据论文公开的数据，DeepSeekMath-V2在多项数学基准测试中展现出统治级的实力。

　　在IMO-ProofBench基准测试中，DeepSeekMath-V2在Basic子集上获得了接近99%的惊人高分，显著高于Gemini Deep Think的89%。

　　在更高级的Advanced子集上，DeepSeekMath-V2得分为61.9%，略低于Gemini Deep Think的65.7%，但仍展现出强大的竞争力。

　　在与顶级模型的直接对比中，DeepSeekMath-V2在所有CNML级别问题类别上，包括代数、几何、数论、组合学和不等式均持续优于GPT-5-Thinking-High和Gemini 2.5-Pro。

　　在代数领域，DeepSeekMath-V2远超GPT-5-Thinking-High和Gemini 2.5-Pro；在几何领域，其得分几乎是Gemini 2.5-Pro的三倍。

　　更令人印象深刻的是，当允许模型进行“自我验证”，即生成答案后，自己挑毛病，然后带着问题重新生成，证明的质量分数从初始的0.15（迭代1次）飙升到了0.27（迭代8次）。

　　开源社区沸腾

　　DeepSeekMath-V2的开源发布，在AI社区引发了强烈反响。

　　海外社区有评论称“鲸鱼终于回来了”，并指出DeepSeek以约10个百分点优势超越谷歌同类模型，超出预期。

　　在技术社区，用户用更通俗的语言解读这一突破：“DeepSeek换了个教法，死磕过程。结果对了，也必须看解题步骤，过程中只要有一步没整明白，也不给糖吃。这就逼着AI必须要真懂，不能当混子。”

　　还有用户指出这一发布的时间点堪称完美：“就在昨天，AI教父Ilya在访谈中提到，现在的AI就是个只会死记硬背的做题机器。仅仅不到24小时，DeepSeek就把新模型开源了。”

　　这一巧合被形容为“一次穿越时空的击掌”，是DeepSeek对AI发展路径的实质性回应。

　　不过，也有用户提出了理性的担忧：“自我纠错这套路，说得轻松其实难度不小啊，验证器要是本身就有问题呢？左手批右手的感觉。”

　　无论如何，大家都认为DeepSeekMath-V2的开源具有重要的行业意义。

　　DeepSeekMath-V2采用Apache 2.0许可证，允许修改、重新用途和本地部署，为学术研究和商业应用提供了极大便利。

　　这一开源降低了全球研究者的门槛，特别是在当前谷歌和OpenAI都将他们的高分数学模型严格限制在付费或实验性访问。

　　DeepSeekMath-V2的开源发布标志着AI数学推理能力不再是大公司的专属领域，而是成为全球研究者可以共同探索和推进的开放领域。

　　Hugging Face联合创始人兼Clement Delangue表示：这一发布是迈向AI真正民主化的一步。

　　用户现在可以免费使用“世界上最好的数学家之一的大脑”，而不必担心公司或政府将其收回。

投稿邮箱：jiujiukejiwang@163.com 详情访问99科技网：http://www.fun99.cn

相关推荐

清华团队新突破：脑电信号助力自动驾驶，复杂

清华大学智能产业研究院（AIR）的研究团队在自动驾驶技术领域取得了突破性进

快资讯2025-12-24

奔驰柴油排放门事件落幕：又支付1.496亿美元与美

12月23日消息，当地时间本周一，美国纽约州总检察长莱蒂蒂亚・詹姆斯表示，

快资讯2025-12-24

吉利极氪合并后，消息称相关管理层调整已完成

12 月 23 日消息，据蓝鲸汽车今日援引吉利汽车相关高管人士消息称，在吉利与

快资讯2025-12-24

罗永浩录音风波未了 “华与华”兄弟要卖上市公

12月23日消息，昨晚，上市公司“读客文化”的一纸停牌公告，将华楠、华杉兄

快资讯2025-12-24

华为nova 15系列及全场景新品发布，影像性能升级

华为今日举办了一场备受瞩目的新品发布会，正式推出nova 15系列手机及多款全

快资讯2025-12-23

华为何刚首揭5A标识内涵：非5G-A，带来5A级优质网

华为近期推出的Mate 80系列手机，在用户群体中引发了广泛关注。不少用户在使

快资讯2025-12-23

快手为什么遭到大面积攻击？网安专家解答

12月23日，快手最新公告，经全力处置与系统修复，快手应用的直播功能已逐步

快资讯2025-12-23

Spotify遭黑客入侵 8600万首曲目泄露高达300TB

12月22日消息，全球最大音乐流媒体平台Spotify遭遇重大数据泄露事件：300TB音乐

快资讯2025-12-23

存储芯片逆袭！七年来三星、海力士毛利率首超

12月23日消息，科创板日报报道，随着存储芯片行业在“缺货涨价”周期中持续

快资讯2025-12-23

马蜂窝AI数据：冰雪旅游转向“体验为王”，“冰

近日，一场聚焦冬季冰雪旅游与入境旅游创新发展的行业盛会在呼伦贝尔拉开帷

快资讯2025-12-23

头条资讯

推荐资讯