主页 > 快资讯 > 正文

AI虽快却不准,OpenAI最新研究:当前模型难敌人类程序员

2025-02-27 14:29来源:今日头条编辑:张易川

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

  近期,OpenAI的首席执行官萨姆·奥尔特曼发表了一项大胆预测,他声称到今年年底,人工智能模型将超越“入门级”软件工程师的能力。然而,OpenAI内部研究人员的最新研究成果却给出了不同的答案。

  在这项研究中,研究人员揭示了一个令人意外的发现:即便是目前最前沿的人工智能模型,也无法与人类程序员相提并论。为了验证这一点,他们开发了一个名为SWE-Lancer的新基准测试工具,该工具基于自由职业者网站Upwork上的真实软件工程任务。

  研究人员选取了三款大型语言模型(LLMs)进行测试,包括OpenAI自家的o1推理模型、旗舰产品GPT-4o,以及Anthropic公司的Claude 3.5 Sonnet。这些模型在测试中需要处理两类任务:一类是个体任务,如修复漏洞;另一类是管理任务,需要做出更高层次的决策。

  测试结果显示,尽管这些模型在某些细节任务上能够迅速给出答案,但它们在处理大型项目中的漏洞及其根源时却显得力不从心。这些“半成品”解决方案往往缺乏全面性和准确性,与AI常见的“自信满满但漏洞百出”的信息输出如出一辙。

  值得注意的是,在测试过程中,这些模型被禁止访问互联网,以确保它们无法抄袭网上已有的答案。即便如此,它们的表现仍然令人失望。尽管三款LLMs在完成任务的速度上远超人类,但它们在理解漏洞的广泛性和背景方面存在明显不足,导致解决方案往往错误或不够全面。

  其中,Claude 3.5 Sonnet的表现略胜一筹,甚至在测试中“赚取”的金额超过了o1和GPT-4o。然而,这并不意味着它的答案就是正确的。事实上,大多数答案仍然存在错误。研究人员指出,要想将AI模型真正应用于实际编程任务,还需要提高其可靠性。

  这项研究似乎表明,尽管前沿的人工智能模型在处理一些细节任务时表现出色,但它们在软件工程领域的整体技能水平仍然远远不及人类工程师。这些模型在处理复杂任务时的局限性,再次凸显了人类智慧在编程领域的不可替代性。

  然而,令人担忧的是,一些首席执行官似乎并未受到这项研究的影响。他们仍然选择解雇人类程序员,转而使用这些尚未成熟的AI模型。这种做法不仅可能带来潜在的风险和损失,也忽视了人类工程师在软件开发中的独特价值。

     投稿邮箱:jiujiukejiwang@163.com   详情访问99科技网:http://www.fun99.cn

相关推荐
三星One UI 8.5测试版日志揭秘:AI修图升级,设备 三星One UI 8.5测试版日志揭秘:AI修图升级,设备

近日,科技圈传来新动态,消息源@tarunvats33在X平台发布推文,分享了一组关于

快资讯2025-12-04

萝卜快跑布局广东鹤山!新设科技公司注册资本 萝卜快跑布局广东鹤山!新设科技公司注册资本

近日,一家名为萝卜快跑(鹤山)科技有限公司的新企业正式注册成立,引发市

快资讯2025-12-04

美光宣布退出Crucial消费级业务,近三十年品牌将 美光宣布退出Crucial消费级业务,近三十年品牌将

12月4日消息,全球存储巨头美光科技(Micron Technology)正式宣布,将全面退出其

快资讯2025-12-04

OpenAI在"玩火"?头号对手罕见开炮 OpenAI在"玩火"?头号对手罕见开炮

作者 | 小小 出品 | 网易科技 通往AGI不需要魔法,只需要“暴力计算”。但前提

快资讯2025-12-04

灵光闪应用升级 不会代码也能用AI生成小游戏 灵光闪应用升级 不会代码也能用AI生成小游戏

12月4日消息,今日,通用AI助手灵光宣布重要升级,上线闪游戏功能。区别于传

快资讯2025-12-04

亚马逊云科技re:Invent 2025发布Nova 2系列,多款中国 亚马逊云科技re:Invent 2025发布Nova 2系列,多款中国

在亚马逊云科技举办的re:Invent 2025全球大会上,首席执行官Matt Garman宣布推出四

快资讯2025-12-04

iPhone 17系列立大功!苹果10月全球份额24.2%:创历 iPhone 17系列立大功!苹果10月全球份额24.2%:创历

12月4日消息,据市场调研机构Counterpoint Research最新报告,2025年10月,苹果在全球

快资讯2025-12-04

东风日产法务:多个自媒体账号发布 N6 不实信息 东风日产法务:多个自媒体账号发布 N6 不实信息

12 月 4 日消息,东风日产法务昨晚在官微发布声明,称东风日产 N6 上市后,注

快资讯2025-12-04

卢伟冰回应罗福莉加盟 小米在大模型应用方面进 卢伟冰回应罗福莉加盟 小米在大模型应用方面进

12月4日消息,小米集团总裁卢伟冰近日通过社交媒体 "答网友问" 第十二期,首

快资讯2025-12-04

一加 Ace 6T深度评测:性能影像双在线,打造全能 一加 Ace 6T深度评测:性能影像双在线,打造全能

在手游市场持续升温的当下,性能旗舰手机的竞争愈发激烈。一加 Ace 6T的登场

快资讯2025-12-04