GPT-5新品发布会:性价比之选、编程表现抢眼,新增功能亮点不多

图片[1]-GPT-5新品发布会:性价比之选、编程表现抢眼,新增功能亮点不多-小胖资源分享网 图片[2]-GPT-5新品发布会:性价比之选、编程表现抢眼,新增功能亮点不多-小胖资源分享网 图片[3]-GPT-5新品发布会:性价比之选、编程表现抢眼,新增功能亮点不多-小胖资源分享网 图片[4]-GPT-5新品发布会:性价比之选、编程表现抢眼,新增功能亮点不多-小胖资源分享网 图片[5]-GPT-5新品发布会:性价比之选、编程表现抢眼,新增功能亮点不多-小胖资源分享网 图片[6]-GPT-5新品发布会:性价比之选、编程表现抢眼,新增功能亮点不多-小胖资源分享网 图片[7]-GPT-5新品发布会:性价比之选、编程表现抢眼,新增功能亮点不多-小胖资源分享网 图片[8]-GPT-5新品发布会:性价比之选、编程表现抢眼,新增功能亮点不多-小胖资源分享网在8月8日凌晨的北京时间,备受瞩目的GPT-5终于与公众见面,这一时刻距离GPT-4的发布已相隔两年半。然而,与ChatGPT的惊艳首秀、GPT-4的巨大飞跃以及o1发布时的轰动效应相比,此次发布会显得较为平淡。Benchmark的表现并不抢眼,缺乏创新性的新范式,展示的用例难以激发兴趣,且PPT中甚至出现了错误,这些因素共同构成了这场长达1小时20分钟的发布会。

尽管如此,GPT-5并非没有进步。其极低的幻觉率、前端能力的增强、上下文理解能力的显著提升,以及极具竞争力的价格,都是此次发布中的亮点。尤其是价格方面,GPT-5在出色的编程能力支持下,其API价格仅为昨日发布的Claude Opus 4.1的1/15,甚至低于Gemini 2.5 Pro。这无疑对Anthropic构成了重大打击。

尽管OpenAI在今晚失去了往日的神秘感,但依然在与其他厂商的竞争中稳固了自己的地位。

GPT-5本体:有限的升级,微小的SOTA提升

GPT-5共有四个版本,包括GPT-5、GPT-5 mini、GPT-5 nano,以及仅对企业用户和每月支付200美元的高级用户开放的GPT-5 Pro模式。对于普通用户来说,默认使用的是统一的GPT-5模型,该模型由多个模型组成,包括用于大多数问题的“智能且快速”模型(gpt-5-main)和用于更复杂问题的“更深层推理”模型(gpt-5-thinking)。这种统一的设计通过实时路由器来决定针对特定查询使用哪个模型。

mini和nano版本的选择由API用户自行决定,而GPT-5 Pro模式则类似于Grok 4的Hard模式,采用并行测试计算,一次多个模型并行计算更长时间。它利用更大的算力,提供了最全面、最精确的答案。在超高难度的科学问题(GPQA)上,GPT-5刷新了世界纪录。在与人类专家的“盲测”中,近7次被认为优于人类。

在能力和评分上,GPT-5在几乎所有方面都有所提升,但与当前SOTA相比,提升幅度有限,与o3相比也仅有微小的优势。

智力水平:体验最佳,但非智力最佳

在智力水平上,GPT-5在各种主流评测集中均高于o3,但整体差距并不大。

深入分析这些前沿数学测试集的细分结果,我们可以观察到,在GPT-5的表现上,其成绩并不优于ChatGPT Agent,仅在启用Pro模式后,GPT-5的表现才有所提升。

在对GPT-5与其他模型进行对比分析的过程中,我们可以观察到,该模型在多数“智力”方面的表现仅略优于竞争对手,有些能力甚至并未达到当前最佳水平(SOTA)。总体而言,GPT-5仅以微小的优势领先。因此,我们难以断言其具备显著或飞跃性的能力提升。

总体而言,Artificial Analysis的评估结果显示,GPT-5目前位居首位,不过其综合得分仅比o3高出两分,与Grok 4的差距仅为一分。

在Arc Prize的竞赛中,GPT-5的表现未能达到预期,特别是在这一被誉为通用人工智能(AGI)终极测试的赛事中,它未能超越Grok 4,甚至差距明显。

然而,从这一事实中我们同样可以观察到,与o3相比,GPT-5在计算效率方面确实实现了提升,它能够以更低的token使用量达到超越o3的效果,其效率亦超过了Anthropic的模型。

OpenAI对此进行了说明,指出GPT-5在处理复杂问题时,其所需的token数量能够减少50%-80%。

马斯克对此兴奋不已,频繁地在社交媒体上激动地发表推文。近期,Grok在AI国际象棋赛事中表现出色,成功击败了OpenAI,似乎在这次发布会之后,Grok成为了最大的赢家。

尽管如此,GPT-5在用户体验方面实现了逆转。

在LMArena这个以用户双盲对比不同模型性能为特色的排行榜中,GPT-5在所有测试项目中均荣获了第一名。

在编程领域,OpenAI在本次会议中特别强调了其进展。GPT-5在“思考”模式下的表现相较于前代产品有了显著进步,这使得编程变得更加“省心”,有效解决了编程过程中的痛点。

然而,即便将持续强调编程的对手Anthropic最近推出的Claude 4.1 Opus纳入考量,优势也极为有限。两者的差距仅有0.3%。

尽管GPT-5在编程基准测试中的整体表现并不特别抢眼,OpenAI却在编程的实际使用体验上进行了多项改进。在发布会上,该公司详细阐述了编程体验的几项关键改进,这些改进主要涉及对编程需求的理解、错误修正的能力以及更广泛工具的使用。

这些改进主要得益于成熟度较高的智能体式编码(Agentic Coding)系统。GPT-5在处理“智能体式”编码任务方面表现出色,能够调用多种工具,并持续工作数分钟甚至更长时间以完成复杂的指令。在编码过程中,该模型甚至能够主动沟通,阐述其计划、步骤和发现,仿佛是一个协作团队。

为了实现这种类似协作伙伴的行为,OpenAI的团队对模型进行了针对性的微调,专注于以下特性:自主性(autonomy)、协作与沟通(collaboration and communication)以及测试(testing)。

GPT-5在理解编程需求和遵循指令方面的提升,使其能够将模糊或详细的指令转化为实际可执行的代码,从而帮助那些不具备编程知识的人实现他们的创意。

部分用户在推特上提供了相应的回应。

经过OpenAI的精心微调,工具的调用功能同样得到了显著展现。这一优势在Tau测试集中尤为突出。Tau测试集旨在衡量AI模型在模拟现实世界情境下与用户进行互动对话,并高效运用外部工具(如API或函数调用)完成任务的性能。特别是在电信行业,该模型的能力提升尤为显著。

一项关键的更新是“修复漏洞”功能的显著增强。

在展示中,GPT-5能够深入探索一个真实的代码库(OpenAI Python SDK),通过搜索和读取文件来领悟代码的架构和逻辑,并最终锁定问题的根本所在。它甚至能够洞察人类工程师做出某些架构决定的深层动机,比如为了增强安全性考虑。

此外,GPT-5还能自动修复自身的漏洞。在一个前端应用开发任务的演示中,GPT-5在完成代码编写后,会自行尝试构建项目。在构建过程中遇到错误时,它能接收这些错误信息并反馈给自己,然后基于这些错误信息进行代码的修改和迭代。OpenAI的演示人员将这一过程称为一个“意义深远的时刻”和一个“自我优化的循环”。

在解决特定漏洞的过程中,该模型也展现出了高水平的智能。例如,在进行代码审查时,它发现了其他一些问题,但能够判断这些问题与当前要修复的漏洞无关,从而避免了不必要的修改。

这一点对于当前的开发环境尤为重要。今年的一篇论文指出,一个看似反直觉的现象:使用AI辅助编程可能会降低工作效率,而不是提高。这主要是因为程序员日常面对的往往是旧代码的迭代,而非全新项目。

因此,若没有对复杂程序的整体把握以及自我漏洞修复功能,AI在处理这类项目时的能力将受到很大限制。

显然,OpenAI在编程方面充分考虑了产品经理的思路,对存在的问题进行了大幅度的调整和改进。在沃顿商学院教授Ethan Mollick的测试中,他也感受到了GPT-5在编程上的“轻松便捷”特点。

Ethan Mollick的博客文章

Ethan Mollick是一位备受尊敬的博客作者,他的文章以其深刻的见解和独到的分析而著称。以下是Ethan Mollick博客文章的精准文本分析和改写:

原文:

“Ethan Mollick的博客文章总是能够深入探讨商业、科技和社会趋势。他的文字不仅富有洞见,而且能够激发读者的思考。Mollick以其独特的视角,将复杂的问题简化,使读者能够轻松理解并参与到讨论中。他的文章风格清晰、简洁,语言流畅,深受广大读者的喜爱。”

改写:

“Ethan Mollick的博客作品以其对商业、科技和社会动态的深入分析而闻名。他的文章不仅见解独到,而且能引发读者的深思。Mollick擅长用独到的眼光剖析复杂议题,让读者轻松把握并参与讨论。他的写作风格明快、简练,文字表达流畅,深受读者群体的青睐。”

文章来源:尔德资源分享网 https://edvjjs.cn/

© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享