GPT-5新品发布会：性价比之选、编程表现抢眼，新增功能亮点不多-小胖资源分享网

在8月8日凌晨的北京时间，备受瞩目的GPT-5终于与公众见面，这一时刻距离GPT-4的发布已相隔两年半。然而，与ChatGPT的惊艳首秀、GPT-4的巨大飞跃以及o1发布时的轰动效应相比，此次发布会显得较为平淡。Benchmark的表现并不抢眼，缺乏创新性的新范式，展示的用例难以激发兴趣，且PPT中甚至出现了错误，这些因素共同构成了这场长达1小时20分钟的发布会。

尽管如此，GPT-5并非没有进步。其极低的幻觉率、前端能力的增强、上下文理解能力的显著提升，以及极具竞争力的价格，都是此次发布中的亮点。尤其是价格方面，GPT-5在出色的编程能力支持下，其API价格仅为昨日发布的Claude Opus 4.1的1/15，甚至低于Gemini 2.5 Pro。这无疑对Anthropic构成了重大打击。

尽管OpenAI在今晚失去了往日的神秘感，但依然在与其他厂商的竞争中稳固了自己的地位。

GPT-5本体：有限的升级，微小的SOTA提升

GPT-5共有四个版本，包括GPT-5、GPT-5 mini、GPT-5 nano，以及仅对企业用户和每月支付200美元的高级用户开放的GPT-5 Pro模式。对于普通用户来说，默认使用的是统一的GPT-5模型，该模型由多个模型组成，包括用于大多数问题的“智能且快速”模型（gpt-5-main）和用于更复杂问题的“更深层推理”模型（gpt-5-thinking）。这种统一的设计通过实时路由器来决定针对特定查询使用哪个模型。

mini和nano版本的选择由API用户自行决定，而GPT-5 Pro模式则类似于Grok 4的Hard模式，采用并行测试计算，一次多个模型并行计算更长时间。它利用更大的算力，提供了最全面、最精确的答案。在超高难度的科学问题（GPQA）上，GPT-5刷新了世界纪录。在与人类专家的“盲测”中，近7次被认为优于人类。

在能力和评分上，GPT-5在几乎所有方面都有所提升，但与当前SOTA相比，提升幅度有限，与o3相比也仅有微小的优势。

智力水平：体验最佳，但非智力最佳

在智力水平上，GPT-5在各种主流评测集中均高于o3，但整体差距并不大。

深入分析这些前沿数学测试集的细分结果，我们可以观察到，在GPT-5的表现上，其成绩并不优于ChatGPT Agent，仅在启用Pro模式后，GPT-5的表现才有所提升。

在对GPT-5与其他模型进行对比分析的过程中，我们可以观察到，该模型在多数“智力”方面的表现仅略优于竞争对手，有些能力甚至并未达到当前最佳水平（SOTA）。总体而言，GPT-5仅以微小的优势领先。因此，我们难以断言其具备显著或飞跃性的能力提升。

总体而言，Artificial Analysis的评估结果显示，GPT-5目前位居首位，不过其综合得分仅比o3高出两分，与Grok 4的差距仅为一分。

在Arc Prize的竞赛中，GPT-5的表现未能达到预期，特别是在这一被誉为通用人工智能（AGI）终极测试的赛事中，它未能超越Grok 4，甚至差距明显。

然而，从这一事实中我们同样可以观察到，与o3相比，GPT-5在计算效率方面确实实现了提升，它能够以更低的token使用量达到超越o3的效果，其效率亦超过了Anthropic的模型。

OpenAI对此进行了说明，指出GPT-5在处理复杂问题时，其所需的token数量能够减少50%-80%。

马斯克对此兴奋不已，频繁地在社交媒体上激动地发表推文。近期，Grok在AI国际象棋赛事中表现出色，成功击败了OpenAI，似乎在这次发布会之后，Grok成为了最大的赢家。

尽管如此，GPT-5在用户体验方面实现了逆转。

在LMArena这个以用户双盲对比不同模型性能为特色的排行榜中，GPT-5在所有测试项目中均荣获了第一名。

在编程领域，OpenAI在本次会议中特别强调了其进展。GPT-5在“思考”模式下的表现相较于前代产品有了显著进步，这使得编程变得更加“省心”，有效解决了编程过程中的痛点。

然而，即便将持续强调编程的对手Anthropic最近推出的Claude 4.1 Opus纳入考量，优势也极为有限。两者的差距仅有0.3%。

尽管GPT-5在编程基准测试中的整体表现并不特别抢眼，OpenAI却在编程的实际使用体验上进行了多项改进。在发布会上，该公司详细阐述了编程体验的几项关键改进，这些改进主要涉及对编程需求的理解、错误修正的能力以及更广泛工具的使用。

这些改进主要得益于成熟度较高的智能体式编码（Agentic Coding）系统。GPT-5在处理“智能体式”编码任务方面表现出色，能够调用多种工具，并持续工作数分钟甚至更长时间以完成复杂的指令。在编码过程中，该模型甚至能够主动沟通，阐述其计划、步骤和发现，仿佛是一个协作团队。

为了实现这种类似协作伙伴的行为，OpenAI的团队对模型进行了针对性的微调，专注于以下特性：自主性（autonomy）、协作与沟通（collaboration and communication）以及测试（testing）。

GPT-5在理解编程需求和遵循指令方面的提升，使其能够将模糊或详细的指令转化为实际可执行的代码，从而帮助那些不具备编程知识的人实现他们的创意。

部分用户在推特上提供了相应的回应。

经过OpenAI的精心微调，工具的调用功能同样得到了显著展现。这一优势在Tau测试集中尤为突出。Tau测试集旨在衡量AI模型在模拟现实世界情境下与用户进行互动对话，并高效运用外部工具（如API或函数调用）完成任务的性能。特别是在电信行业，该模型的能力提升尤为显著。

一项关键的更新是“修复漏洞”功能的显著增强。

在展示中，GPT-5能够深入探索一个真实的代码库（OpenAI Python SDK），通过搜索和读取文件来领悟代码的架构和逻辑，并最终锁定问题的根本所在。它甚至能够洞察人类工程师做出某些架构决定的深层动机，比如为了增强安全性考虑。

此外，GPT-5还能自动修复自身的漏洞。在一个前端应用开发任务的演示中，GPT-5在完成代码编写后，会自行尝试构建项目。在构建过程中遇到错误时，它能接收这些错误信息并反馈给自己，然后基于这些错误信息进行代码的修改和迭代。OpenAI的演示人员将这一过程称为一个“意义深远的时刻”和一个“自我优化的循环”。

在解决特定漏洞的过程中，该模型也展现出了高水平的智能。例如，在进行代码审查时，它发现了其他一些问题，但能够判断这些问题与当前要修复的漏洞无关，从而避免了不必要的修改。

这一点对于当前的开发环境尤为重要。今年的一篇论文指出，一个看似反直觉的现象：使用AI辅助编程可能会降低工作效率，而不是提高。这主要是因为程序员日常面对的往往是旧代码的迭代，而非全新项目。

因此，若没有对复杂程序的整体把握以及自我漏洞修复功能，AI在处理这类项目时的能力将受到很大限制。

显然，OpenAI在编程方面充分考虑了产品经理的思路，对存在的问题进行了大幅度的调整和改进。在沃顿商学院教授Ethan Mollick的测试中，他也感受到了GPT-5在编程上的“轻松便捷”特点。

Ethan Mollick的博客文章

Ethan Mollick是一位备受尊敬的博客作者，他的文章以其深刻的见解和独到的分析而著称。以下是Ethan Mollick博客文章的精准文本分析和改写：

原文：

“Ethan Mollick的博客文章总是能够深入探讨商业、科技和社会趋势。他的文字不仅富有洞见，而且能够激发读者的思考。Mollick以其独特的视角，将复杂的问题简化，使读者能够轻松理解并参与到讨论中。他的文章风格清晰、简洁，语言流畅，深受广大读者的喜爱。”

改写：

“Ethan Mollick的博客作品以其对商业、科技和社会动态的深入分析而闻名。他的文章不仅见解独到，而且能引发读者的深思。Mollick擅长用独到的眼光剖析复杂议题，让读者轻松把握并参与讨论。他的写作风格明快、简练，文字表达流畅，深受读者群体的青睐。”

文章来源：尔德资源分享网 https://edvjjs.cn/

本站提供的内容仅作为个人学习、研究以及欣赏！请在下载后24小时内删除，共同维护和谐健康的互联网