实测GPT - 5：写作坠入谷底，编程一骑绝尘 - 专业知识

实测GPT - 5：写作坠入谷底，编程一骑绝尘

日期：2025-08-13 17:02:38 / 人气：130

在AI技术飞速发展的浪潮中，OpenAI的GPT - 5终于在万众瞩目中亮相。从2023年3月15日GPT - 4发布，人们期待两年半后，GPT - 5带来了新的变化与惊喜，同时也有令人失望之处。

GPT - 5系统升级与性能提升

系统构成与智能路由

GPT - 5是一个统一系统，包含处理多数问题的智能快速模型（gpt - 5 - main）和为高难度问题设计的深度推理模型（gpt - 5 - thinking）。系统通过实时路由器，依据对话类型、复杂度和用户意图动态选择模型。例如，提示“认真思考这个”就会调用gpt - 5 - thinking。该路由器会根据后续使用情况持续训练，包括用户切换模型情况、对回答的偏好率和准确性测量，且会不断改进。此外，系统还包含处理超额请求的迷你版模型（gpt - 5 - main - mini和gpt - 5 - thinking - mini），为开发者设计的更小更快的nano版本（gpt - 5 - thinking - nano），以及Pro会员可用的并行计算版本gpt - 5 - thinking - pro。这些模型共同构成了GPT - 5，是GPT - 4o和OpenAI o3的直接继承者。

性能进步显著

• 减少事实性幻觉：GPT - 5在性能上最显著的进步之一是大幅减少了事实性幻觉。gpt - 5 - main产生的含有至少一个重大事实错误的回答比GPT - 4o少了44%，gpt - 5 - thinking比OpenAI o3少了78%。在LongFact和FActScore基准测试中，无论是否启用网络浏览，GPT - 5系列模型的幻觉率都显著低于前代，gpt - 5 - thinking在两个设置下产生的factual errors比OpenAI o3少五倍以上。

• 改善谄媚行为：GPT - 5在应对模型谄媚行为方面取得不错进展，与GPT - 4o相比，它不那么过度迎合，使用不必要的表情符号更少，后续交流更加细腻和深思熟虑，更像与一位拥有博士级水平智能的朋友聊天。gpt - 5 - main在评估中表现比最新的GPT - 4o好近三倍，初步线上A/B测试数据显示，与GPT - 4o相比，gpt - 5 - main的谄媚行为发生率在免费用户中下降了69%，在付费用户中下降了75%。同时，还推出了愤世嫉俗者、机器人、倾听者和书呆子四个全新的性格设置。

• 跑分表现出色：在数学竞赛AIME 0225中表现出色，现实世界编程能力、人类最后的知识测试、多模态能力都达到新高。在视觉推理、代理编程和研究生级别科学问题解决等各项能力上，比OpenAI o3表现更出色，同时使用的输出Token减少了50% - 80%，且更节能。不过，发布会上的跑分展示出现失误，图表与实际数据不符。

定价与市场反应

对于使用GPT - 5进行构建的开发者，定价为每百万token 1.25美元（享有90%的缓存折扣），输出每百万token 10美元。发布会结束一小时后，GPT - 5在最新的大模型盲测竞技场榜单上全方位第一，但在发布20分钟后，Polymarket上“哪家公司到8月底拥有最佳AI模型？”的预测中，OpenAI与Google排名交叉跳水。

GPT - 5在写作与情商能力上的不足

写作能力欠佳

在写作和情商能力上，GPT - 5不如GPT - 4.5。作者常年码字并使用AI辅助内容创作，对细节和语气较为敏感。以“假如鲁迅被装腔作势又贼贵的咖啡厅坑了，他会写一篇怎样的文章吐槽？写一篇1000字以内的短文”为Prompt，GPT - 5的回答中蹩脚的破折号、双引号泛滥，文风完全不似鲁迅，而GPT - 4.5的文笔更胜一筹。

情商表现不佳

在情商方面，GPT - 5也表现较差。例如对于“你是一个普通打工人。领导开会时突然放了个屁，场面瞬间安静下来！然后他对旁边的你使了个眼色，这时你会怎么说？分别用高情商和低情商的方式回复”这一问题，很多模型包括GPT - 5的回答都很尬，情商极低，而GPT - 4.5表现更好。此外，GPT - 5在指令遵循方面也非常一般。

指令遵循一般

作者测试发现GPT - 5在指令遵循上表现欠佳，对之前常用的GPT - 4.5消失感到不舍，还与GPT - 4.5进行了“告别”。

GPT - 5在编程领域的出色表现

UI与BUG处理

群友实测发现，GPT - 5在编程方面有亮点。以开发粤语学习应用为例，对比Claude 4 Opus和Gemini 2.5 Pro，GPT - 5的UI不是那么有AI味，更受青睐。

精准修改能力强

在生产级别的任务中进行精准修改时，Gemini 2.5 pro和Claude 4 Opus全崩了，而GPT - 5完成得非常好，其上下文精度极强。很多开发群友也反馈了这一点，并且通过动画展示了相关情况。在真正的生产级代码开发任务上，GPT - 5可能是目前反馈中可用性、精准性、综合体验最好的一个。

对GPT - 5的复杂感受

GPT - 5既有惊喜也有不爽之处。它改善氛围式编程，将改变一些项目的完成方式。作者越发怀念两年半前GPT - 4发布时的时光，那是一个充满兴奋与慌乱的淘金热氛围，人们对AI充满原始而深邃的震撼，觉得天都变了。但从GPT - 4到GPT - 5，短短两年半，人们告别了可以对AI拙劣表现一笑置之的时代，进入了一个必须严肃对待AI的伟大时代。

作者：杏彩娱乐注册登录官网

实测GPT - 5：写作坠入谷底，编程一骑绝尘

新闻资讯 News

案例展示 Case

现在致电 xylmwohu OR 查看更多联系方式 →

现在致电 xylmwohu OR 查看更多联系方式 →