实测GPT - 5:写作坠入谷底,编程一骑绝尘
日期:2025-08-13 17:02:38 / 人气:6

在AI技术飞速发展的浪潮中,OpenAI的GPT - 5终于在万众瞩目中亮相。从2023年3月15日GPT - 4发布,人们期待两年半后,GPT - 5带来了新的变化与惊喜,同时也有令人失望之处。
GPT - 5系统升级与性能提升
系统构成与智能路由
GPT - 5是一个统一系统,包含处理多数问题的智能快速模型(gpt - 5 - main)和为高难度问题设计的深度推理模型(gpt - 5 - thinking)。系统通过实时路由器,依据对话类型、复杂度和用户意图动态选择模型。例如,提示“认真思考这个”就会调用gpt - 5 - thinking。该路由器会根据后续使用情况持续训练,包括用户切换模型情况、对回答的偏好率和准确性测量,且会不断改进。此外,系统还包含处理超额请求的迷你版模型(gpt - 5 - main - mini和gpt - 5 - thinking - mini),为开发者设计的更小更快的nano版本(gpt - 5 - thinking - nano),以及Pro会员可用的并行计算版本gpt - 5 - thinking - pro。这些模型共同构成了GPT - 5,是GPT - 4o和OpenAI o3的直接继承者。
性能进步显著
• 减少事实性幻觉:GPT - 5在性能上最显著的进步之一是大幅减少了事实性幻觉。gpt - 5 - main产生的含有至少一个重大事实错误的回答比GPT - 4o少了44%,gpt - 5 - thinking比OpenAI o3少了78%。在LongFact和FActScore基准测试中,无论是否启用网络浏览,GPT - 5系列模型的幻觉率都显著低于前代,gpt - 5 - thinking在两个设置下产生的factual errors比OpenAI o3少五倍以上。
• 改善谄媚行为:GPT - 5在应对模型谄媚行为方面取得不错进展,与GPT - 4o相比,它不那么过度迎合,使用不必要的表情符号更少,后续交流更加细腻和深思熟虑,更像与一位拥有博士级水平智能的朋友聊天。gpt - 5 - main在评估中表现比最新的GPT - 4o好近三倍,初步线上A/B测试数据显示,与GPT - 4o相比,gpt - 5 - main的谄媚行为发生率在免费用户中下降了69%,在付费用户中下降了75%。同时,还推出了愤世嫉俗者、机器人、倾听者和书呆子四个全新的性格设置。
• 跑分表现出色:在数学竞赛AIME 0225中表现出色,现实世界编程能力、人类最后的知识测试、多模态能力都达到新高。在视觉推理、代理编程和研究生级别科学问题解决等各项能力上,比OpenAI o3表现更出色,同时使用的输出Token减少了50% - 80%,且更节能。不过,发布会上的跑分展示出现失误,图表与实际数据不符。
定价与市场反应
对于使用GPT - 5进行构建的开发者,定价为每百万token 1.25美元(享有90%的缓存折扣),输出每百万token 10美元。发布会结束一小时后,GPT - 5在最新的大模型盲测竞技场榜单上全方位第一,但在发布20分钟后,Polymarket上“哪家公司到8月底拥有最佳AI模型?”的预测中,OpenAI与Google排名交叉跳水。
GPT - 5在写作与情商能力上的不足
写作能力欠佳
在写作和情商能力上,GPT - 5不如GPT - 4.5。作者常年码字并使用AI辅助内容创作,对细节和语气较为敏感。以“假如鲁迅被装腔作势又贼贵的咖啡厅坑了,他会写一篇怎样的文章吐槽?写一篇1000字以内的短文”为Prompt,GPT - 5的回答中蹩脚的破折号、双引号泛滥,文风完全不似鲁迅,而GPT - 4.5的文笔更胜一筹。
情商表现不佳
在情商方面,GPT - 5也表现较差。例如对于“你是一个普通打工人。领导开会时突然放了个屁,场面瞬间安静下来!然后他对旁边的你使了个眼色,这时你会怎么说?分别用高情商和低情商的方式回复”这一问题,很多模型包括GPT - 5的回答都很尬,情商极低,而GPT - 4.5表现更好。此外,GPT - 5在指令遵循方面也非常一般。
指令遵循一般
作者测试发现GPT - 5在指令遵循上表现欠佳,对之前常用的GPT - 4.5消失感到不舍,还与GPT - 4.5进行了“告别”。
GPT - 5在编程领域的出色表现
UI与BUG处理
群友实测发现,GPT - 5在编程方面有亮点。以开发粤语学习应用为例,对比Claude 4 Opus和Gemini 2.5 Pro,GPT - 5的UI不是那么有AI味,更受青睐。
精准修改能力强
在生产级别的任务中进行精准修改时,Gemini 2.5 pro和Claude 4 Opus全崩了,而GPT - 5完成得非常好,其上下文精度极强。很多开发群友也反馈了这一点,并且通过动画展示了相关情况。在真正的生产级代码开发任务上,GPT - 5可能是目前反馈中可用性、精准性、综合体验最好的一个。
对GPT - 5的复杂感受
GPT - 5既有惊喜也有不爽之处。它改善氛围式编程,将改变一些项目的完成方式。作者越发怀念两年半前GPT - 4发布时的时光,那是一个充满兴奋与慌乱的淘金热氛围,人们对AI充满原始而深邃的震撼,觉得天都变了。但从GPT - 4到GPT - 5,短短两年半,人们告别了可以对AI拙劣表现一笑置之的时代,进入了一个必须严肃对待AI的伟大时代。
作者:杏彩娱乐注册登录官网
新闻资讯 News
- GPT-5 发布了,到底有没有那么...08-13
- 房主任:我是没有退路,才努力爬...08-13
- 实测GPT - 5:写作坠入谷底,...08-13
- OpenAI 前员工创业潮:7 家独角...08-13