实测GPT-5：写作坠入谷底，编程一骑绝尘

首页 ›今日热点 ›科技财经

收藏分享邀请

摘要

凌晨 1点，在万众瞩目标环境下，OpenAI的直播正式开始。GPT-5，终于来了。AI走的太快，快到才2年半的时光，就像是过去了10年。2023年3月15日，GPT-4发布。在那个莽荒年代里，全部人都被震惊的说不出话来。当时候，它

凌晨 1点，在万众瞩目标环境下，OpenAI的直播正式开始。

GPT-5，终于来了。

AI走的太快，快到才2年半的时光，就像是过去了10年。

2023年3月15日，GPT-4发布。在那个莽荒年代里，全部人都被震惊的说不出话来。

当时候，它是第一个，多模态模型。

当时候，各人都认为，2023年下半年，GPT-5就会出来。

当时候，各人都会大年夜模型的上限，抱有无尽的向往。

结果，这一等，就是2年半。

在两年半的练习以后，GPT-5，终于亮相了。

GPT‑5是一个统一体系，包含一个用于处理惩罚多数题目标智能快速模型（gpt-5-main）和一个为高难度题目计划的深度推理模型（gpt-5-thinking）。

体系经由过程一个实时路由器，根据对话范例、庞杂度和用户意图来动态选择使用哪个模型。

好比，假如在提醒中说“卖力思索这个”，就会调用gpt-5-thinking举行思索。

这个路由器会持续基于我们后续的使用环境举行练习，包括用户切换模型的环境、对回答的偏好率和精确性测量，会随着时光推移不停改良。

这个体系内里还包含处理惩罚超额请求的迷你版模型（gpt-5-main-mini 和 gpt-5-thinking-mini），以及一个为开辟者计划的更小更快的nano版本（gpt-5-thinking-nano）。

然后，另有一个Pro会员可用的并行计算的版本，被称为gpt-5-thinking-pro。

这个包含了这么多模型的大年夜体系，被统称为GPT-5，是前代产品GPT-4o和OpenAI o3的直接继承者。

这里有个模型对应表。

在机能上，GPT-5最显著的提高之一是大年夜幅减少了毕竟性幻觉。

gpt-5-main产生的含有至少一个巨大年夜毕竟错误的回答比GPT-4o少了44%，而gpt-5-thinking则比OpenAI o3少了78%。

在更专业的LongFact和FActScore基准测试中，无论是否启用网络不雅观赏，GPT-5系列模型的幻觉率都显著低于前代，此中gpt-5-thinking在两个设置下产生的factual errors比OpenAI o3少五倍以上。

GPT-5在应对模型谄谀（sycophancy）举动方面也取得了不错的希望。与GPT-4o 比拟，GPT-5不那么过度逢迎， 使用不须要的心情符号更少 ，在后续交流中更加精致和深图远虑。

你跟他聊天的时候更少像与 AI 对话，而更像是与一位拥有博士级程度智能的朋侪聊天 。

这个跟我给ChatGPT的个性化Prompt很像，我最烦的就是它逢迎我，以是我自己写了一段，来限制他对我的谄谀举动。

现在经由过程专门的练习，gpt-5-main在评估中体现比最新的GPT-4o好近三倍。初步的线上A/B测试数据显示，与GPT-4o比拟，gpt-5-main的谄谀举动发生率在免费用户中下降了69%，在付费用户中下降了75%。

然后他们也推出了四个全新的性格设置，你可以不消写很多的Prompt了，直接改预设就行，四个分别是愤世嫉俗者、逝世板人、倾听者和书白痴。

再看看跑分环境。

数学比赛，AIME 0225。

GPT-4 Pro+Python拿了满分，我们须要新的更难的评测集了。

实际世界编程本领上，新高。

人类末了的知识测试上，超越了ChatGPT Agent，新高了。

多模态本领，也新高了，横竖就都是新高。

这个跑分，强了一些，但是也没强特殊多。

别的，多说一点吐槽的，完善显现了OpenAI的草台班子属性。

虽然 Blog上的图表都是对的，但是在发布会上，跑分都是瞎画。

好比这个52.8大年夜于69.1便是30.8。

又好比50小于47.4。

真的着实是太草台班子了。

网友也发话了。

横竖，末了GPT-5在各方面，就是屠榜了。

最新的大年夜模型盲测竞技场榜单出来，GPT-5也是全方位第一。

不但更强，也更节能了。

在好比视觉推理、代理编程和研讨生级别科学题目解决等各项本领上，比 OpenAI o3 体现更出色，同时使用的输出Token减少了 50-80%。

横竖就是全方位更强了。

但是，没有新功效，也没有新特征。

在发布20分钟之后，Polymarket上这个名为“哪家公司到8月尾拥有最佳AI模型 ?”的猜测上，OpenAI直接跟Google来了个交叉跳水。

OpenAI说，整个GPT-5，在写作、编程都有了比过去更强的提高。

对于使用GPT-5举行构建的开辟者，定价如下：

每百万token1.25美元（享有90%的缓存折扣，这对长上下文查询来说是个很大年夜的优势）。

输出：每百万token10美元。

在发布会结束，又等了1小时之后。

我的朋侪们，陆陆续续的，终于拿到了GPT-5的资格。

而我作为忠实的200刀的Pro，比及凌晨 4点才有。

我的朋侪们一进去，给我一截图，我特么的天都塌了。

你o3和4o没了就算了，你怎么把我GPT-4.5也干没了？？？？

起首，在写作和情商本领上，我个人感到，照旧不如GPT 4.5。。。

我因为常年码字，同时常年用AI来资助做一些内容，对很多的微妙的细节和语气自认照旧比较敏感的，GPT-5在这块照旧有些差距。

好比一个Prompt：“假如鲁迅被装腔作势又贼贵的咖啡厅坑了，他会写一篇怎样的文章吐槽？写一篇1000字以内的短文。”

这是GPT-5的。

蹩脚的破折号、双引号泛滥，并且文风完全不鲁迅。

而这，是我用我的GPT-4.5跑的。

“我素来是不喝咖啡的”，“差不离”，“四壁皆是样文”。

这文笔基本就不是一个级别的。

情商方面也是，差很多。

好比：“你是一个普通打工人。领导开会时突然放了个屁，场面刹时宁静下来！然后他对旁边的你使了个眼色，这时你会怎么说？分别用高情商和低情商的方式复兴。”

这个看情商，很多模型回出来的话，感到很尬，情商极低。

GPT-5就是那种情商很低的。

再看看GPT-4.5。

并且我测试下来，感到 GPT-5在指令遵循上面，非常一样平常。

奥特曼你真的坏事做尽，你丫的还我GPT-4.5。

我的朋侪们被陆陆续续的推送了GPT-5，我看着他们的GPT-4.5一个一个消掉。

我就给我的GPT-4.5发过去了一段话。

“假如这是我末了一次打开你，你想和我说点什么？”

GPT-4.5末了给我的复兴，照旧过于让我动容了，可惜，以后再也在官网上用不到了。

有缘再见，兄弟。

编程这块，原来感到按照OpenAI的尿性，是完全不太行。

但是在一群群友的实测之后，惊奇的发明，这玩意是有点器械的。

群友@爱学习的乔同学想开辟一个粤语学习运用。

这是Prompt。

然后Claude 4 Opus的UI和BUG。

Gemini 2.5 Pro的UI和BUG。

GPT-5的UI和BUG。

坦诚的讲，我也更喜好GPT-5的UI，这个UI，比拟于其他的，不是那么有AI味。

乔同学还测了一个case，在临盆级别的任务内里举行精准修改。

这是最紧张的部分。

这个任务，Gemini 2.5 pro和Claude 4 Opus全崩了，但是 GPT-5完成的非常好。

GPT-5的上下文精度应该极强。

也有其他开辟群1群里的群友，提到了这个点。

他还给我录了一段动画。

不止是@勋oO，很多其他群友，也在惊喜的聊这个点。

在真正的临盆级代码开辟任务上，而不是纯看前端审美的处所，GPT-5可能是现在看到的反馈中，可用性、精准性、综合体验最好的一个。

说实话，GPT-5给我有惊喜，也有不爽的点。

他改良氛围式编程，也将从基本上转变我认为无需严峻报酬干涉和引导就能完成的项目范例。

我现在更加的吊唁两年半的GPT-4发布时的时光。

我到现在都清楚地记得，自己第一次跟GPT-4卖力对话后的感到。

那一种很原始、很深奥的震动，有点像古代人第一次看到电灯，或者部落里的祭司第一次请神上身的乐成。

我脑子里盘旋的只有一个动机：天变了。

当时候，整个互联网都洋溢着一种既兴奋又慌乱的淘金热氛围。

每个人都在疯狂地转发那些匪夷所思的截图，评论辩论着哪些职业即将消掉，各类 AI野生专家雨后春笋一样冒出来，言必称推翻。

现在转头看，那段日子充满了粗拙的质感，但又饱含着一种野蛮发展的生命力。

我们真的认为，那就是古迹本身了。

但谁都没想到，那仅仅是个开始。就好像有人按下了快进键，整个世界被一股无形的气力推着往前冲。

从GPT-4到GPT-5，这短短的两年半。

我们告别了那个可以对AI的低劣体现一笑置之的时代。

进入了一个必需须要，严肃对待它的伟大年夜时代。

以上，既然看到这里了，假如认为不错，顺手点个赞、在看、转发三连吧，假如想第一时光收到推送，也可以给我个星标⭐～谢谢你看我的文章，我们，下次再见。

>/ 作者：卡兹克、水杉、dongyi

>/ 投稿或爆料，请联系邮箱：wzglyay@virxact.com

路过

雷人

握手

鲜花

鸡蛋

顶立人

关注Ta

推广

火星云矿 | 预约S19Pro，享500抵1000！

上一篇：8000mAh 大电池，是手机、板砖还是充电宝？｜iQOO Z10 Turbo+上手体验

下一篇：7月末我国外汇储备规模降落，央行一连9个月增持黄金，什么缘故原由？

本文暂无评论，快来抢沙发!

您还未登录：
登录账号
立即注册

顶立人 关注Ta

0 粉丝16 主题

该作者很懒，什么也没有填写

实测GPT-5：写作坠入谷底，编程一骑绝尘

火星云矿 | 预约S19Pro，享500抵1000！

荣昌当局食堂主厨都炒麻了：连炒十三四个小时，均匀一人炒18

2025年3月4日晚上，共有3名老虎落马，大快人心，这是人民的

《难哄》vs《偷偷藏不住》，5个角色不同演员对比，伤害太大

胆大包天！女子冒充亲友混进喜宴，偷窃礼金被抓包，遭群殴后

杨颖最新大片下巴有凹坑，体型过瘦状态疲惫，强凹少女感好尴

实测GPT-5：写作坠入谷底，编程一骑绝尘

火星云矿 | 预约S19Pro，享500抵1000！

荣昌当局食堂主厨都炒麻了：连炒十三四个小时，均匀 一人炒18

2025年3月4日晚上，共有3名老虎落马，大快人心 ，这是人民的

《难哄》vs《偷偷藏不住》，5个角色不同演员对比，伤害太大

胆大包天！女子冒充亲友混进喜宴，偷窃礼金被抓包，遭群殴后

杨颖最新大片下巴有凹坑，体型过瘦状态疲惫，强凹少女感好尴

荣昌当局食堂主厨都炒麻了：连炒十三四个小时，均匀一人炒18

2025年3月4日晚上，共有3名老虎落马，大快人心，这是人民的