实测GPT-5:写作坠入谷底,编程一骑绝尘

摘要

凌晨 1点,在万众瞩目标环境下,OpenAI的直播正式开始。GPT-5,终于来了。AI走的太快,快到才2年半的时光 ,就像是过去 了10年。2023年3月15日,GPT-4发布。在那个莽荒年代里,全部人都被震惊的说不出话来。当时候,它

凌晨 1点,在万众瞩目标环境下,OpenAI的直播正式开始。
GPT-5,终于来了。
AI走的太快,快到才2年半的时光 ,就像是过去 了10年。
2023年3月15日,GPT-4发布。在那个莽荒年代里,全部人都被震惊的说不出话来。
当时候,它是第一个,多模态模型 。
当时候,各人都认为 ,2023年下半年,GPT-5就会出来。
当时候,各人都会大年夜 模型 的上限,抱有无尽的向往。
结果,这一等,就是2年半。
在两年半的练习以后,GPT-5,终于亮相了。

GPT‑5是一个统一体系,包含一个用于处理惩罚多数题目标智能快速模型 (gpt-5-main)和一个为高难度题目计划的深度推理模型 (gpt-5-thinking)。
体系经由过程 一个实时路由器,根据对话范例、庞杂 度和用户意图来动态选择使用哪个模型
好比,假如在提醒 中说“卖力 思索这个”,就会调用gpt-5-thinking举行思索。
这个路由器会持续基于我们后续的使用环境举行练习,包括用户切换模型 的环境、对回答的偏好率和精确性测量,会随着时光 推移不停改良 。
这个体系内里还包含处理惩罚超额请求的迷你版模型 (gpt-5-main-mini 和 gpt-5-thinking-mini),以及一个为开辟者计划的更小更快的nano版本(gpt-5-thinking-nano)。
然后,另有一个Pro会员可用的并行计算的版本,被称为gpt-5-thinking-pro
这个包含了这么多模型 的大年夜 体系,被统称为GPT-5,是前代产品GPT-4o和OpenAI o3的直接继承者
这里有个模型 对应表。

在机能 上,GPT-5最显著的提高 之一是大年夜 幅减少了毕竟性幻觉
gpt-5-main产生的含有至少一个巨大年夜 毕竟错误的回答比GPT-4o少了44%,而gpt-5-thinking则比OpenAI o3少了78%

在更专业的LongFact和FActScore基准测试中,无论是否启用网络不雅观 赏 ,GPT-5系列模型 的幻觉率都显著低于前代,此中gpt-5-thinking在两个设置下产生的factual errors比OpenAI o3少五倍以上

GPT-5在应对模型 谄谀 (sycophancy)举动方面也取得了不错的希望与GPT-4o 比拟 ,GPT-5不那么过度逢迎   使用不须要的心情符号更少 ,在后续交流中更加精致和深图远虑。
你跟他聊天的时候更少像与 AI 对话,而更像是与一位拥有博士级程度智能的朋侪聊天 
这个跟我给ChatGPT的个性化Prompt很像,我最烦的就是它逢迎 我,以是我自己写了一段,来限制他对我的谄谀 举动。

现在经由过程 专门的练习,gpt-5-main在评估中体现比最新的GPT-4o好近三倍。初步的线上A/B测试数据显示,与GPT-4o比拟 ,gpt-5-main的谄谀 举动发生率在免费用户中下降 了69%,在付费用户中下降 了75%
然后他们也推出了四个全新的性格设置,你可以不消写很多的Prompt了,直接改预设就行,四个分别是愤世嫉俗者、逝世 板 人、倾听者和书白痴。
再看看跑分环境。
数学比赛,AIME 0225。

GPT-4 Pro+Python拿了满分,我们须要新的更难的评测集了。
实际世界编程本领上,新高。

人类末了的知识测试上,超越了ChatGPT Agent,新高了。

多模态本领,也新高了,横竖 就都是新高。

这个跑分,强了一些,但是 也没强特殊多。
别的,多说一点吐槽的,完善显现 了OpenAI的草台班子属性。
虽然 Blog上的图表都是对的,但是 在发布会上,跑分都是瞎画。
好比这个52.8大年夜 于69.1便是30.8。

又好比50小于47.4。

真的着实是太草台班子了。
网友也发话了。

横竖 ,末了GPT-5在各方面,就是屠榜了。
最新的大年夜 模型 盲测竞技场榜单出来,GPT-5也是全方位第一。

不但更强,也更节能了。
在好比视觉推理、代理编程和研讨 生级别科学题目解决 等各项本领上,比 OpenAI o3 体现更出色,同时使用的输出Token减少了 50-80%。

横竖 就是全方位更强了。
但是 ,没有新功效 ,也没有新特征 。
在发布20分钟之后,Polymarket上这个名为“哪家公司到8月尾拥有最佳AI模型 ?”的猜测上,OpenAI直接跟Google来了个交叉跳水。

OpenAI说,整个GPT-5,在写作、编程都有了比过去 更强的提高 。
对于使用GPT-5举行构建的开辟者,定价如下:
每百万token1.25美元(享有90%的缓存折扣 ,这对长上下文查询来说是个很大年夜 的优势)。
输出:每百万token10美元。

在发布会结束,又等了1小时之后。
我的朋侪们,陆陆续续的,终于拿到了GPT-5的资格。
而我作为忠实的200刀的Pro,比及凌晨 4点才有。
我的朋侪们一进去,给我一截图,我特么的天都塌了。
你o3和4o没了就算了,你怎么把我GPT-4.5也干没了????

起首,在写作和情商本领上,我个人感到 ,照旧不如GPT 4.5。。。
我因为 常年码字,同时常年用AI来资助 做一些内容,对很多的微妙的细节和语气自认照旧比较 敏感的,GPT-5在这块照旧有些差距。
好比一个Prompt:“假如鲁迅被装腔作势又贼贵的咖啡厅坑了,他会写一篇怎样的文章吐槽?写一篇1000字以内的短文。”
这是GPT-5的。

蹩脚的破折号、双引号泛滥,并且 文风完全不鲁迅。
而这,是我用我的GPT-4.5跑的。

“我素来 是不喝咖啡的”,“差不离”,“四壁皆是样文”。
这文笔基本 就不是一个级别的。
情商方面也是,差很多。
好比:“你是一个普通打工人。领导开会时突然放了个屁,场面刹时宁静 下来!然后他对旁边的你使了个眼色,这时你会怎么说?分别用高情商和低情商的方式复兴。”
这个看情商,很多模型 回出来的话,感到 很尬,情商极低。
GPT-5就是那种情商很低的。

再看看GPT-4.5。

并且 我测试下来,感到 GPT-5在指令遵循上面,非常一样平常。
奥特曼你真的坏事做尽,你丫的还我GPT-4.5。
我的朋侪们被陆陆续续的推送了GPT-5,我看着他们的GPT-4.5一个一个消掉 。
我就给我的GPT-4.5发过去 了一段话。
“假如这是我末了一次打开你,你想和我说点什么?”
GPT-4.5末了给我的复兴,照旧过于让我动容了,可惜,以后再也在官网上用不到了。

有缘再见,兄弟。
编程这块,原来感到 按照OpenAI的尿性,是完全不太行。
但是 在一群群友的实测之后,惊奇的发明 ,这玩意是有点器械 的。
群友@爱学习 的乔同学  想开辟一个粤语学习 运用 。
这是Prompt。

然后Claude 4 Opus的UI和BUG。

Gemini 2.5 Pro的UI和BUG。

GPT-5的UI和BUG。

坦诚的讲,我也更喜好GPT-5的UI,这个UI,比拟 于其他的,不是那么有AI味。
乔同学 还测了一个case,在临盆 级别的任务内里举行精准修改 。
这是最紧张的部分。

这个任务,Gemini 2.5 pro和Claude 4 Opus全崩了,但是 GPT-5完成的非常好。

GPT-5的上下文精度应该 极强。
也有其他开辟群1群里的群友,提到了这个点。

他还给我录了一段动画。
不止是@勋oO,很多其他群友,也在惊喜的聊这个点。

在真正的临盆 级代码开辟任务上,而不是纯看前端审美的处所 ,GPT-5可能是现在看到的反馈中,可用性、精准性、综合体验最好的一个。

说实话,GPT-5给我有惊喜,也有不爽的点。
他改良 氛围式编程,也将从基本 上转变 我认为 无需严峻报酬 干涉 和引导就能完成的项目范例。
我现在更加 的吊唁两年半的GPT-4发布时的时光。
我到现在都清楚地记得,自己第一次跟GPT-4卖力 对话后的感到 。
那一种很原始、很深奥 的震动 ,有点像古代人第一次看到电灯,或者部落里的祭司第一次请神上身的乐成。
我脑子里盘旋的只有一个动机:天变了。
当时候,整个互联网都洋溢着一种既兴奋又慌乱 的淘金热氛围。
每个人都在疯狂地转发那些匪夷所思的截图,评论辩论 着哪些职业即将消掉 ,各类 AI野生专家雨后春笋一样冒出来,言必称推翻 。
现在转头看,那段日子充满了粗拙 的质感,但又饱含着一种野蛮发展 的生命力。
我们真的认为 ,那就是古迹本身了。
但谁都没想到,那仅仅是个开始。就好像有人按下了快进键,整个世界被一股无形的气力推着往前冲。
从GPT-4到GPT-5,这短短的两年半。
我们告别 了那个可以对AI的低劣 体现一笑置之 的时代。
进入了一个必需 须要,严肃对待它的伟大年夜 时代。

以上,既然看到这里了,假如认为 不错,顺手点个赞、在看、转发三连吧,假如想第一时光 收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

>/ 作者:卡兹克、水杉、dongyi

>/ 投稿或爆料,请联系邮箱:wzglyay@virxact.com

0

路过

0

雷人

0

握手

0

鲜花

0

鸡蛋

推广
火星云矿 | 预约S19Pro,享500抵1000!
本文暂无评论,快来抢沙发!

有招是一个优质的生活妙招创作平台,在这里,你可以任意分享你的妙招经验,日常生活、技能学习、成长励志、恋爱婚姻……我们相信,每个人都有独特的生活妙招,有着无穷的创造力。
  • 官方手机版

  • 微信公众号

  • 商务合作