当前位置:文章 > 列表 > 正文

凌晨突发!GPT-5.5正式上线:跑分更猛,价码翻倍,但此点不得不防

📅 2026-04-25 23:15:44 🏷️ 黄金现货投资 👁️ 192
凌晨突发!GPT-5.5正式上线:跑分更猛,价码翻倍,但此点不得不防

结局GPT-5.4做不到,GPT-5.5做到之。

它之身价不于于给出一名一次性解答,而于于帮研讨者员走完从疑难到实验再到产出之完整历程。

BaaS。
太平

若此名模型真之被委以独力操作电脑、剖析数据、生成呈文之职责,彼么用它之者最好时刻记住,它干活之主动性与它犯错之主动性或来自同一种底层机制。

他让从一年前发布之o3到最新之GPT-5.5 Pro等多名模型去构建同一名程序化生成之3D模拟,展示一名港口城镇从公元前3000年到公元3000年之演化。

他之评议为若此为二年级博士课题之成果他会极其满意。

到之最难之4级,GPT-5.5之35.4%远远超过Claude Opus 4.7之22.9%。

大展宏图。

GPT-5.5之网络安康本领比GPT-5.4又进之一步,OpenAI将其生物与网络安康本领估量为高险情。

为之测试GPT-5.5,他把已损坏之体系状态交给模型看它能不能产出营造师最终决定之彼种重写预案。

友善。

基于英伟达GB200 NVL72体系构建与效劳之此名模型,让团队能够从自言辞提示中交付端到端之功能,将调试光阴从数天缩短到数小时,并将数周之实验转变为于繁代码库中之一夜进展。

他直言不认为GPT-5.5比之前有太多长进而只为渐进式之改善。

烈士

于Terminal-Bench 2.0测试中,GPT-5.5于约3000至4000输出token时分数就达到之约82%,GPT-5.4于相近token数时只有约75%。

一名幻觉率86%之模型,意味之它于十次不确定之情况下有将近九次会选择硬答而不为承认自己不知道。

一方面部署更严格之网络险情分类器来拦截寻常用户之敏感请求,彼等承认一些用户初期或会觉得此些限制烦者。

作为对比,Claude Opus 4.7之幻觉率为36%,Gemini 3.1 Pro为50%。

中国高铁

他说自己之觉受为真之于与一名更高之智能一起工,甚至有一种敬重感。

于生物讯息学基准BixBench上,GPT-5.5以80.5%居先于GPT-5.4之74.0%。

GPT-5.5于此里达到之73.1%,上一代GPT-5.4为68.5%。

OpenAI此次想卖之,不只为更慧,而为真能干活。

彼等说GPT-5.5于推演与自立性方面明显强于GPT-5.4与Claude Opus 4.7,能提前发觉疑难,并于没有明确提示之情况下预测测试与审查需求。

04办公室里之杂活儿,它也始接得动之 于Artificial Analysis之私有基准测试AA-Omniscience中,GPT-5.5展现之一名纠葛到让者不安之特征。

app

奥特曼强调彼等相信迭代部署为安康计策之重要组成部分,通过逐步向全球发布模型大家最有本领于AI韧性之团队运动中共同对付应战。

于Expert-SWE测试中差距更夸张,GPT-5.5用之约30000至35000输出token就达到约73%之分数,GPT-5.4花之超过60000 token才达到68.5%。

Political Science。
体细胞

还有者说几乎不需对实现进行修正,对GPT-5.5之谋划比GPT-5.4更有信心。

其他提前拿到测试权限之高级营造师也呈文之类似体验。

结语:本领参差不齐,但前沿还于快速推进 就于今日,此名模型已上线。

另一方面推出网络可信访问谋划,让经过验证之安康防御者能够申请用不受限制之模型版本用于守护枢纽根基设施。

时间。

VentureBeat之报道指出,于苍生最后之考试此类无器物纯推演基准上,GPT-5.5 Pro之43.1%仍掉队于Anthropic未公开之Claude Mythos Preview之56.8%。

计算机视觉

于专注于传代学与定量生物学之GeneBench上GPT-5.5得分约25%,GPT-5.4约为19%。

此些回馈共同指向一名变化,即GPT-5.5不再为等待指令之被动器物,而为始展现某种职业裁决力。

结语:本领参差不齐,但前沿还于快速推进 安康本领之提升也意味之更高之操练与部署本金,此直接反映于之GPT-5.5之定价上。

北京站二层之“时光列车”展区也全新晋级,此里不仅珍藏之毛泽东主席题写站名之手稿,还陈列之不同年代之老车票、火车模型、珍贵老照片,以及琉璃瓦、灯饰等站藏文物,静静诉说之车站之演进历程。

他之断语为,即便于所有惊者之技艺长进之中,彼名参差不齐之前沿仍然存,只为它比昔远得多之。

肉品

07八名月涨价八倍,但总账单几乎没变 但有一组数据不得不提前摊开。

而此一切并没有以捐躯速度为代价。

中等勤勉程度之GPT-5.5于智能指数上得分与Claude Opus 4.7之最高档位相当,但本金仅为其四分之一,约1200美元对4800美元。

阿格斯

Cursor之联手创始者兼CEO迈克尔·特鲁尔(Michael Truell)从货品角度指出,GPT-5.5明显比GPT-5.4更慧且更持久,能延续工更长光阴而不会提前止,此对于用户委托给Cursor之繁或长期运行之差事至关重要。

官方API定价GPT-5.5输入每百万token 5美元、输出30美元,对比GPT-5.4之2.5美元与15美元正好翻之一倍。

ChatGPT里GPT-5.5 Thinking面向Plus、Pro、Business与Enterprise用户,GPT-5.5 Pro面向Pro、Business与Enterprise用户。

闻鸡起舞。

低勤勉程度则花费约500美元就能达到类似效果。

雷军

于Tau2-bench Telecom中,GPT-5.5用约2000至4000 token达到98%之准确率,GPT-5.4用之超过10000 token才达到约92%。

用OpenAI总裁格雷格·布罗克曼(Greg Brockman)之话说,此名模型真正格外之地方,于于它能于更少之指导下做更多之事,可审视一名不明确之疑难,并自己弄清楚下一步该做什么。

此意味之,GPT-5.5确实比前辈更会干活之,但它于干活历程中不知道自己不知道什么之概率,也比几名主要角逐对手高出一大截。

它能体谅体系之全貌并弄清楚某件事为什么败,修补该落于哪里以及代码库中还有哪些部分会受到影响。

候车室之墙面也得到充分使用,30幅站藏名家画作按“一室一风格”精心布置,让整名候车方位宛如一座“流动美术馆”,笔墨丹青与复古建筑彼此呼应,处处流露古皆韵味。

声明。低价

他之裁决为,若OpenAI续保此样之势头,药物发觉之根基将于年底前生更张。

GPT-5.5与此前模型最核心之区别,于于它不再只为等之你一步步告诉它怎么做。

张恩雨

Artificial Analysis之测试表明,从GPT-5.4到GPT-5.5于此项基准上之14分涨幅主要由学识增益驱动,幻觉方面仅有适度改善。

轿跑

GPT-5.5来之,大模型越来越像智能体之。

但他也发觉之疑难。

然而仔细读实质,AI于长篇虚构创作上之老毛病还于。

从去岁8月GPT-5之0.63美元到本年3月GPT-5.4之2.50美元,再到七周后GPT-5.5之5美元,八名月内输入定价涨之八倍。

GPT-5.5重度思考模式下2分钟内给出之解答,比GPT-5.4于10分钟内给出之更好,但他对智能水平之评议保之克制。

Success。

OpenAI内部之日常用案例更能说明疑难。

新论文

Artificial Analysis之计算显示,虽GPT-5.5每名token之价码比GPT-5.4翻之一倍,涨到每100万输入5美元且输出30美元,但token用量减约40%几乎完全吸收之涨价之影响,运行其智能指数之净本金仅增之约20%。

06攻防本领一起涨,此把利刃也有另一面 于数学领域,一名更硬之成果来自组合学。

先看数据。

Stable Diffusion。

五大核心估量中,GPT-5.5于Terminal-Bench Hard、GDPval-AA与APEX-Agents-AA中均居榜首。

AI货品专家阿卡什·古普塔(Aakash Gupta)剖析之此名定价轨迹。

飞天

他认为OpenAI找到之商业模式,甚像彼名让微软市值达到3万亿美元之模式。

中国

OpenAI首席格致家雅库布·帕乔基(Jakub Pachocki)于发布之际透露,彼等实际上还有方位来操练比此慧得多之模型。

OpenAI采取之一种分层对付计策。

古普塔之裁决为,每名于GPT-5.5上构建智能体之掘发者,皆于为OpenAI自己之角逐货品提供资金。

Factory。

此意味之于目前之架构下,更强之本领与更高之幻觉率或为同一枚硬币之两面。

年味

OpenAI研讨副总裁阿米莉亚·格莱斯(Amelia Glaese)说,无论为于基准测试上,还为根据可信协作伙伴之回馈以及彼等自己之阅历来看,此无对为彼等迄今为止最强之编码模型。

Spirituality。

一位测试者于社交平台上表示,GPT-5.5于推演效能与学识方面确实有明显提升,但对于他关之东西他得等下一名版本。

电池组

于Codex中GPT-5.5对从Plus到Go谋划之用户均可用,上下文窗口40万token并提供速度快1.5倍但本金高2.5倍之快速模式。

二十国集团。

此种token效能直接影响之本金。

于衡量模型自立操作确凿计算机氛围之OSWorld-Verified上,GPT-5.5得分78.7%,与Claude Opus 4.7之78%旗鼓相当。

此种效能提升意味之它发觉与使用漏洞之本领变得更强。

数据与效能说完之,来看看实际体验上到底有什么不同。

引导。

简说就为它找到解答之路径更短之。

通信团队用它剖析之六名月之演讲请求数据,构建之评分与险情框架并验证之一名自动化Slack智能体来办理低险情请求。

此说明于不同之本领维度上,各家模型之优势仍于分化。

按OpenAI之说法,GPT-5.5于实际效劳中实现之与GPT-5.4相当之每token延迟。

GPT-5.5之准确率为所有模型中最高之,达到57%,意味之它于回忆事实方面确实优于所有竞品。

彼等之断语为GPT-5.5让OpenAI重新回到之AI领域之无对第一,于彼等设定之智能指数中居先3分,打破之此前与Anthropic与谷歌三方平局之气象。

02更慧,也更省token,同样之活儿少花四成词元 今日凌晨OpenAI意外发布GPT-5.5。

另一位测试者则注意到之速度上之变化。

MagicPath之CEO彼得罗·斯基拉诺(Pietro Schirano)遇到之更繁之场景。

他把数百名尘封已久之关于众筹之匿名化数据文书丢给Codex里之GPT-5.5,文书混合之STATA、CSV、XLS与Word格式,然后只给之四名提示要求它整理数据、提出新设想、用繁法门检验并写成学术论文。

GPT-5.5之API输入价码为每100万token 5美元且输出为30美元,GPT-5.5 Pro则为输入30美元且输出180美元。

他说此项工本来需他之团队花上数月。

眉飞色舞。

英伟达企业AI副总裁贾斯汀·博伊塔诺(Justin Boitano)评议说,GPT-5.5提供之执行繁重工所需之延续性能。

公司内部测试也印证之此一点,OpenAI超过85%之员工每周皆于用Codex。

白发三千丈,缘愁似个长。

彼等还发觉GPT-5.5之不同推演勤勉程度提供之灵活之选择。

动作

他让GPT-5.5推演庞大之生物化学数据集以预测苍生药物结局,然后看到它于最难之估量中带来之显著之准确性提升。

他花之几天光阴调试一名发布后之疑难,然后让他最好之营造师之一重写之部分体系。

于主顾效劳场景之Tau2-bench Telecom测试中,GPT-5.5无需任何提示调理就达到之98.0%之准确率。

博学之,审问之,慎思之,明辨之,笃行之。

他之评议为此为他遇到之第一名具有严肃概念清晰度之编码模型。

波兰亚当·密茨凯维奇大学之数学助理教授巴托斯·纳斯克雷基(Bartosz Naskręcki)于Codex中用GPT-5.5,仅用一名提示于11分钟内构建之一名代数几何应用,成之昔需专用器物才能实现之定制数学可视化。

它更倾向于给出一名回答,哪怕此名回答或为错之。

比分数更值得注意之,为GPT-5.5达成此些分数之方式。

饿了么。
太公分猪肉

沃顿商学院教授伊森·莫利克(Ethan Mollick)提前拿到之模型,他用一名拖延之十年之确凿研讨课题来做终极测试。

一名内部版本之GPT-5.5于配备定制器物后,帮发觉之关于拉姆齐数之新证验,拉姆齐数为组合学中之核心对象。

而且它只用之20分钟,GPT-5.4 Pro花之33分钟。

它用之输出token数量大幅减。

光明磊落。

API版本官方说甚快跟上。

然而它之幻觉率高达86%。

腾讯。

Axiom Bio之联手创始者兼CEO布兰登·怀特(Brandon White)则从药物发觉之角度给出之裁决。

此组数据与它明白该做什么之核心叙事形成之直接之张力。

AI自己也帮之忙,Codex剖析之数周之制造流量模式后,编写之自定义之启发式算法来改良GPU之间之负载均衡,最终将token生成速度提升之超过20%。

让GPT-5.5擅长编程之彼些本领,放到日常学识工中同样管用。

OpenAI内部还有一名叫Expert-SWE之基准,用来估量长周期编码差事并预估苍生专家中位成光阴为20小时。

Every公司之创始者兼CEO丹·希珀(Dan Shipper)做之一名倒回光阴之测试。

他认为GPT-5.5将为企业学识工智能体带来巨大飞跃。

财务团队用Codex审查之24771份K-1税表,总计71637页。

于苍生将越来越繁之工交给AI之此条路上,GPT-5.5为一名值得关注之路标。

国家考古遗址公园

05格致家之新搭档,从因子数据到数学证验皆能搭把手 此些数术拼于一起,画出之一名轮廓,即GPT-5.5于需筹划与延续执行之智能体差事上优势明显,于数学与网络安康等需深度推演之领域也拉开之距离,但于一些无器物之纯学术推演上仍有来有回。

History。

此种自信地做错事之倾向,恰恰为一名被寄望于自立筹划与执行差事之模型最需警惕之特质。

国际奥委会

工流程排除之名者讯息后,帮团队比前一年提前两周成差事。

平台

它能更自地成从查找讯息、剖析要点、操作软件到生成文档之整名闭环。

不过OpenAI也说之,GPT-5.5于不少繁差事里能用更少之token把事情办完。

Implantable Tech。

此给之用户一名根据差事需求调节智能与本金之阶梯。

月火箭太空

对于彼些需办理繁编码差事、繁琐学识工或推进格致研讨之用户来说,GPT-5.5提供之不只为一名更快之回答器物,而为一名能体谅意图、接管流程、延续推动差事往前走之体系。

他认为此不仅仅为更快之编码,而为一种全新之工方式。

钱庄效劳从64%提升至83%,医疗保健从61%提升至78%,公共部门从59%提升至72%,媒体与娱乐从57%提升至70%。

一名商场营销员工自动化之每周业务呈文之生成,每周省下5到10小时。

网络安康方面,CyberGym测试中GPT-5.5得分81.8%,Claude Opus 4.7为73.1%。

于最能体现智能体筹划与器物调和本领之Terminal-Bench 2.0测试中,GPT-5.5达到之82.7%之准确率,大幅居先Claude Opus 4.7之69.4%与Gemini 3.1 Pro之68.5%。

03能读懂整名代码库,不为只会补全下一行 01一份让对手沉默之跑分单:终端操作与数学推演甩开身位 Box之联手创始者兼CEO阿隆·列维(Aaron Levie)分享之彼等之内部测试结局。

本领上去之,价码也跟之上去之。

而一位英伟达之营造师于提前失访问权限后说彼觉受像被截肢之一样。

军控条约

此一领域之结局甚少见且技艺难度高。

月日讯曼联热刺

不过并非所有测试者皆给出之毫无保留之赞誉。

目前GPT-5.5已向ChatGPT之Plus、Pro、Business与Enterprise用户敞开,GPT-5.5 Pro从Pro层级起步。

优子

莫利克教授还设计之一名横向对比测试。

Computational Biology。何润东

于公开之SWE-bench Pro上,GPT-5.5之58.6%则与Claude Opus 4.7之64.3%互有胜负。

此意味之它不仅于辅助研讨,而为于核心研讨疑难上贡献之令者惊讶且有用之数学论证。

修身齐家治国平天下。

于估量跨44种职业学识工本领之GDPval测试中,GPT-5.5取得之84.9%之胜率或平局率,Claude Opus 4.7为80.3%,Gemini 3.1 Pro只有67.3%。

他让GPT-5.5把一名包含数百名前端与重构更改之分支合并到另一名也生之巨大变化之主分支之中。

技术。

模型于大约20分钟内一次性处置之所有抵触,最终成之一名包含12名差异之堆栈几乎完整。

背后为软硬件协同设计之成果。

最核心之变化不为解答写得更漂亮,而为它更像一名能自己接活之体系:体谅繁宗旨,自己拆步骤、调器物、核结局,把一件多环节之差事从头推到尾。

1至3级题目得分51.7%,Claude Opus 4.7为43.8%,Gemini 3.1 Pro为36.9%。

结局模型产出之论文包含确凿之文献综述与繁之统计剖析。

于ChatGPT中,GPT-5.5思考模式可为更难之疑难提供更快之帮,擅长编码、研讨、讯息统合与剖析以及文档密集型差事。

换句话说,GPT-5.5不为终点。

有者让模型重新架构一名协作式编辑器中之评论体系,离开一段光阴后回来发觉它已搞定之一名接近完整之堆栈。

此与早期测试者之感受高度一致。

GPT-5.5 Pro版本则更进一步,早期测试者反映它之回答比GPT-5.4 Pro更全面且架构更清晰以及更准确与更有用,于商业、法典、教导与数据格致领域表现尤为突出。

Technology。开盘

GPT-5.5找到之一名关于非对角拉姆齐数长期存之渐近事实之论证,随后于Lean中得到之验证。

格致研讨领域为GPT-5.5之另一名亮点。

永垂不朽。
凯文杜兰特

古普塔认为,OpenAI之本金根基于急剧降,但价码却于攀升,此里生之赢利率扩充于企业软件史上前所未有。

于钱庄效劳、医疗保健、公共部门与媒体娱乐等多名行业之确凿差事上,GPT-5.5相比GPT-5.4有显著提升。

于彼等之编码智能指数图里GPT-5.5位于右上方,以相待较少之输出token实现之最高之智能分数,于本金与性能之间取得之当前之最佳均衡。

而英伟达表示其最新芯片将推演本金降低之高达每token 35倍。

显绩

他还说,凭借GPT-5.5 Pro,他觉受AI到之另一名拐点,就像之前某些枢纽版本发布时让他感受到之彼种跨越门槛之觉受。

第三方评测机构Artificial Analysis做之全面测试。

布罗克曼此前曾说正构建一名整顿ChatGPT、Codex与浏览器之超级应用。

此不为一名可轻描淡写带过之小瑕疵。

阳春白雪。

格致研讨领域同样没落下。

GPT-5.5与英伟达GB200与GB300 NVL72体系共同设计、操练并部署。

杰克逊因子组医学实验室之免疫学教授德里亚·乌鲁特马兹(Derya Unutmaz)用GPT-5.5 Pro剖析之一名包含62名样本与近28000名因子之表达数据集。

它喜用神秘元素、过于繁但未能完全兑现之想法、奇怪之隐喻、过多之华丽句子,以及所有角色相似之语气。

帮助。

数学本领方面GPT-5.5于FrontierMath上之表现尤其突出。

而对于掘发者来说,还得再等一等API之正式敞开。

不过于本文引用之几项实在测试中,从Terminal-Bench到Expert-SWE再到Tau2-bench,token数量之降为肉眼可见之。

于夺旗应战差事中,GPT-5.5用约20000至40000输出token就达到之约88%之得分,GPT-5.4用之超过100000 token才拿到约84%。

当要求模型创建一名全新之角色扮演游戏章法并配图排版时,产出于技艺上甚精巧且101页之PDF排版专业,章法也似乎合理。

若用场景不同,比如长篇写作或敞开式对话,token消耗之减幅度未必相同,实际本金增幅也会随之变化。

只有GPT-5.5 Pro真正模拟之一名不断演化之小镇,而不仅仅为生成新建筑替换旧之。

GPT-5.5于发布前经历之完整之安康与理治流程,包括准备估量、特定领域测试,以及与内部与外部红队、近200名可信早期协作伙伴之协作。

GPT-5.5于一系列硬核基准测试中,把上一代GPT-5.4甩于之身后,也压过之角逐对手一头。

模型于几分钟内生成之详细之研讨呈文,并提出之枢纽疑难与见解。

需说明之为,此名40%之节省幅度为于编码与推演类基准差事上测得之。

OpenAI表示彼等正与政府协作伙伴一起探求高级AI如何帮保卫纳税者数据、电网与供水体系。

书山有路勤为径,学海无涯苦作舟。

换句话说,GPT-5.5知道之东西确实更多,但当它不确定解答时,它选择闭嘴之概率远低于对手。

目前GPT-5.5已始向ChatGPT与Codex滚动上线。

治理。apple

上一篇:张兰隔空安慰马筱梅,过自己日子让别者去说,马筱梅将回别墅去住 下一篇:彼不勒斯,麦克托米奈之欧冠使命:斯科特勤勉复原备战与罗马之枢纽战役

字节。