当前位置:文章 > 列表 > 正文

GPT-5.5实测:更慧,也更爱“说谎”

Debugging。
📅 2026-04-25 19:44:47 🏷️ 硫酸钙网络地板 👁️ 075
GPT-5.5实测:更慧,也更爱“说谎”

此外,GPT-5.5于其他多名实用场景之测试中也表现不错。

此需它体谅掘发者之书契需求、设计界面、管游戏状态,并自立实现核心之路径搜索算法。

此其中涉及棋盘状态齐步、操作抵触裁决与网络延迟办理等一系列典型之多者于线难题。

该测试模拟之钱庄剖析师、商场经理、软件营造师等多种白领职业之日常工,要求模型成讯息整顿、剖析推演、决策建议与呈文生成等统合性差事。

教育学。

此次测试不仅关乎一名模型之性能,更关乎AI技艺进入深水区后,吾等如何于拥抱其强盛本领之同时,对付其潜于险情。

接之,吾等提升难度,要求它于游戏中加入一名“重绘”道具。

此意味之于该测试所设定之、专门探测模型学识边界之场景下,当GPT-5.5面对不确定之解答时,其“坦言不知”之概率远低于对手,更倾向于生成一名或过失之回答。

于Artificial Analysis之私有基准测试AA-Omniscience中,GPT-5.5之幻觉率高达86%,远高于Claude Opus 4.7之36%。

沃尔沃99

塞巴略斯甚有或于本赛季余下之比赛中,皆不会再得征召。

美方邦交与兵戎之双管齐下,也引发外界猜测:若伊朗于核举动、海上通道或地区安康疑难上拒绝做出让步,特朗普政府为否会保留兵戎施压选项,甚至包括进行地面行动。

十全十美。

尽管于实测中表现惊艳,但结合公开数据来看,GPT-5.5依然没有超过商场太大预期,而且存不可忽视之险情。

此名从简到繁之测试表明,GPT-5.5于确凿编程差事中,既能办理繁逻辑与架构设计,也能精准响应掘发者需求,且不随意重构或引入其他代码,甚至当吾等要求回退到上一版本时,它也能稳固复原到之前之状态。

提升。

值得尝鲜,但不够可靠。

可看出,GPT-5.5于输入价码上与对手持平,但于输出价码上则高出20%。

启事。

根据第三方评测机构Artificial Analysis公布之统合智能指数榜单,OpenAI凭借GPT-5.5系列于前六名中独占四席,该机构认为,“GPT-5.5让OpenAI重回AI领域之第一位,打破之与Anthropic与谷歌之三方平局。

于一项试炼“智能体”之基准测试(Terminal-Bench 2.0)中,它拿到之82.7%之高分。

塞尔希奥·阿奎罗

于一项覆盖44名职业之GDPval测试中,GPT-5.5取得之84.9%之得分,不仅超过之83.0%之确凿职场者员水平,也高于Claude Opus 4.7之80.3%与Gemini 3.1 Pro之67.3%。

面对高幻觉率,GPT-5.5究竟能否于实际应用中可靠地成繁之学识差事。

顺水推舟。

面对此样一名集结度高、实时性强之繁应战,GPT-5.5依然做到之准确交付。

之后,吾等续让其为游戏加入完整之用户体系,包括登录、积分记载与排行榜展示。

要实现此一点,GPT-5.5须做两件事,一为修改游戏背后之数据章法来支此名新功能;二为确保刷新后之棋盘陈设仍然为“有解”之,不会让玩家卡关。

图拉姆

编程本领:从初级到繁,它没添乱 此名测试场景设计得虽简,却甚能看出AI为否真之“好用”。

但与高性能一同被曝光之,还有高幻觉率。

孙红雷

一方面,GPT-5.5首发时并未齐步敞开API,仅限自家ChatGPT与Codex用,初步将用户锁定于其应用性命内。

梁朝伟

于剖析中,它通过计算占比,指出“网购”(衣物、书籍)类目开销较高,且多为非急需品,因此建议为此类耗费设置概算,给出之建议实在可行。

首先,吾等让GPT-5.5生成一名完整可运行之连连看游戏。

根据官方公布之数据,GPT-5.5每办理100万tokens,输入收费5美元,输出收费30美元。

一方面,GPT-5.5首发时并未齐步敞开API,仅限自家ChatGPT与Codex用,初步将用户锁定于其应用性命内。

IaaS。

于Artificial Analysis之私有基准测试AA-Omniscience中,GPT-5.5之幻觉率高达86%,而Claude Opus 4.7仅为36%。

此名道具之功能为:玩家用时,能消耗“连击”气,把棋盘上与最后一次除去相同类型之图标全部随机刷新一次。

此名简之测试,相当于于活场景中还原之上述GDPval测试所考察之核心本领,目前之结局也说明它之专业本领能用到实际活中。

另一方面,GPT-5.5之定价相比上一代有之明显上涨。

Privacy。

就连代码编辑器Cursor之联手创始者Michael Truell也评议说,它比上一代更慧、更有韧性,调用器物更可靠,面对繁长期差事时能持更久。

为之回答此些枢纽疑难,吾等对GPT-5.5进行之实测,从办理家账本到编写实时对战游戏,测试其对付长上下文、繁逻辑之学识工与编程实战本领。

其财务团队用它审核之24771份K-1税表、总计71637页文书,并称此套流程比上一年提前之两周成。

于一项针对50万到100万字符超长文本之检索测试中,它之得分达到74.0%,为上一代(36.6%)之两倍还多。

七上八下。

它之成绩不仅比自家上一代(GPT-5.4之75.1%)高,也明显超过之角逐对手Claude Opus 4.7(69.4%)。

此意味之让它剖析一本厚书、浏览庞大之代码仓库时,它更不易“看漏”或“记混”,找讯息更准、思路也更连贯。

富贵荣华。

GPT-5.5自立梳理表格并给出剖析 而就于本周,塞巴略斯与主帅阿韦洛亚生之抵触,后者已决定出于技艺缘由,将其排除于球队名单之外。

根据官方公布之数据,GPT-5.5每办理100万tokens,输入收费5美元,输出收费30美元。

结局它于几分钟之内便顺遂成之。

但于将其用于需高可靠性之差事时,此一指标仍需引起高度警惕。

一位从业者解释,此或为因GPT-5.5之事实学识覆盖面更强,但不确定性也更偏急进,对于不确定之疑难会猜解答。

活动

而上一代之GPT-5.4,输入与输出价码分别为2.5美元与15美元,此意味之新一代之价码直接翻之一倍。

救援

最后生成之呈文也充满者情味,彼句“稍微管住网购之小鲁莽,咱们家之开支就能更悠闲一些”,符合“给家者看”之通要求,语气亲切,建议接地气。

而且,此类幻觉往往以高度自信、逻辑自洽之样貌呈现。

战无不胜。谷歌

最终,GPT-5.5成写好之此部分代码。

当GPT-5.5被部署到“自立工”场景中时,此种高幻觉倾向或会引发险情。

杀鸡取卵。

对于缺乏相关专业底色之用户而言,此种“确定性”输出极具欺骗性,需提升警惕。

4月23日,OpenAI发布新一代旗舰模型GPT-5.5,并于其官网写道,为其迄今为止最智能、最直观易用之模型,也为于计算机上成工之新方式之下一步。

时间。

高幻觉率:能用,但不敢放手 需注意之为,此86%并不意味之模型于大多数日常问答中皆会产生幻觉,而为其于触及学识盲区时之特定举止倾向。

此说明GPT-5.5为能够直接融入工流程、切实提升效能之制造力器物。

根据官方发布之基准测试结局,GPT-5.5于几乎所有核心指标上皆逾越之前代GPT-5.4,于学识工领域表现尤为突出。

不仅如此,今夏他将被皇马清洗离队。

此名测试模拟之于命令行里执行一连串繁操作,就像让AI自己成一名多步骤之运维差事。

而算总账、剖析钱花于哪儿、给出节省建议,其实对应之一套完整之思考历程,GPT-5.5需先把讯息理清楚,再从里面看出门道、提出可行之办法,最终让它“写呈文”,则为要求它会用者能听懂、能接受之方式来汇报工。

RESTful。

吾等设计之一名贴近家之测试来验证。

另一方面,GPT-5.5之定价相比上一代有之明显上涨。

物联网。

它再一次顺遂成之差事,并且于代码迭代历程中表现得相当克制,没有进行过度重构,也没有引入不必要之变化。

对于此一模型,资深Agent从业者赵江杰评议道,此次GPT-5.5之发布并未形成断档居先,不如对社区热传之“Spud”模型预期之大幅提升期望彼么大,但于agentic与coding本领上仍然续保头部顶尖位置,agentic本领提升之同时也于推动基模厂商提升模型迭代效能,OpenAI之下一代突围模型(GPT-6)甚或也于路上之。

雷军

此意味之,当此名目前“最慧”之AI大脑面对不确定或未知之疑难时,选择“坦言不知”之概率极低,反而更倾向于“自信地虚构”一名解答。

巴塞罗那队

最强之AI也为最险恶之“说谎者”。

最后,吾等将难度推至更高阶之实时对战模式,让两名玩家能于不同浏览器中实时角逐除去。

于模拟繁客服对话之测试中,无需格外指导就能达到98.0%之准确率;于让AI像真者一样操作电脑成差事之测试中,得分78.7%;于需结合图像、书契体谅并调用器物处置疑难之测试中,分别拿到83.2%与75.3%之分数。

吾等给GPT-5.5多条格式凌乱之单月开支数据,让其扮演家数据剖析师,成整理数据、计算总开销、剖析各支付方式占比、分类统计开销等差事,并最终生成一份给家者看之建议呈文。

阿福

GPT-5.5执行对游戏细节之调理指令 OpenAI还用内部之实际案例证验之它之制造力身价。

Law。

GPT-5.5生成之连连看小游戏 学识本领:它真之像职场者一样会干活 此一发布迅速引发行业关注,不仅因它号称于智能体差事上实现突围,更因其于多项基准测试中展现出之“统治力”。

其次,于办理超长实质方面也有长进。

简来说,于编程此类繁操作场景下,上述数据说明,GPT-5.5不仅更强,而且更稳、更省源泉,适合办理彼些步骤多、耗时长之实际掘发差事。

若与当前之主要角逐对手对比,Anthropic最强之模型Opus 4.7定价为每百万tokens输入5美元、输出25美元。

除之于日常学识差事中表现可靠,于编程此类对精准性要求更高之“硬功夫”上,GPT-5.5同样展现之不错之长进。

” 除之技艺层面之隐忧,OpenAI此次之商业计策也显露出明确之意图:先用性命锁定用户,再用涨价收割商场。

此说明它于需记住步骤、自己调试、持成长光阴差事时,表现更好。

此些成绩说明,GPT-5.5正逐步打通“看、说、做”等一系列本领。

KISS。

AIX财经(AIXcaijing)原创 为之验证它确凿之编程本领,吾等用一名实在之掘发差事进行之测试,从零始构建并逐步晋级一款连连看游戏,并硬性规定其须用给到之12种不同之emoji表情。

而上一代之GPT-5.4,输入与输出价码分别为2.5美元与15美元,此意味之新一代之价码直接翻之一倍。

而且多项测试结局显示,于执行相同之编程差事时,GPT-5.5消耗之token数量显著少于GPT-5.4。

总之,对寻常用户而言,GPT-5.5或许值得尝鲜,但不应视其为无对可靠之器物,对企业用户来说,于将其接入核心工流前,则须慎重,一旦现彼86%之“自信过失”,该由谁来兜底。

小s

而此种高幻觉率一旦放于需高可靠性之工场景中,甚或导致剖析偏差、决策失误甚至财务损失。

尽管OpenAI解释称,token用效能之提升可对冲价码上涨,用户实际本金无明显增,但实在性价比仍需业界进一步验证。

而于编程与调试环节,它提供之代码预案也许看起来合理,却或无法运行,甚至暗藏安康漏洞,大幅增后期排查与修补之本金。

图源 / pexels 此些本领于确凿活中用起来怎么样。

因家记账为甚多者之日常,但记载常常为随手写、格式乱,“乱七八糟”之记账数据要求AI不能只会办理整齐之表格,还得能“看懂”手写式之记载、体谅每笔钱为什么意思,并把相似课题归到一起。

地铁站

此一步主要试炼之为,GPT-5.5能否将新功能平滑地接入现有框架,同时保游戏原有之核心玩法与逻辑不被损毁。

萍水相逢。

测试结局显示,它准确合并之“外卖-午餐”与“外卖-晚餐”,而且主动提示“支付宝自动扣”应一统计入“支付宝”统计,展现出之体谅混乱账目与用户确凿意图之本领。

许昌

比如于数据剖析与呈文生成差事中,它或自信地引用不存之数据、编造统计趋势,或基于过失事实提出决策建议,导致用户做出偏离实际之商业裁决。

Tracing。

上一篇:奥特曼与Anthropico之CEO于印度AI峰会拒绝握手 下一篇:获杆位赛第2头排发车 惊心动魄!张雪机车从第19逆袭 冲击3连冠