硫酸钙网络地板-GPT-5.5实测：更慧，也更爱“说谎”

此外，GPT-5.5于其他多名实用场景之测试中也表现不错。

此需它体谅掘发者之书契需求、设计界面、管游戏状态，并自立实现核心之路径搜索算法。

此其中涉及棋盘状态齐步、操作抵触裁决与网络延迟办理等一系列典型之多者于线难题。

该测试模拟之钱庄剖析师、商场经理、软件营造师等多种白领职业之日常工，要求模型成讯息整顿、剖析推演、决策建议与呈文生成等统合性差事。

此次测试不仅关乎一名模型之性能，更关乎AI技艺进入深水区后，吾等如何于拥抱其强盛本领之同时，对付其潜于险情。

接之，吾等提升难度，要求它于游戏中加入一名“重绘”道具。

此意味之于该测试所设定之、专门探测模型学识边界之场景下，当GPT-5.5面对不确定之解答时，其“坦言不知”之概率远低于对手，更倾向于生成一名或过失之回答。

于Artificial Analysis之私有基准测试AA-Omniscience中，GPT-5.5之幻觉率高达86%，远高于Claude Opus 4.7之36%。

塞巴略斯甚有或于本赛季余下之比赛中，皆不会再得征召。

美方邦交与兵戎之双管齐下，也引发外界猜测：若伊朗于核举动、海上通道或地区安康疑难上拒绝做出让步，特朗普政府为否会保留兵戎施压选项，甚至包括进行地面行动。

尽管于实测中表现惊艳，但结合公开数据来看，GPT-5.5依然没有超过商场太大预期，而且存不可忽视之险情。

此名从简到繁之测试表明，GPT-5.5于确凿编程差事中，既能办理繁逻辑与架构设计，也能精准响应掘发者需求，且不随意重构或引入其他代码，甚至当吾等要求回退到上一版本时，它也能稳固复原到之前之状态。

提升。

值得尝鲜，但不够可靠。

可看出，GPT-5.5于输入价码上与对手持平，但于输出价码上则高出20%。

启事。

根据第三方评测机构Artificial Analysis公布之统合智能指数榜单，OpenAI凭借GPT-5.5系列于前六名中独占四席，该机构认为，“GPT-5.5让OpenAI重回AI领域之第一位，打破之与Anthropic与谷歌之三方平局。

于一项试炼“智能体”之基准测试（Terminal-Bench 2.0）中，它拿到之82.7%之高分。

于一项覆盖44名职业之GDPval测试中，GPT-5.5取得之84.9%之得分，不仅超过之83.0%之确凿职场者员水平，也高于Claude Opus 4.7之80.3%与Gemini 3.1 Pro之67.3%。

面对高幻觉率，GPT-5.5究竟能否于实际应用中可靠地成繁之学识差事。

顺水推舟。

面对此样一名集结度高、实时性强之繁应战，GPT-5.5依然做到之准确交付。

之后，吾等续让其为游戏加入完整之用户体系，包括登录、积分记载与排行榜展示。

要实现此一点，GPT-5.5须做两件事，一为修改游戏背后之数据章法来支此名新功能；二为确保刷新后之棋盘陈设仍然为“有解”之，不会让玩家卡关。

编程本领：从初级到繁，它没添乱此名测试场景设计得虽简，却甚能看出AI为否真之“好用”。

但与高性能一同被曝光之，还有高幻觉率。

一方面，GPT-5.5首发时并未齐步敞开API，仅限自家ChatGPT与Codex用，初步将用户锁定于其应用性命内。

于剖析中，它通过计算占比，指出“网购”（衣物、书籍）类目开销较高，且多为非急需品，因此建议为此类耗费设置概算，给出之建议实在可行。

首先，吾等让GPT-5.5生成一名完整可运行之连连看游戏。

根据官方公布之数据，GPT-5.5每办理100万tokens，输入收费5美元，输出收费30美元。

一方面，GPT-5.5首发时并未齐步敞开API，仅限自家ChatGPT与Codex用，初步将用户锁定于其应用性命内。

IaaS。

于Artificial Analysis之私有基准测试AA-Omniscience中，GPT-5.5之幻觉率高达86%，而Claude Opus 4.7仅为36%。

此名道具之功能为：玩家用时，能消耗“连击”气，把棋盘上与最后一次除去相同类型之图标全部随机刷新一次。

此名简之测试，相当于于活场景中还原之上述GDPval测试所考察之核心本领，目前之结局也说明它之专业本领能用到实际活中。

另一方面，GPT-5.5之定价相比上一代有之明显上涨。

就连代码编辑器Cursor之联手创始者Michael Truell也评议说，它比上一代更慧、更有韧性，调用器物更可靠，面对繁长期差事时能持更久。

为之回答此些枢纽疑难，吾等对GPT-5.5进行之实测，从办理家账本到编写实时对战游戏，测试其对付长上下文、繁逻辑之学识工与编程实战本领。

其财务团队用它审核之24771份K-1税表、总计71637页文书，并称此套流程比上一年提前之两周成。

于一项针对50万到100万字符超长文本之检索测试中，它之得分达到74.0%，为上一代（36.6%）之两倍还多。

七上八下。

它之成绩不仅比自家上一代（GPT-5.4之75.1%）高，也明显超过之角逐对手Claude Opus 4.7（69.4%）。

此意味之让它剖析一本厚书、浏览庞大之代码仓库时，它更不易“看漏”或“记混”，找讯息更准、思路也更连贯。

富贵荣华。

GPT-5.5自立梳理表格并给出剖析而就于本周，塞巴略斯与主帅阿韦洛亚生之抵触，后者已决定出于技艺缘由，将其排除于球队名单之外。

根据官方公布之数据，GPT-5.5每办理100万tokens，输入收费5美元，输出收费30美元。

结局它于几分钟之内便顺遂成之。

但于将其用于需高可靠性之差事时，此一指标仍需引起高度警惕。

一位从业者解释，此或为因GPT-5.5之事实学识覆盖面更强，但不确定性也更偏急进，对于不确定之疑难会猜解答。

而上一代之GPT-5.4，输入与输出价码分别为2.5美元与15美元，此意味之新一代之价码直接翻之一倍。

最后生成之呈文也充满者情味，彼句“稍微管住网购之小鲁莽，咱们家之开支就能更悠闲一些”，符合“给家者看”之通要求，语气亲切，建议接地气。

而且，此类幻觉往往以高度自信、逻辑自洽之样貌呈现。

战无不胜。

最终，GPT-5.5成写好之此部分代码。

当GPT-5.5被部署到“自立工”场景中时，此种高幻觉倾向或会引发险情。

杀鸡取卵。

对于缺乏相关专业底色之用户而言，此种“确定性”输出极具欺骗性，需提升警惕。

4月23日，OpenAI发布新一代旗舰模型GPT-5.5，并于其官网写道，为其迄今为止最智能、最直观易用之模型，也为于计算机上成工之新方式之下一步。

高幻觉率：能用，但不敢放手需注意之为，此86%并不意味之模型于大多数日常问答中皆会产生幻觉，而为其于触及学识盲区时之特定举止倾向。

此说明GPT-5.5为能够直接融入工流程、切实提升效能之制造力器物。

根据官方发布之基准测试结局，GPT-5.5于几乎所有核心指标上皆逾越之前代GPT-5.4，于学识工领域表现尤为突出。

不仅如此，今夏他将被皇马清洗离队。

此名测试模拟之于命令行里执行一连串繁操作，就像让AI自己成一名多步骤之运维差事。

而算总账、剖析钱花于哪儿、给出节省建议，其实对应之一套完整之思考历程，GPT-5.5需先把讯息理清楚，再从里面看出门道、提出可行之办法，最终让它“写呈文”，则为要求它会用者能听懂、能接受之方式来汇报工。

RESTful。

吾等设计之一名贴近家之测试来验证。

另一方面，GPT-5.5之定价相比上一代有之明显上涨。

物联网。

它再一次顺遂成之差事，并且于代码迭代历程中表现得相当克制，没有进行过度重构，也没有引入不必要之变化。

对于此一模型，资深Agent从业者赵江杰评议道，此次GPT-5.5之发布并未形成断档居先，不如对社区热传之“Spud”模型预期之大幅提升期望彼么大，但于agentic与coding本领上仍然续保头部顶尖位置，agentic本领提升之同时也于推动基模厂商提升模型迭代效能，OpenAI之下一代突围模型（GPT-6）甚或也于路上之。

此意味之，当此名目前“最慧”之AI大脑面对不确定或未知之疑难时，选择“坦言不知”之概率极低，反而更倾向于“自信地虚构”一名解答。

最强之AI也为最险恶之“说谎者”。

最后，吾等将难度推至更高阶之实时对战模式，让两名玩家能于不同浏览器中实时角逐除去。

于模拟繁客服对话之测试中，无需格外指导就能达到98.0%之准确率；于让AI像真者一样操作电脑成差事之测试中，得分78.7%；于需结合图像、书契体谅并调用器物处置疑难之测试中，分别拿到83.2%与75.3%之分数。

吾等给GPT-5.5多条格式凌乱之单月开支数据，让其扮演家数据剖析师，成整理数据、计算总开销、剖析各支付方式占比、分类统计开销等差事，并最终生成一份给家者看之建议呈文。

GPT-5.5执行对游戏细节之调理指令 OpenAI还用内部之实际案例证验之它之制造力身价。

Law。

GPT-5.5生成之连连看小游戏学识本领：它真之像职场者一样会干活此一发布迅速引发行业关注，不仅因它号称于智能体差事上实现突围，更因其于多项基准测试中展现出之“统治力”。

其次，于办理超长实质方面也有长进。

简来说，于编程此类繁操作场景下，上述数据说明，GPT-5.5不仅更强，而且更稳、更省源泉，适合办理彼些步骤多、耗时长之实际掘发差事。

若与当前之主要角逐对手对比，Anthropic最强之模型Opus 4.7定价为每百万tokens输入5美元、输出25美元。

除之于日常学识差事中表现可靠，于编程此类对精准性要求更高之“硬功夫”上，GPT-5.5同样展现之不错之长进。

” 除之技艺层面之隐忧，OpenAI此次之商业计策也显露出明确之意图：先用性命锁定用户，再用涨价收割商场。

此说明它于需记住步骤、自己调试、持成长光阴差事时，表现更好。

此些成绩说明，GPT-5.5正逐步打通“看、说、做”等一系列本领。

KISS。

AIX财经（AIXcaijing）原创为之验证它确凿之编程本领，吾等用一名实在之掘发差事进行之测试，从零始构建并逐步晋级一款连连看游戏，并硬性规定其须用给到之12种不同之emoji表情。

而上一代之GPT-5.4，输入与输出价码分别为2.5美元与15美元，此意味之新一代之价码直接翻之一倍。

而且多项测试结局显示，于执行相同之编程差事时，GPT-5.5消耗之token数量显著少于GPT-5.4。

总之，对寻常用户而言，GPT-5.5或许值得尝鲜，但不应视其为无对可靠之器物，对企业用户来说，于将其接入核心工流前，则须慎重，一旦现彼86%之“自信过失”，该由谁来兜底。

而此种高幻觉率一旦放于需高可靠性之工场景中，甚或导致剖析偏差、决策失误甚至财务损失。

尽管OpenAI解释称，token用效能之提升可对冲价码上涨，用户实际本金无明显增，但实在性价比仍需业界进一步验证。

而于编程与调试环节，它提供之代码预案也许看起来合理，却或无法运行，甚至暗藏安康漏洞，大幅增后期排查与修补之本金。

图源 / pexels 此些本领于确凿活中用起来怎么样。

因家记账为甚多者之日常，但记载常常为随手写、格式乱，“乱七八糟”之记账数据要求AI不能只会办理整齐之表格，还得能“看懂”手写式之记载、体谅每笔钱为什么意思，并把相似课题归到一起。

此一步主要试炼之为，GPT-5.5能否将新功能平滑地接入现有框架，同时保游戏原有之核心玩法与逻辑不被损毁。

测试结局显示，它准确合并之“外卖-午餐”与“外卖-晚餐”，而且主动提示“支付宝自动扣”应一统计入“支付宝”统计，展现出之体谅混乱账目与用户确凿意图之本领。

比如于数据剖析与呈文生成差事中，它或自信地引用不存之数据、编造统计趋势，或基于过失事实提出决策建议，导致用户做出偏离实际之商业裁决。

Tracing。

上一篇：奥特曼与Anthropico之CEO于印度AI峰会拒绝握手 下一篇：获杆位赛第2头排发车惊心动魄！张雪机车从第19逆袭冲击3连冠

GPT-5.5实测：更慧，也更爱“说谎”

相关推荐