于SWE-BenchVerified、Terminal-Bench2.0等主流代码智能体基准中,Hy3preview之表现未超过Anthropic之Claude-Opus-4.5、智谱GLM-5等国内外主流模型。
于混元团队联手复旦大学发布之CL-bench与CL-bench-Life基准测试中,Hy3preview之表现高于Kimi-K2.5、GLM-5,但掉队于OpenAI之GPT-5.4xhigh。
但于后端营造差事集Hy-Backend、贴近确凿用户交互之Hy-VibeBench,以及高难度软件营造差事集Hy-SWEMax等内部测试中,其统合表现优于Kimi-K2.5,仍未达到Claude-Opus-4.6之水平。