mt logoMyToken
ETH Gas
EN

日本AI黑马Fugu杀出:7B小模型如何叫板Fable与Mythos?

Favoritecollect
Shareshare

2026年6月22日,Sakana AI发布的新模型Fugu在AI社区引发震动。在严苛的SWE-Bench Pro和TerminalBench基准测试中,Fugu Ultra分别拿下73.7和82.1分,超越了GPT-5.5和Claude Opus 4.8,甚至宣称与受出口管制的Fable 5和Mythos Preview不相上下。令人意外的是,这个在工程和推理能力上登顶的系统,其核心并非千亿参数的巨兽,而是一个仅有7B参数的模型。它不自己干活,而是作为“包工头”动态调度全球顶尖大模型。这种反常识的架构,不仅打破了“参数即正义”的迷思,也折射出日本在算力受限下的AI突围路径。

7B参数的“包工头”:Fugu的架构反常识

要理解Fugu的怪异之处,首先要看它的出身。Sakana AI由Transformer论文合著者Llion Jones和前Google研究员David Ha于2023年在东京创立。这家公司从诞生起就带着“自然启发式”的基因,致力于用进化算法和自然界的群体智能来解决AI问题。2025年,Sakana AI获得了NVIDIA、Google等巨头的投资,估值超过25亿美元。但即便有巨头背书,日本本土依然缺乏中美那样庞大的算力基础设施和数据池。在这种资源约束下,Sakana AI没有选择硬刚千亿参数大模型,而是走了一条“编排”路线。

Fugu的官方定位是“作为一个单一基础模型的多智能体编排系统”。在传统的AI架构中,大模型是一个“单体巨兽”,用户输入一个提示词,模型从第一层神经网络计算到最后一层,输出结果。这种模式在处理简单问题时效率极高,但在面对复杂的多步骤工程任务时,往往会出现幻觉或逻辑断裂。

Fugu彻底改变了这一范式。它的核心是一个经过强化学习训练的7B参数模型,被称为RL Conductor。这个7B模型本身并不直接生成最终答案,而是扮演“包工头”的角色。当用户通过单一的OpenAI兼容API提交任务后,RL Conductor会动态分析任务类型,然后将子任务分配给智能体池中的全球顶尖模型,比如GPT-5、Gemini 3.1 Pro或Claude Opus 4.8。它负责调度、验证和合成这些模型的输出,最终给出一个经过多重校验的结果。

这一架构的理论支撑来自ICLR 2026的两篇论文:《TRINITY: An Evolved LLM Coordinator》与《Learning to Orchestrate Agents in Natural Language with the Conductor》。论文详细阐述了如何用一个小参数模型通过强化学习来“指挥”大模型。这改变了Test-time scaling(测试时缩放)的范式。过去,算力主要用于模型内部的深度推理,也就是让模型“死磕”一个答案;现在,算力被用于外部的调度、验证和合成。传统大模型是全能型单体,Fugu则是专家团队。7B的RL Conductor证明了,模型参数量不再是决定能力的唯一标准,懂得如何调用工具和外部智能体,同样能实现性能的跃升。

跑分背后的真相:比肩Fable与超越GPT-5.5

Fugu之所以引发轰动,直接原因是其在严苛基准测试上的跑分。在AI行业,跑分是衡量模型能力的硬通货,但不同的基准测试侧重点完全不同。Sakana AI选择的SWE-Bench Pro和TerminalBench 2.1,都是偏向真实工程环境的“硬骨头”。

SWE-Bench Pro专注于软件工程能力,要求模型在真实的代码库中定位并修复Bug。根据Sakana AI控制台公布的数据,Fugu Ultra在SWE-Bench Pro上得分73.7。作为对比,Claude Opus 4.8得分为69.2,GPT-5.5为58.6,Gemini 3.1 Pro为54.2。在另一项测试系统操作能力的TerminalBench 2.1上,Fugu Ultra得分82.1,超越了GPT-5.5的78.2和Opus 4.8的74.6。这两项测试不仅考察模型的代码生成能力,更考察其在多步骤、长链条任务中的逻辑稳定性和工具调用能力。Fugu Ultra的领先,意味着它在处理复杂工程问题时,比单体模型更少出现中途崩溃或偏离目标的情况。

更受关注的是Fugu与Fable 5和Mythos Preview的对比。Anthropic的Fable系列和另一家前沿实验室的Mythos系列,代表了当前AI推理能力的顶尖水平。但由于受到出口管制或未完全公开,这两款模型并未进入Fugu的智能体池。Sakana AI官方宣称Fugu Ultra在工程与科学基准上与Fable 5和Mythos Preview“比肩”,但必须明确的是,这一对比并非同池实测。Fugu的跑分是基于其自身系统的实际运行结果,而Fable和Mythos的数据则是基于其各自厂商公开的报告分数。

这种对比口径在开发者社区引发了一定争议。有观点认为,不同系统在不同环境下的测试条件难以完全对齐,直接比分数有失公允。但也有开发者指出,在缺乏统一实测环境的情况下,参考厂商报告数据是行业惯例。抛开与Fable和Mythos的争议不谈,Fugu Ultra在SWE-Bench Pro和TerminalBench 2.1上对GPT-5.5和Opus 4.8的超越,是实打实的同条件对比。这种超越并非因为Fugu的底层模型比GPT-5.5更聪明,而是因为RL Conductor在任务分解和专家调度上做得更精准。在AutoResearch、魔方还原、机械设计等需要多轮推理和验证的实验中,Fugu也持续展现出优势。这说明在处理“漫长、混乱、多步骤”的真实世界工作流时,多智能体编排的架构确实比单体模型更具韧性。

真实开发场景实测:代码审查与长会话稳定性

对于开发者和AI工具用户而言,跑分只是参考,真正决定一个模型是否好用的,是它在真实工作场景中的表现。Fugu在发布前进行了近500名早期用户的Beta测试,这些用户的反馈揭示了Fugu在实际应用中的独特价值。

代码审查是开发者最常使用的AI场景之一。传统的单体模型在审查代码时,往往只能发现表面的语法错误或常见的逻辑漏洞。而在Beta测试中,有开发者反馈,Fugu在代码审查中表现出了异常的细致,能够找出深层次的架构Bug,而其他工具往往只能找出少数几个表层问题。这种差异源于Fugu的架构。RL Conductor在接收到代码审查任务后,可以分别调用擅长静态分析的模型、擅长逻辑推理的模型和擅长安全审查的模型,对同一段代码进行多角度交叉验证。这种“专家会诊”模式,自然比单一模型的“单打独斗”能发现更多隐藏问题。

另一个被高频提及的优势是长会话稳定性。在构建AI Agent产品时,开发者最头疼的问题之一就是模型在长会话中的“人设漂移”。随着对话轮数的增加,单体模型往往会忘记最初的设定,或者在指令遵循上出现偏差。有企业高管在测试后反馈,Fugu在长会话中的Persona(人设)异常稳定,几乎不发生漂移。这是因为RL Conductor本身不负责维持长文本的记忆,它只负责在每一轮对话中,根据当前上下文,精准地选择最合适的底层模型来生成回复。这种“控制与生成分离”的架构,极大地提升了Agent在长时间运行中的稳定性。

在网络安全领域,Fugu也展现出了端到端的实战能力。在测试中,Fugu能够独立完成从侦察、XSS/SQLi漏洞检测到认证审查的全流程,并生成完整的渗透测试报告,且严格遵守不越界破坏系统的指令。这种复杂任务的完成度,依赖于RL Conductor对安全工具链和不同大模型能力的精准编排。

此外,Token效率也是Fugu的一大亮点。传统大模型在处理复杂问题时,往往会生成冗长的思维链,消耗大量Token。而Fugu的RL Conductor通过精准路由,避免了无意义的长CoT消耗。官方及早期测试显示,它能显著降低无效Token的浪费。对于按Token计费的开发者来说,这不仅意味着成本降低,也意味着响应速度的提升。

底层依赖的软肋:多智能体编排的代价

尽管Fugu在架构和跑分上表现亮眼,但作为一款面向实际工作的工具,它并非没有软肋。多智能体编排的架构在带来性能突破的同时,也带来了不可忽视的风险和限制。

最核心的问题是底层依赖风险。Fugu的智能体池高度依赖GPT、Claude、Gemini等美国大厂的底层API。虽然RL Conductor具备动态路由能力,可以在某一模型出现故障或限流时切换到其他模型,但这只是规避了单一供应商的风险,并没有也无法脱离整个美国AI基础设施生态。如果这些底层模型集体涨价、大规模限流或更改API条款,Fugu的成本结构和稳定性将受到直接冲击。这种“寄居”于他人基础设施之上的模式,在商业化和长期稳定性上存在天然脆弱性。

其次是延迟与成本结构的权衡。虽然RL Conductor通过精准路由节省了无效Token的消耗,但多智能体编排必然涉及多次API调用和模型间的通信。对于需要极低延迟的实时交互场景,比如实时语音对话或高频交易辅助,Fugu Ultra的“深度思考与调度”时间可能长于直接调用单体模型。在那些对响应速度要求极高的场景中,Fugu的架构优势反而可能成为体验的拖累。

此外,对比公平性的争议也一直存在。如前所述,Fugu宣称比肩Fable和Mythos,但后两者并未进入Fugu的智能体池。在开发者社区中,有声音质疑这种基于厂商报告数据的对比是否具有实际参考价值。毕竟,不同模型在不同任务分布下的表现差异很大,简单的总分对比可能掩盖了具体的优劣势。对于需要精确评估模型能力的开发者来说,缺乏同池实测的数据,意味着在选型时仍需保持谨慎。

不拼算力拼编排:日本大模型的非对称突围

跳出具体的产品测评,Fugu的诞生对日本大模型生态有着更深层的意味。在全球AI军备竞赛中,日本处于一个尴尬的位置。它既没有美国那样源源不断的顶尖算力和前沿算法积累,也没有中国那样庞大的数据池和激烈的市场竞争环境。更严峻的是,日本还面临着美国前沿模型(如Fable/Mythos)的出口管制风险。在这种背景下,Sakana AI的“进化算法”和“多智能体编排”路线,展现出一种资源受限国家的“非对称突围”逻辑。

日本本土并非没有大模型厂商。NTT推出了tsuzumi,ELYZA、Rinna和LLM-jp等机构也在努力训练本土语言模型。但这些厂商大多走的是“从头训练”的传统路线,在参数规模和通用能力上,很难与中美顶尖模型抗衡。Sakana AI是其中唯一具有全球前沿影响力,且主打“非对称架构”的实验室。

Fugu的动态路由能力,本质上是在帮日本企业和机构建立“AI主权”(AI Sovereignty)。在算力受限的情况下,与其耗费巨资训练一个各方面都不如GPT-5.5的千亿参数模型,不如训练一个聪明的7B“包工头”。这个包工头可以根据任务需求,灵活接入全球最好的模型。如果某一天某个美国模型受到出口管制或断供,RL Conductor可以迅速将任务路由到其他可用的模型上,甚至接入日本本土的专用模型。这种架构使得日本在AI能力的使用上,获得了一定程度的自主权和抗风险能力。

OmniTools在观察全球AI工具生态时发现,大模型的能力正在逐渐拉平,竞争的主战场正在从单纯的参数堆砌转向工具链与落地场景。Fugu的出现恰好印证了这一趋势。它不再追求在单一模型上做到极致,而是追求在系统层面做到最优。这种思路对于算力和数据都不占优的国家和地区,具有重要的借鉴意义。

当然,这种“非对称突围”也有其天花板。只要底层模型的核心技术仍掌握在少数巨头手中,编排系统的能力上限就会被底层模型所限制。Fugu证明了7B模型可以成为优秀的指挥官,但它无法凭空创造出底层模型不具备的能力。日本大模型要真正实现突围,除了在编排架构上创新,仍需在底层算力、核心算法和高质量数据上持续投入。Fugu是一个精巧的系统级创新,但它并非万能药。对于开发者和企业用户来说,Fugu提供了一个在复杂工程场景下极具竞争力的新选项,但在使用时,也需清醒认识其底层依赖的脆弱性和延迟成本的权衡。

Disclaimer: This article is copyrighted by the original author and does not represent MyToken’s views and positions. If you have any questions regarding content or copyright, please contact us.(www.mytokencap.com)contact
More exciting content is available on
X(https://x.com/MyTokencap)
or join the community to learn more:MyToken-English Telegram Group
https://t.me/mytokenGroup