mt logoMyToken
ETH Gas
EN

Founders Fund、Pantera与Franklin Templeton加入Sentient的 “Arena”,对企业级AI智能体进行压力测试

Favoritecollect
Shareshare

过去两年里,企业一直在加速把 AI 智能体引入真实工作流程:从客服、后台运营,到金融与合规等需要高强度决策的流程。随着这些系统越来越多地被嵌入实际业务,一个新问题正在浮现:智能体能够检索信息,但当工作变得“脏”、多步骤、或高风险时,它们往往难以给出稳定、可解释、可复现的推理过程。

今天,开源 AI 实验室 Sentient 正式推出 Arena——一个实时、可投入生产级使用的环境,面向全球数千名 AI 开发者,用来对各种企业最难的推理问题进行压力测试与竞赛式迭代。Arena 初始阶段的首批参与阵容包括 Founders Fund、Pantera,以及管理资产规模超过 1.5 万亿美元的 Franklin Templeton(富兰克林邓普顿)——这也释放出一个信号:机构正在对“在上线部署前,对 AI 智能体进行结构化评测”产生早期、明确的兴趣。

“当企业把 AI 智能体应用到研究、运营和面向客户的工作流时,问题已经不再是这些系统是否足够强大……而是它们在真实工作流中是否可靠。”Franklin Templeton Digital Assets(富兰克林邓普顿数字资产)管理合伙人 Julian Love 表示。Love 补充说,像 Arena 这样的结构化环境,将帮助行业把“有潜力的想法”和“真正能用于生产的能力”区分开来。

Sentient 联合创始人 Himanshu Tyagi 表示:“AI 智能体在企业内部不再只是实验;它们正在进入会触及客户、资金和运营结果的关键流程。这种变化改变了评判标准。系统在演示里看起来很惊艳还不够。企业需要知道:在生产环境里,当失败代价很高、信任又非常脆弱时,智能体是否还能稳定地推理。企业需要可比性、可重复性,以及一种不依赖底层模型或工具栈、能够长期跟踪可靠性提升的方法。”

Arena 模拟了企业工作流的真实混乱:信息不完整、上下文很长、指令含糊、来源相互冲突。Arena 不只评判智能体是否给出“正确答案”,而是记录完整的推理轨迹(reasoning trace),以便工程团队定位失败原因,并长期验证改进是否有效。

这为跨模型、跨技术栈的推理评估提供了一个中立、与厂商无关的基准(vendor-agnostic benchmark)。Arena 强调生产级表现而非 Demo 表现,从而形成可验证、适用于高风险场景的智能体能力,企业也可以把这些能力迁移到自己的私有数据和内部工具上。

在第一项挑战中,加入 Arena 的开发者将聚焦一个企业级基础难题:文档推理(document reasoning)。AI 智能体需要对复杂、非结构化数据进行推理与计算——这类工作是金融分析、根因调查、投资备忘录撰写、客户服务等场景的底层支撑。

初始阶段的其他参与方还包括 alphaXiv、Fireworks、OpenHands、OpenRouter 等;随着 Arena 在任务、行业与模型集成上的扩展,预计还会有更多参与者加入。

近期调研也凸显了 Arena 试图解决的缺口:85% 的企业表示希望成为“智能体企业(agentic enterprises)”,近四分之三计划部署自治智能体,但真正拥有成熟治理体系的不到四分之一;许多企业难以把试点扩展到大规模生产部署。企业平均已经在运行约十几个智能体,通常分散在各自孤立的场景中;不少企业认为,如果没有更好的编排与协同能力,继续增加智能体只会带来复杂度上升,价值反而下降。

“在 OpenHands,我们一直很愿意支持开发者使用智能体解决真实、实用的问题。”OpenHands 首席科学家兼联合创始人 Graham Neubig 表示,“我们也很高兴支持参赛者使用 OpenHands Software Agent SDK 来应对这些复杂挑战。”

OpenRouter 联合创始人兼 CEO Alex Atallah 表示:“Arena 正是那种能推动开源 AI 向前的计划——它让研究者可以在公开环境中竞争、迭代和创新。我们很期待与 Sentient 加深合作,并提供基础设施,让实验更快、更容易规模化。”

Arena 将面向全球启动,邀请数千名 AI 开发者申请加入第一期限定队列,并从 2026 年 3 月起在旧金山举行线下活动。

备注(Notes To Editor):

  1. Franklin Templeton Digital Assets 管理合伙人 Julian Love 表示:“当企业把 AI 智能体应用到研究、运营和客户工作流中时,问题已经不再是这些系统是否强大、或是否能生成一个答案,而是它们在真实工作流里是否可靠。像 Arena 这样的沙盒环境,让智能体在真实、复杂的工作流里被测试,且其推理过程可被检查,这将帮助生态把有前景的想法与可生产落地的能力区分开来,并提升对这项技术如何被集成与规模化的信心。”

  2. OpenRouter 联合创始人兼 CEO Alex Atallah 表示:“Arena 正是推动开源 AI 前进的那类计划——它让研究者可以在公开场域竞争、迭代、创新。我们很期待与 Sentient 加深合作,并提供基础设施,让实验更快、更容易规模化!”

  3. OpenHands 首席科学家兼联合创始人 Graham Neubig 表示:“在 OpenHands,我们一直很愿意支持开发者使用智能体解决真实、实用的问题。我们也很高兴支持参赛者使用 OpenHands Software Agent SDK 来应对这些复杂挑战。”

关于 Sentient Labs

Sentient Labs 是一家领先的技术研究与产品组织,致力于推动开源 AI 的发展。作为 Sentient Foundation 旗下的创新引擎,Sentient Labs 在 AI 推理、对齐与智能体协作等方向开展前沿研究。Sentient 是 ROMA 等高性能框架以及 Dobby 等开源模型的核心研发方。Sentient 的使命是让开源 AI 从“实验”走向“必需”。通过提供构建强大、可组合智能体系统的基础设施,Sentient 让开发者能够对开源工具实现商业化,并达到企业级可用性。Sentient 致力于推动开源成为全球关键任务 AI 运营的默认标准。

Disclaimer: This article is copyrighted by the original author and does not represent MyToken’s views and positions. If you have any questions regarding content or copyright, please contact us.(www.mytokencap.com)contact
More exciting content is available on
X(https://x.com/MyTokencap)
or join the community to learn more:MyToken-English Telegram Group
https://t.me/mytokenGroup