AGI已经来了:红杉年度大会最硬核的13场AI对话

Favoritecollect
Shareshare

引言

2026 年 4 月底,红杉资本(Sequoia Capital)在旧金山举办第四届 AI Ascent 大会。这场大会邀请了 OpenAI、DeepMind、Anthropic、NVIDIA、Waymo 等 AI 产业核心公司,也包括 ElevenLabs、XBOW、Recursive Intelligence、Starcloud 等押注新兴方向的创业公司。13 场对话横跨基础模型、编程范式、机器人学、自动驾驶、芯片设计、太空算力和新型计算架构,基本覆盖了当下 AI 产业最前沿的几条主线。

相比往年,这一届 AI Ascent 的基调更加直接:AI 已经不再只是提升效率的工具,而是开始进入真实工作流,接管一部分过去只能由人完成的复杂任务。红杉在开场演讲中将其称为「功能性 AGI」的到来——不是说机器已经在所有维度上等同于人类,而是从商业和生产力角度看,长程智能体已经跨过了从演示到可用的门槛。

这也是本次大会最核心的背景:当智能开始变得廉价、可调用、可规模化,AI 的竞争焦点正在从「模型能不能做」转向「如何把它接入真实世界」。软件、服务、组织、硬件、能源、安全和物理空间,都可能因此被重新设计。

红杉试图讲述的故事很清晰:智能不再是奢侈品,而正在变成一种新的工业原料。下一个阶段真正重要的,或许不是谁拥有更聪明的模型,而是谁能更快理解客户、重组流程、调度 agent,并把这种廉价智能转化为可持续的商业系统。

因此,这场大会讨论的并不只是 AI 技术的下一步,而是一个更大的问题:当机器可以承担越来越多脑力劳动时,人类、公司和社会该如何重新定义自己的价值。

贯穿全场的几条主线

第一,智能正在变成一种大宗商品。

红杉把这一转变类比为 19 世纪末的「铝」:它曾经比黄金还贵,却因为电解法的普及,在几十年内变成随手可得、随处可用的工业材料。今天,PhD 级别的专业知识、过去定义中产阶层竞争力的认知壁垒,可能正在经历类似的命运。高级智力不再天然稀缺,而是开始被模型大规模生产、调用和分发。

第二,瓶颈正在从机器转向人。

Greg Brockman 说出了本届大会上被反复引用的一句话:当 agent 能够自主工作时,人类注意力将成为整个经济体中最稀缺的资源。Karpathy 则用更直白的方式表达了同一个判断:当机器可以处理几乎所有执行细节时,人类唯一不能丢掉的能力,就是弄清楚自己到底想要什么。问题不再是机器能不能做,而是人类能不能提出正确目标、判断结果是否可靠,并决定什么值得被完成。

第三,编程正在被解决,组织还没有。

Anthropic 内部已经实现了大量代码由模型生成,不同 agent 甚至可以在 Slack 上自主协作。Boris Cherny 的判断更进一步:真正的护城河不再是某一个模型版本,而是组织架构对 AI 的「原生化」程度。对现有公司而言,这是一个并不友好的结论——因为差距不只来自工具使用熟练度,而来自公司是否愿意围绕 agent 重新设计流程、权限、协作方式和管理结构。

第四,AI 正在从数字世界回到物理世界。

Jim Fan 的机器人、Waymo 的 2000 万次自动驾驶乘车、ElevenLabs 的情感化语音,从不同侧面说明,AI 已经不再只是处理文本、代码和图像的屏幕工具,而是开始理解并介入光、声、力、运动和空间。过去十年,「软件吞噬世界」是主线;接下来,AI 可能会直接进入实体世界,改变汽车、工厂、机器人、语音交互和物理制造本身。

第五,算力的尽头在物理底层。

当地面数据中心的土地、电力、散热都开始触顶,一批更激进的公司给出了不同解法:Starcloud 想把芯片送上太空,Recursive 让 AI 自主设计芯片,Unconventional AI 试图绕开冯·诺依曼架构去模仿大脑,Flapping Airplanes 则直接质疑「暴力 scaling」本身——如果人类只用少得多的数据就能学会同样的技能,那么今天的 AI 算法可能从根上就过于低效。算力竞争的终点,正在从买更多 GPU,走向能源、芯片、架构和数据效率的底层重构。

第六,安全已经进入「AI vs AI」的不对称战场。

XBOW 的智能体登顶全球白帽黑客排行榜,意味着 AI 已经不只是安全研究员的辅助工具,而是能够独立完成漏洞发现、验证和利用的自主攻击系统。更严峻的是,随着开源模型能力提升,这类攻击能力可能在未来 6 到 9 个月内快速扩散。网络安全不再是人类黑客之间的攻防,而是一场倒计时已经启动的 AI 军备竞赛。

把这些线索拼在一起会发现,2026 年的 AI 行业正处在一个并不舒服的位置:技术能力已经远远跑在产品形态、组织结构和社会规则前面。模型每天都在变强,但承接它的「容器」——无论是企业流程、应用界面,还是人类自身的注意力——都还没有跟上。

整场大会的讨论,本质上都在回答同一个问题:在一个机器可以完成越来越多脑力劳动的世界里,人类还剩下什么?

红杉给出的答案有些反直觉:是情感,是信任,是那些无法被规模化生产的东西。Brockman 的答案是「你想要什么」,Karpathy 的答案是「你能否判断机器做得对不对」。这几个答案最终指向同一件事:当智能本身不再稀缺,意图、判断和关系将成为新的硬通货。

以下是这场大会全部 13 场对谈的梗概。

论坛梗概

主旨演讲

红杉合伙人开幕演讲:这就是 AGI

演讲者 Pat Grady、Sonya Huang、Konstantine Buhler 是红杉资本(Sequoia Capital)AI 投资条线的三位核心合伙人。Sonya Huang 是 2022 年那篇刷屏全球的 Generative AI: A Creative New World 的作者,被视为最早系统看多生成式 AI 的机构投资人之一。三人共同主笔了 2026 年的 This is AGI 一文,是这场大会的思想框架来源。红杉资本本身是硅谷历史最悠久的顶级风投,早期投过 Apple、Google、Nvidia、Stripe、OpenAI 等公司。

AI 是一场彻底颠覆信息处理本质的「计算革命」,而非仅仅加速分发的「通信革命」。以往的互联网和移动端只改变了信息的传播路径,而 AI 改变了信息生成的底层逻辑,导致开发者构建应用的 floor(技术底座)每天都在发生位移。这一判断的重要性在于:在基础不稳的「暴雨时刻」,传统的稳定技术栈已成过去,开发者必须学会与不断演进的模型底座共舞。

AI 将通过直接交付「专业服务」切入一个比传统软件大十倍的 10 万亿美元市场。全球软件市场 TAM(潜在市场总额)仅为数千亿美元,而仅美国法律服务这一个垂直领域就达 4000 亿美元,规模已等同于整个软件行业。这主张了一个关键转型:AI 的商业价值不再是作为工具卖给人类,而是直接以 agent(智能体)形态去接管并交付原本由人类专家完成的高价值工作。

从商业实战看,能够自主应对失败的长航时 agent 标志着 AGI(通用人工智能)已经降临。如果一个系统能被派去执行任务、在失败中自我修复并坚持到终点,它在功能上就已经等同于 AGI。这一判断反直觉地提醒我们:别再纠结学术定义,具备独立执行能力的 AI 已经从「更快的马」进化成了改变竞争维度的「汽车」,效率已实现 10 到 40 倍的跨越。

在底层能力瞬息万变的时刻,建立护城河的唯一逻辑是「极端贴近客户」。MAD 战略——Moats(护城河)、Affordance(示能性,指产品直观易用的程度)和 Diffusion(扩散)——主张用 customer-back(由客户需求倒推)而非 tech-out(由技术导出)来锁定价值。由于人的需求比模型能力的变化要慢得多,这种对客户的深度包裹比追逐模型更具持久性。

Agent 的自主性正在从「分钟级助手」向量级跨越为「小时级自主员工」。衡量模型在复杂任务中保持正确轨道时间的 meter chart(任务持久性指标)已从一年前的分钟级飞跃至现在的数小时,足以支持无需人类审核的 dark factories(暗工厂,指完全自主运行的业务流程)。这意味着生产力瓶颈已被打破,类似「6 周内重写 800 万行代码」的超常迭代正成为常态。

人类社会正处于「认知工业革命」的前夜,机器将承担全球 99.9% 的脑力劳动。正如工业革命用发动机取代了 99% 的体力,未来绝大部分的分析、决策和创作也将由神经网络承担。这一判断的主张在于:智能将不再是人类的垄断资源,而是一种可以被无限规模化生产、按需调用的低成本工业级消耗品。

高级智力技能即将迎来「铝的时刻」,从昂贵的奢侈品彻底沦为廉价的大宗商品。曾经比金子还贵的铝,因 electrolysis(电解法,指分离物质的化学工艺)的普及而变得随手可弃,AI 对 PhD(博士)级知识的瞬时调用也将产生同样效果。这预示了一个残酷的未来:多年积累的专业知识壁垒可能在瞬间崩塌,智力本身将不再具有稀缺溢价。

当智力全面平庸化后,人际关系和情感连接将成为人类社会唯一的真实价值锚点。摄影术曾促使艺术从写实转向表达灵魂的印象派,同样的,AI 对效率的最优解往往呈现出超越人类直觉的「异形空间」。最终的结论反直觉却深刻:在一个机器负责所有工作的未来,唯有人与人之间的信任和情感,才是无法被机器规模化生产的终极硬通货。

如果只能记住这场对话的一件事,是什么?

以前值钱的聪明才智很快会变得像塑料袋一样便宜,未来真正让你保持竞争力的不再是能解决难题的脑子,而是能理解他人并建立信任的情感。

模型与认知

Andrej Karpathy:从 Vibe Coding 到 Agent 工程(OpenAI 创始团队)

演讲者 Andrej Karpathy 是 AI 圈最有影响力的"教育型科学家"。OpenAI 创始团队成员,后任 Tesla AI 总监负责自动驾驶视觉系统,2024 年离开 Tesla 创办 AI 教育公司 Eureka Labs。他在 YouTube 上手把手讲解神经网络的系列视频是无数 AI 工程师的入门教材。"Software 2.0""Vibe Coding"等关键概念都是他造的词。

即使是顶级专家也会在 AI 浪潮中感到「落后」,因为技术的演进已从辅助工具跨越到了自主系统。 讲者在 2026 年初发现自己已不再需要修改 AI 生成的代码块,只需信任系统即可完成复杂任务。这一判断的重要性在于:当 AI 能够实现自我纠错和闭环交付时,原本依靠经验积累的开发者「底线」被暴力拉升,个人学习速度已很难追上技术底座的位移速度。

现代计算正进入 Software 3.0 时代,LLM 本质上是一个以 context 为杠杆的新型计算机。 Software 1.0 是写代码,2.0 是训练权重,而 3.0 则是通过 prompting(提示词)在 context(上下文窗口,模型处理信息时的内存空间)中进行编程。这意味着安装软件不再需要编写复杂的兼容脚本,只需把一段说明文字「喂」给 agent 即可,精确的细节拼写已不再是核心竞争力。

许多现有的应用架构正变得「多余」,因为 AI 已经具备了在原始数据层直接进行处理的能力。 讲者发现自己辛苦开发的菜单生成应用变得毫无意义,因为模型现在能直接在照片上进行像素级的渲染叠加。这主张了一个深刻的变化:AI 不应只是用来加速旧有的业务逻辑,我们必须意识到中间层的消失意味着许多传统产品形态已经失去了存在的物理基础。

AI 的能力呈现出「锯齿状」,它只在能够被 verify 的领域展现出超人智能。 模型能重构十万行代码,却可能在计算「strawberry 中有几个 r」这种简单常识上翻车。这是因为模型主要通过 RL(强化学习,一种利用奖励信号引导模型进化的训练方法)在数学和代码等 verifiable(可验证)领域被强化。这提醒我们:必须时刻在 loop 中观察,警惕那些处于模型训练分布之外的弱点。

我们并非在构建具有内在动机的「动物」,而是在数据分布中「召唤幽灵」。 模型的智能峰值取决于训练数据的分布(如加入大量棋谱数据会使棋力突飞猛进),而非它真的产生了某种类似生物的好奇心。这一判断反直觉地指出:AI 并没有真正的「理解」,它只是在统计模拟中对特定电路进行了极致强化,因此用户必须学会识别并避开那些没有数据支撑的虚假能力。

Agentic engineering 是为了在利用随机性 AI 的同时,守住专业软件的质量红线。 这种新型工程方法要求开发者在协调那些表现不稳定但极其强大的 agent 时,依然能确保系统不产生安全漏洞。它主张了一种新的 10x 工程师范式:竞争的核心不再是亲自写代码的速度,而是能否像导演一样高效地驱动庞大的 agent 集群去交付高质量的结果。

当机器接管了琐碎的 API 细节后,人类真正的溢价将转向审美和对「规格书」的掌控。 开发者无需再死记硬背 PyTorch(深度学习框架)的具体接口参数,因为这些细节会被具备极强记忆力的 AI「实习生」处理。这预示了一个反直觉的未来:基础原理和设计品味比工具细节更长效,人类应当从「搬砖工」转型为定义「什么才是好设计」的决策者。

「思考」可以外包,但「理解」是人类在智能廉价时代唯一的限速瓶颈。 尽管 AI 可以辅助我们处理和重新编译海量信息,但它无法替我们决定「为什么要构建这个」以及「这是否有价值」。这主张了一个终极结论:人类仍是系统的唯一指挥官,因为只有人类的意识能赋予智能加工过程以目标,这种对全局的理解是无法被算法替代的。

如果只能记住这场对话的一件事,是什么?

当机器能替你干所有活儿甚至思考所有细节时,你唯一不能丢掉的本事就是弄明白你到底想要什么,以及你能否看出来机器做得对不对。

Greg Brockman:人类注意力是新瓶颈(OpenAI 联创)

演讲者 Greg Brockman 是 OpenAI 联合创始人兼总裁。Stripe 前 CTO,2015 年与 Sam Altman 一起创办 OpenAI,是公司技术与基础设施的核心架构师。在 OpenAI 内部,Altman 主外(融资、公共形象、政策),Brockman 主内(技术、算力、产品)。他亲自下场写代码、半夜值守发布的工程师风格在硅谷广为人知。

智能已成为一种可转售的标准化商品,导致算力需求呈现永无止境的病态增长。OpenAI 的商业模式本质上是购买或租赁算力,通过模型转化为智能后溢价转售,由于解决问题的需求无限,导致 2026 年的 GPU(图形处理器)供应量在预测中几乎趋于零。这一判断的重要性在于:AI 不再仅仅是软件服务,而演变成了一种资源型的大宗商品业务,物理世界的算力供给直接决定了文明智力的上限。

Scaling law(模型能力随算力增加而提升的经验法则)是宇宙级的实证真理,目前尚未看到任何触顶的「墙」。尽管神经网络的基本理念起源于 1940 年代,但只要持续投入海量算力,模型的各项能力就会相应地、确定性地增强,。这主张了一个关键观点:技术停滞在短期内不会发生,只要资本和电力持续投入,我们就能获得更强大的智慧,这为科技巨头的激进投资提供了底层逻辑支撑。

从功能角度看,我们已经完成了通往 AGI(通用人工智能)80% 的路程,因为模型已具备独立执行任务的闭环能力。一名系统工程师将复杂的优化方案交给模型后,模型不仅完成了代码编写,还自主运行了 Profiler(性能分析工具)并根据反馈进行了多轮优化,直到任务彻底完成,。这主张了一个反直觉的观点:AGI 不是一个未来的瞬间,而是一个正在发生的进程,AI 已经从「写代码的助手」进化成了「能解决问题的同事」。

Context(上下文,指模型处理特定任务时掌握的背景信息)正取代模型算法成为当前最核心的竞争前沿。新款工具 Chronicle 能够实时记录用户在电脑上的一切操作,让 AI 拥有「记忆」,从而省去了人类反复向机器解释背景的时间,。这一判断的重要性在于:对于创业者而言,一次性的模型训练不再是唯一的护城河,构建一个能让 AI 深度理解用户业务环境的「数据线束」才是真正持久的资产。

随着「执行」成本降为零,Human attention(人类注意力)将成为整个经济体中最稀缺的资源。当 Agent(智能体)能够自主工作、甚至因为任务进度慢而主动在 Slack 上向经理汇报时,人类的精力将完全从「做事」转向「判断这是否符合我的价值观」,。这个判断非常反直觉:瓶颈不再是机器算得不够快,而是人类签字确认的速度跟不上机器产出的速度,人类成了系统的限速步进器。

传统的企业组织架构将被彻底解体,未来将出现一人统治万千 Agent 的「个人企业」时代。互联网上的个人正利用顶级模型解决原本需要整个研究团队才能攻克的数学难题,这意味着竞争的核心已从「堆人头」转变为「独特的切入点」,。这预示着一种全新的权力结构:未来的公司可能极度扁平化,任何人只要拥有远见,都能像 CEO 管理十万名员工一样指挥庞大的智能体集群。

AI 正在从数字世界跨越到物理世界,开启一场科学研究的文艺复兴。OpenAI 的模型最近推导出了一个物理公式,为物理学家寻找 Quantum gravity(量子引力,试图统一微观量子力学与宏观广义相对论的理论)提供了关键证据,。这一判断主张:AI 已不再只是处理整洁的数字符号,它正在学习如何处理现实世界的复杂与杂乱,人类即将迎来一个由机器辅助甚至主导的科学大发现时代。

我们终将告别这种需要「屈从」于机器的自然状态,回归到以目标驱动的人本生活。人类身体并非为了久坐在屏幕前敲字而设计,未来的交互将从输入指令转变为表达愿景,让机器像仆从一样去实现我们的目标,。这一判断导出了一个深刻的结论:AGI 的终局不是让人类变得更像机器,而是让机器承担所有非人的琐事,把人类的时间还给情感和社交。

如果只能记住这场对话的一件事,是什么?

当机器能替你完成所有工作时,你唯一的竞争力和价值就不再是你会做什么,而是你到底想要什么,以及你能否判断出机器做得对不对。

Demis Hassabis:走向 AGI 的四分之三进程(DeepMind CEO &2024 年诺贝尔化学奖得主)

演讲者 Demis Hassabis 是 Google DeepMind 联合创始人兼 CEO,2024 年诺贝尔化学奖得主。少年时曾是国际象棋大师,后转向游戏设计与认知神经科学博士。DeepMind 旗下做出了 AlphaGo(击败围棋世界冠军李世石)、AlphaFold(破解 50 年蛋白质折叠难题)和 Gemini 大模型系列,是当今唯一同时领导大型 AI 实验室、并拿过诺贝尔奖的人。

宇宙的最底层基石是「信息」,而非物质或能量。讲者主张物质、能量与信息之间存在等价性,而信息加工是理解万物(尤其是对抗熵增的生物体)最本质的视角。这一判断的重要性在于:它将 AI 从一种单纯的计算机技术提升到了探索现实本质的元工具地位,意味着构建 AI 就是在重构人类对宇宙运行逻辑的理解。

AGI 是一个目标明确、按部就班推进的「二十年科学工程」。DeepMind 在 2010 年成立时就确立了「第一步解决智能,第二步用智能解决一切」的愿景,且目前的发展完全符合当时的预判。这打破了「AI 爆发是偶然」的错觉,主张 AGI 的到来是长期科学规划的必然结果,而非硅谷式的运气或资本炒作。

Deep Learning 与 Reinforcement Learning(强化学习,指通过反馈奖励让机器自主学习策略)的融合是通往 AGI 的确定路径。早年学术界将这两者割裂,但讲者坚持认为这种结合能让 AI 在没有人类先验知识的情况下,从游戏中习得通用逻辑。这一判断的主张在于:通过「合成」不同技术领域的优势,AI 可以从解决简单的益智游戏飞跃到处理现实世界的无限复杂度。

AI 将取代传统数学,成为生物学等复杂涌现系统的「底层描述语言」。数学虽然能完美描述物理规律,但在面对生物学这种充满微弱信号和杂乱数据的系统时显得 Expressive Power(表达能力)不足。这一判断反直觉地指出:我们不必强求用简洁的方程描述生命,AI 能通过模拟复杂的相互作用,直接提取出人类无法凭直觉理解的自然定律。

AlphaFold 的成功标志着 AI 已经在生命科学领域实现了「跨越式范式转移」。这一工具解决了困扰人类 50 年的蛋白质折叠难题,让药物开发有望从传统的 Wet-lab(指依赖化学试剂和物理实验的实验室)模式转向数字化模拟。这意味着未来研发新药可能不再需要 10 年,而是缩短至数天甚至数小时,将人类从繁重且低效的生物试错中彻底解放。

高精度模拟器将把社会科学转化为可以反复实验的「硬科学」。通过学习世界模型构建模拟环境,人类可以在不干扰现实的情况下对经济政策或环境能源议题进行数千次采样。这主张了一个反直觉的未来:诸如利率调整等原本充满不确定性的决策,将变得像工程实验一样可以精确预测结果,极大降低社会治理的风险成本。

在探讨机器是否有意识之前,应先将其打造为极度精准的「超级科研工具」。讲者主张先利用 AGI 这种「智能望远镜」去反向观察和定义人类大脑的 Consciousness(意识)和自我意识。这一判断的重要性在于:它设定了一个理性的科研优先级,即先解决生产力瓶颈,再利用提升后的认知能力去攻克人类文明最深奥的哲学难题。

人类正处于 AGI 征途的最后四分之一,2030 年将是文明进化的分水岭。从早期的棋类游戏到如今在蛋白质结构研究中实现闭环,AI 已展现出处理极度复杂且具有高度不确定性任务的能力。这主张了一个紧迫的判断:AGI 的到来已进入倒计时,我们正处于 20 年长跑的冲刺阶段,社会必须在未来五年内做好迎接全面转型的准备。

如果只能记住这场对话的一件事,是什么?

我们正处于通往超级智能的最后冲刺阶段,AI 的最终目的不是模仿人类聊天,而是成为帮人类在几天内发明出新药或破解宇宙秘密的最强科学引擎。

编程与组织变革

Anthropic 的 Boris Cherny:编程已解决,下一关是组织

演讲者 Boris Cherny Anthropic 旗下 Claude Code 的创造者。Claude Code 是 2025 年发布的命令行编程工具,被开发者圈视为目前最强的 AI 编程助手之一,也是引爆"agentic engineering"概念的关键产品。

当前软件开发最大的阻碍是 UI 界面跟不上模型能力的「产品悬置(Product Overhang)」。过去的代码助手只能做简单的单行补全,而现在的模型已经完全有能力接管整个工程的闭环开发任务。这意味着开发者必须从「修补旧界面」转向构建 agentic(智能体化,指模型能自主执行多步任务并感知环境)的新产品,否则人类将无法释放 AI 真正的生产力潜力。

对于顶尖开发者而言,手动编写代码的「手艺人时代」已经宣告终结。讲者通过 Claude Code 实现了 100% 的代码由模型生成,并创造了单日完成 150 个 PR(Pull Requests,合并代码请求)的个人纪录。这主张了一个反直觉的结论:AI 不再是辅助你的「副驾驶」,而是能够独立交付成果的主力,人类在工程中的角色已经从「搬砖工人」彻底进化成了「项目审查员」。

在 AI 智能爆炸期,成功的秘诀是为「下一代模型」开发产品,而非迁就现状。Claude Code 在发布初期的半年里并未获得 PMF(Product Market Fit,产品市场契合),直到更强大的 Opus 4 模型发布才让产品体验迎来质变。这说明创业者必须预判并等待智能水平的跨越,因为这种「模型能力的突变」会瞬间让原本平庸的工具变成重塑行业的利器。

Loop(循环,指让模型自主定时运行并反馈)将取代对话框,成为人机协作的终极范式。模型现在能利用 cron(定时执行任务的系统工具)自主安排重复性工作,比如每 30 分钟自动修复测试错误、完成代码重构或整理用户反馈。这意味着未来的工作流不再依赖人类时刻盯着屏幕发指令,而是建立一个能够 24 小时自我运转、无需监督的数字化专家团队。

AI 正在消灭单一技术栈的壁垒,催生出跨学科的「超级通用型人才」。在 Anthropic 团队内部,无论是财务主管、设计师还是研究员,每个人都在利用 agent 进行专业的编程开发。这预示着一种职业范式的转移:掌握特定编程语言的「技术深度」将迅速贬值,而具备产品感知、设计美感与行业洞察的「跨界广度」将成为未来最核心的稀缺资源。

传统的软件商业护城河正在因 AI 具备的「意志力」而面临全面崩塌。模型现在具备极强的 hill climb(爬坡迭代,指通过持续自我反馈直到达成目标)能力,能自主摸清并执行任何复杂的业务流程。这暗示了「SAS 启示录」的到来:那些仅靠流程自动化生存的软件将失去价值,因为 AI 可以根据用户的目标,随时为每个人生成定制化的替代方案。

编程正迎来其「印刷机时刻」,将从一种精英技能转变为全民普及的「识字」能力。正如 15 世纪印刷机的出现让识字率从 10% 飞跃至 70%,AI 将让编程变得像发短信一样简单自然。这主张了一个深刻的观点:未来编写财务软件的最佳人选将不再是程序员,而是最懂业务逻辑的会计师,这种「领域知识」对权力的接管才是最彻底的民主化。

企业真正的长期领先优势不再是模型版本,而是其组织架构的「AI 原生化」程度。Anthropic 内部已经实现了不同的 Agent 之间在 Slack 上互相沟通并自主协作,完全抛弃了手动编写代码的旧组织流程。这揭示了一个残酷的真相:你与领跑者的差距不在于是否拥有模型,而在于你是否愿意为了适配 AI 的速度而彻底推倒重来,去重组公司的运行逻辑。

如果只能记住这场对话的一件事,是什么?

以后写代码会变得像发短信一样简单,每个人都能随手做个 App 出来,那时候最值钱的将不再是你会不会写代码,而是你到底懂不懂那个行业。

物理世界与界面

英伟达的 Jim Fan:机器人学的终局

演讲者 Jim Fan 是 NVIDIA 高级研究员、机器人 AI 项目负责人(Project GR00T)。OpenAI 早期成员,斯坦福李飞飞实验室博士,是机器人基础模型领域最受关注的研究者之一。在 Twitter 上活跃,常被视为机器人版"Karpathy"——既做研究,又是行业布道者。

机器人学必须「抄 LLM 的作业」,将物理世界的下一帧预测作为进化的核心逻辑。正如语言模型通过预测下一个 token(文本片段)掌握了人类思维,机器人也应通过预测 physical world state(物理世界状态)来学习现实规律。这一判断的主张在于:我们不应再为机器人手写规则,而应将其视为一个生成式问题,通过「模拟物理世界的演变」来让机器人自发产生智能。

必须用 WAM(世界行动模型)取代现有的「头重脚轻」的视觉语言模型。目前的 VLM(视觉语言模型)擅长理解名词和知识,却对物理规律和动词(如移动杯子)缺乏直观感受。这一判断的重要性在于:WAM 将视觉与动作视为「一等公民」,让机器人具备一种「预见未来几秒钟并据此行动」的能力,从而解决那些从未在训练中见过的复杂任务。

大规模视频预训练实际上是某种「物理模拟器」的廉价替代品。模型在预测海量视频像素的过程中,自发习得了重力、浮力、光影反射等复杂的物理特性,而无需任何人工编程。这主张了一个反直觉的结论:我们不需要精密的物理方程式,只需让 AI 观看足够的「视频垃圾(slop)」,它就能在潜意识中构建出真实的物理直觉。

Teleoperation(远程操作,指人戴着设备手动控制机器人)正成为限制机器人规模化生产的最大阻碍。由于受限于人类专家的物理时长,这种昂贵且痛苦的数据采集方式存在「每台机器人每天 24 小时」的硬性上限。这一判断的主张在于:必须通过 Sensorized human data(传感器化的人类数据)来打破瓶颈,让机器人直接从人类的日常行为中学习,而不是依赖昂贵的「手把手教学」。

机器人灵巧性也遵循 Scaling law(规模定律),智能取决于预训练的小时数。研究发现,机器人的任务成功率与投入的第一人称视角视频训练时长之间存在清晰的对数线性关系。这一判断的重要性在于:它证明了「机器人智能」不再是一个无法量化的黑盒,而是一个可以预期的算力与数据函数,通过投入千万小时级的视频数据即可实现能力的指数级飞跃。

未来的训练环境将从经典物理引擎转向纯数据驱动的「神经模拟器」。传统的模拟器需要手动建模,而 Dream Dojo 等技术能根据动作信号直接生成感官状态,实现「计算即环境」。这意味着我们不再需要建造一百万个实体实验室,只需通过强大的推理算力让 AI 在其「梦境」中进行千万次并行强化学习,从而极大地缩减研发成本。

通过 Physical API(物理接口),机器人将像软件应用一样可以被代码指挥和配置。未来的工厂将进化为「暗工厂(Lights-out factories)」,只需输入一个描述产品设计的 Markdown 文件,机器人集群就能自主协调并打印出原子层面的实体产品。这一主张预示了一个反直觉的未来:硬件制造将不再是重资产的重工业,而是可以被软件灵活调度的标准化服务。

2040 年将迎来物理层面的自动研究,机器人将开启「自我迭代」的终极进程。当机器人能够自主设计、改进并制造下一代机器人时,人类作为技术演进瓶颈的角色将彻底消失。这一判断的主张在于:考虑到技术发展的指数性,我们正处于机器人学「文明进化树」解锁的最后一站,这种跨越将比从猫狗识别到 AGI 的进化更加迅速且猛烈。

如果只能记住这场对话的一件事,是什么?

以前机器人需要人类手把手教,以后它们只需盯着人类干活的视频看上几千万个小时,就能学会所有复杂的技能并开始自己制造自己。

Waymo CEO Dmitri Dolgov:自动驾驶的 2000 万次乘车之路

演讲者 Dmitri Dolgov 是 Waymo 联席 CEO,技术派创始人。俄裔美国人,斯坦福大学参加 DARPA Grand Challenge(美国国防部组织的早期自动驾驶挑战赛)的核心成员,2009 年加入 Google 自动驾驶项目,是 Waymo 技术路线的总设计师。在二十年自动驾驶行业起伏中,是少数从第一天坚持到 2000 万次乘车规模的元老。

Waymo 是 Alphabet(Google 母公司)旗下的自动驾驶公司,2009 年作为 Google 秘密项目启动,2016 年独立。是目前全球唯一一家在多个城市大规模无安全员运营 Robotaxi 的公司,已累计完成 2000 万次自动驾驶乘车。技术路线与 Tesla 不同——坚持 LiDAR + 高精地图 + 模块化架构。

自动驾驶行业存在「易学难精」的误区,早期的爆发式增长往往掩盖了长尾挑战的残酷性。许多团队在获得初步技术突破后便陷入乐观,但 Dmitri 认为这种「先甜后苦」的特性使得将技术转化为真正安全、超越人类表现的产品极其困难。这一判断的主张在于:AI 在现实世界落地的真正门槛不在于前 90% 的功能演示,而在于能否在剩下 10% 的复杂长尾场景中保持耐力,这是大多数竞争者消失的根本原因。

在涉及人命的领域,「安全」必须是不可逾越的底层信仰,而非可以权衡的功能选项。全球每 26 秒就有一人死于车祸,这一现状促使 Waymo 将安全视为非谈判性的 Foundation(基础),从架构设计的第一天就融入其中。这主张了一个反直觉的结论:在追求速度和突破的硅谷文化中,只有那些「有耐心」建立极高安全阈值的企业,才能在技术幻灭期存活并最终赢得公众信任。

单纯的端到端学习架构尚不足以支撑极端安全需求,必须引入结构化表示进行「增强」。虽然 Waymo 也使用 E2E(End-to-End,指直接从传感器输入到决策输出的单一模型),但他们额外增加了结构化的中间表示层,以实现运行时的实时验证。这一判断的重要性在于:它打破了「模型越大越好」的盲目崇拜,主张通过架构上的严谨性来确保 AI 决策的可解释性,从而实现超越人类的安全性。

真正的 AI 驾驶系统应是一个集驾驶、模拟与评估于一体的闭环生态。Waymo 的 Foundation Model(基础模型)同时驱动着驾驶员、模拟器和评判员三个核心支柱,使系统能够理解物理世界的动态规律。这主张了一个核心观点:AI 的进化不应只依赖外部路测,而应通过内部的物理模拟实现「自我进化」,在虚拟空间中穷尽所有人类从未见过的极端险境。

AI 能够通过捕捉微弱的物理信号展现出超越人类感知的「预知」能力。Waymo 曾通过 LiDAR(激光雷达,利用激光脉冲探测物体距离的传感器)捕捉到大巴车下方极其微弱的足部反射,从而提前预判并避开了视线外的行人。这一判断反直觉地证明:AI 并非在单纯模仿人类司机的直觉,而是在利用超越人类物理极限的感知维度,构建一种「透视」般的上帝视角来确保安全。

自动驾驶技术已完成「从实验室到基建」的跨越,进入指数级扩张的商业闭环。Waymo 花了 8 年才在 4 个城市提供服务,但最近能在 1 天内上线 4 个新城,且订单量在 7 个月内翻倍,突破了 2000 万次。这意味着技术已经具备了极强的通用性,不再需要针对每个新城市进行漫长的调试,自动驾驶正在像软件更新一样实现跨地域的快速复制。

当「驾驶」任务被 AI 彻底解决后,汽车的竞争终点将是乘客的空间体验。第六代 Waymo 硬件完全围绕乘客体验设计,取消了驾驶员中心的布局,转而打造出带自动滑门的「移动客厅」。这一判断主张了商业逻辑的根本转型:未来的汽车不再是操控工具,而是服务的物理容器,其核心价值将从「如何到达」转向「在路上的时光如何度过」。

AI 带来的社会红利应以挽救生命的「硬指标」作为最终的衡量尺度。数据显示 Waymo 的安全性已比人类高出 13 倍,这意味着规模化运营每 8 天就能在严重事故中多挽救一条生命。这个观点反直觉的地方在于:我们往往关注 AI 带来的便利,但它真正的价值杠杆在于通过超越人类的稳定性,直接对冲掉了人类作为驾驶员时的致命弱点。

如果只能记住这场对话的一件事,是什么?

无人驾驶车现在已经比人开车安全 13 倍了,而且它们正在以飞快的速度进入更多城市,以后开车这件事会彻底变成过去式。

ElevenLabs 创始人:语音成为 AI 的首要接口

ElevenLabs 是全球最受关注的 AI 语音合成公司,由两位波兰人 Mati Staniszewski(前 Palantir 战略)和 Piotr Dabkowski(前 Google 机器学习工程师)于 2022 年创立。创业灵感来自波兰译制片"所有角色都是同一个男声配音"的传统。其声音克隆和情感化语音合成技术目前业内领先,被广泛用于有声书、播客、跨语言翻译。最有名的展示是阿根廷总统米莱跨语言保持同一副声线的视频。截至 2026 年估值约 33 亿美元。

音频曾是长期被忽视的 AI 利基赛道,通过在冷门领域深耕能以较低算力成本实现快速超车。在 2022 年大模型混战时,多数人专注于文本或视觉,而音频对 compute(计算资源)的需求相对较低,允许初创公司独立成长。这一判断的主张在于:创业者不必卷入耗资千亿的算力军备竞赛,只要找准技术门槛尚未被大厂推平的垂直领域,就能通过极高的研发效率建立先发优势。

情绪与非言语细节(如笑声、停顿)是打破「恐怖谷效应」的关键,而非单纯的文字转译。ElevenLabs 通过复刻呼吸频率和自然的笑声,让模型从机械的播报跃迁为具备人性的表达。这一判断的重要性在于:声音的本质是情感载体,单纯复刻音色只能解决「像不像」的问题,只有复刻那些人类无法直觉描述的交互逻辑,才能真正建立机器与人之间的信任。

Agent(智能体)的进化终点是具备「情感理解力」,能根据对方状态实时调整沟通策略。讲者正在研发能识别用户压力并给出 reassuring(安抚性)语气的交互模型,让机器学会匹配对方的语速和情绪。这主张了一个反直觉的转变:语音交互不再是冷冰冰的指令执行,而是一场心理共鸣,这意味着未来的语音 AI 将具备比人类更稳定的同理心来处理极端冲突。

Audio General Intelligence(音频通用人工智能)将消除语音与音乐的鸿沟,实现全模态音频流的无缝切换。理想的模型应当能在一段连续的流中从朗读自然过渡到唱歌,且保持音色和人格的一致性。这主张了一个技术跨越:音频不再是零散的工具库,而是一个统一的创作引擎,这种连续性将彻底改变播客、影视后期以及沉浸式娱乐的制作范式。

语音智能体正从「省钱工具」升级为「赚钱工具」,直接重塑企业的收入增长曲线。Deliveroo 等公司已利用语音 agent 自动联系餐厅并挖掘 inbound(入站,指客户主动拨入)销售电话中的潜在商业机会。这主张:语音 AI 的商业价值不再是替代客服以削减开支,而是通过 24/7 不间断的主动沟通和数据分析,成为驱动业务增长的销售先锋。

语音将成为人类与万物智能连接的「主入口」,尤其是在人形机器人普及的未来。当机器人和各种智能设备环绕人类时,语音是最自然的 instruct(指令)和交互方式。这一判断的重要性在于:语音并非屏幕交互的补充,而是通往复杂智能的真正瓶颈,掌握了语音接口就等于掌握了控制物理世界的终端遥控器。

未来企业的核心效率取决于能否在法律、财务等非技术团队中强制嵌入工程师资源。ElevenLabs 即使只有 400 人也坚持在法务和运营团队安排专职工程师来开发自动化系统。这主张了一个组织变革:在 AI 时代,非技术人员也必须学会 vbe coding(指利用 AI 工具快速编写代码)来解决琐事,而工程师则负责将这些零散的自动化连接成坚固的业务系统。

在 AI 泛滥的未来,身份验证将比内容生成更稀缺,信任将从声音本身转移到安全证书上。当任何人都能完美复刻音色时,我们需要通过 watermark(水印,用于标识内容的隐形标记)机制来证明对面是真的你。这推导出一个反直觉结论:我们不再需要费力区分 AI,而是需要一套「可信 AI」的认证标准,未来最有价值的不再是你的声音,而是你对声音的授权凭证。

如果只能记住这场对话的一件事,是什么?

以后说话的声音真假不再重要,重要的是你能不能证明那个正在打电话定餐厅或开会的 AI 真的代表你本人。

安全前沿

XBOW:自主 AI 黑客的崛起

XBOW 是 AI 网络安全初创公司,开发能自主发现和利用漏洞的 AI Agent。2024 年 8 月,XBOW 的 Agent 在全球最大白帽黑客平台 HackerOne 上登顶排行榜,是 AI 首次在实战中超越顶级人类黑客的标志性事件。其"模型合金"(Alloy)策略——在攻击的每一步交替调用 Claude、Gemini 等不同模型——是该领域的代表性工程实践。

网络安全已从「人的技艺对决」进化为「系统的优化竞赛」,传统防御模式正面临毁灭性打击。1575 年日本织田信长用火枪阵系统性地击败了看似无敌的武士骑兵,正如今天的 AI 系统正在降维打击依赖人类经验的旧防线。这一判断的主张在于:安全竞争的本质已经改变,不再比拼谁拥有更天才的黑客,而看谁能率先将防御体系彻底 AI 自动化。

即使是防守最严密的顶级系统,在廉价且高效的自主 AI 面前也形同虚设。XBOW 的智能体仅凭一个 URL 并在花费 3000 美元成本的情况下,就攻破了微软 Bing 的 RCE(Remote Code Execution,允许在目标系统上运行任意代码的最严重漏洞)。这主张了一个反直觉的真相:即便是被全球黑客锤炼过的「堡垒」,在不知疲倦、能自动进行侦察和优先级排序的 AI 面前,其安全成本已降至冰点。

AI 已经具备了超越全球顶尖人类黑客的实战能力,而非仅仅是辅助工具。在 HackerOne(连接企业与安全研究人员的众测平台)上,XBOW 的机器人完全通过黑盒测试(在不了解内部代码的情况下进行攻击)拿下了全球排名第一。这打破了「机器无法处理复杂创造性攻击」的迷思,证明 AI 已经从「提供建议的助手」进化为能独立交付攻击结果的「自主战士」。

通过「模型合金」策略,AI 能够通过自我修正实现 1+1>2 的进化效果。XBOW 在每一步攻击动作中交替调用 Gemini 和 Sonnet 等不同模型(Alloy 模式),利用模型间的差异来补偿彼此的逻辑错误。这一判断的重要性在于:通往最强黑客 AI 的路径不一定非要等待单个完美模型的出现,通过合理的工程架构让现有模型协同,就能产生远超单一模型的破坏力。

真正的安全威胁源于「可利用的真实冲击」,而非代码审计发现的理论漏洞。传统的白盒测试(在拥有源代码权限下进行的分析)往往只列出大量漏洞,却无法确定它们是否真的能被非法入侵,而自主 AI 能通过实战模拟给出明确的答案。这主张了一个关键转型:防御者必须停止在海量的「虚假漏洞报告」中挣扎,转向关注那些真正能导致服务器被接管的致命点。

漏洞补丁的生存窗口已经彻底闭合,攻击行为正发生在漏洞被公众知晓之前。以前从 CVE(Common Vulnerabilities and Exposures,公开披露的安全漏洞列表)发布到被利用有两年滞后,而今天这个数字已经变成「负数」,即漏洞在被官方确认前就已被 AI 批量利用。这导出了一个紧迫的结论:依赖「等待补丁」的防御策略已经破产,主动式的自动化防御成了唯一的生路。

AI 的崛起并非网络安全行业的终结,而是对其防御价值的极限重塑。面对 AI 驱动的自动攻击,传统的网络安全股票下跌是毫无逻辑的,因为社会现在比任何时候都更需要 AI 驱动的防御手段来抗衡 AI 攻击。这一判断主张:我们正处于一场生存军备竞赛中,唯一的解药就是用更强的 AI 赋能人类研究员,在坏人行动前找出所有裂缝。

全社会仅剩不到一年的时间来修补全球数字基建,否则将面临灾难性的后果。由于 Open-weight models(权重公开、可本地运行的 AI 模型)的进步,最强悍的自主黑客能力将在 6 到 9 个月内被全球普及。这一反直觉的判断是在发出最后的通牒:如果不能在这个极短的窗口期内完成防御自动化,全球互联网系统将在不久后的节假日面临前所未有的安全寒冬。

如果只能记住这场对话的一件事,是什么?

现在的 AI 已经能像世界排名第一的黑客那样自动攻破顶级网站,而且这种能力在不到一年的时间里就会变得随处可见,如果你不赶紧用 AI 来自动修补漏洞,你的系统很快就会被彻底打穿。

算力与硬件的边缘押注

Recursive Intelligence:AI 设计芯片的自动化变革

Recursive Intelligence 是由 Anna Goldie 和 Azalia Mirhoseini 创办的 AI 芯片设计公司。两人此前在 Google Brain 共同发明了 AlphaChip——用强化学习自动设计芯片布局的系统,已应用于谷歌四代 TPU 和 Pixel 手机芯片。她们试图把"AI 设计芯片"这件事变成像 TSMC 开启 fabless 时代那样的产业级变革——提出"Designless"概念,让客户只需提交工作负载需求,平台自动生成可制造的芯片设计。

人类专家已成为芯片迭代的拖累。目前的物理设计和逻辑验证各需耗时一年并动用数千名专家,这种低效直接导致了巨大的商业损失。在 NVIDIA Blackwell 芯片每延迟一天就意味着损失 2.25 亿美元机会成本的当下,依赖人类经验的传统设计模式正成为 AI 进步的最大阻碍。

必须开启 AI 与物理底层的递归进化闭环。通过 AI 优化芯片设计,再用更强的芯片训练更强的模型,将彻底打破软硬件脱节的状态。这种「递归自我改进」判断的主张在于:芯片不应只是静态的燃料,而应成为 AI 进化链条中能够根据软件反馈自动调整的动态执行端。

AI 在复杂布局任务上展现出「超人」能力。Alpha Chip 智能体生成的芯片布局已在多代 TPU 和 Pixel 手机芯片中通过了 Tape-out(指提交给工厂进行实际制造的最终测试)。这一判断打破了「硬件设计需要人类直觉」的迷思,证明强化学习能够比最有经验的工程师更完美地解决数十亿个组件的堆叠难题。

芯片设计工具需要 100,000 倍的提速来喂养 AI。传统商业工具运行一次优化可能耗时数天,这让需要数百万次尝试才能进化的 AI 无法施展。这种量级提速的意义在于:它不仅仅是「变快了」,而是让 AI 能够以前所未有的速度在海量设计空间中进行快速迭代和指数级学习。

高保真的实时反馈是实现自动化设计的引擎。Recursive 研发的 SPA(Static Timing Analysis,用于验证电信号是否准时到达的静态时序分析引擎)比现有工具快 1,000 倍。这种实时反馈信号对强化学习(RL)至关重要,它能让 AI 在优化过程中立即知道每一步改动对性能的影响,从而做出更精准的决策。

芯片行业将迎来「无设计(Designless)」时代。正如 TSMC 开启了「无晶圆厂(Fabless)」时代,未来的平台将允许用户只需输入 workload(工作负载,即模型运行的具体任务需求)就能生成可供制造的设计。这意味着定制芯片将不再是大公司的专利,任何拥有规模化任务的公司都能跳过组建千人专家团队的过程。

在 AGI 规模下,1% 的微小改进具备巨大的商业杠杆效应。随着 frontier model 的算力消耗呈指数级增长,即便是极细微的硬件性能提升也会转化为天文数字般的成本缩减。这种观点反直觉的地方在于:追求极致定制化带来的边际收益,在 AI 时代会被规模效应放大到足以重塑公司竞争力的程度。

最高效的物理设计在人类看来往往是「怪异」的。AI 生成的芯片布局呈现出弯曲且有机的(organic curved)形状,这令习惯了整齐方正设计的传统工程师感到震惊。这主张了一个反直觉结论:人类对规则、对称的美学偏好实际上限制了芯片性能,真正的物理最优解往往存在于超越人类审美直觉的「异形空间」里。

如果只能记住这场对话的一件事,是什么?

以后造芯片不再需要成千上万名专家熬夜画图,只要把你的需求告诉 AI,它就能在几分钟内设计出比人类手画得更高效、更省电的「怪异」电路。

Starcloud:最便宜的算力在太空

Starcloud 是太空数据中心初创公司,主张把 AI 训练和推理算力直接送上轨道——零土地成本、24/7 全天候光照、能量密度是地面 8 倍。已与 NVIDIA 合作研发可在太空运行的 H100 芯片。

地球数据中心正面临土地准入与储能成本带来的经济性瓶颈。在北美,建设地面太阳能项目最大的开支是土地许可费用,其次是为了应对夜间断电而准备的庞大电池组。这一判断揭示了 AI 算力的真正瓶颈并非芯片本身,而是地球环境中昂贵的「物理占位税」和间歇性的能源供应,导致能源成本在地面难以被彻底压低。

太空是唯一能提供零土地成本且 24/7 不间断能源的终极计算场。在太空中,数据中心无需支付土地费用,也不需要昂贵的电池存储,因为处于「永昼」轨道的卫星能时刻捕捉阳光。讲者主张太空并非科学前沿的奢侈品,而是解决 AI 巨大胃口的降本方案,因为太空太阳能电池板的效率是地面的 8 倍。

最先进的民用 GPU 已经证明可以在极端辐射与真空散热环境下稳定运行。Starcloud 1 成功在轨道上运行了 NVIDIA H100 芯片并训练了 nanoGPT(一种小型生成式预训练模型),打破了「太空电子元件必须使用老旧抗辐射芯片」的迷思。这标志着人类首次能将最顶级的 terrestrial(地面等级)算力直接部署在近地轨道,彻底消除了太空计算的技术隔离。

火箭发射成本的指数级下降正迅速把「太空算力」从科幻变为最实惠的现实。当发射成本降至每公斤 500 美元以下时,太空计算的综合成本将低于地面;而 Starship(星舰,SpaceX 的重型运载火箭)的设计目标是每公斤 10 到 20 美元。这一判断的重要性在于:去往太空的「门票」已不再昂贵,这让太空计算不再是卫星专用,而是能承载全球范围的大规模计算任务。

散热而非电力,将成为决定太空数据中心规模的最终物理约束。由于太空是真空环境,热量只能通过红外辐射散发,这需要通过 Stefan-Boltzmann equation(斯特藩-玻尔兹曼定律,描述黑体辐射功率与温度四次方成正比的物理定律)计算出巨大的散热面积。这意味着未来的太空计算架构将由散热器面积定义,而非单纯的能源输入,散热效率直接决定了系统的紧凑程度。

未来的高端 AI 芯片将为了适应太空而牺牲低温稳定,转而追求「耐高温」性能。NVIDIA 正在研发 Space Reuben 1 芯片,旨在不提高故障率的前提下提升运行温度,以大幅减少散热器的质量。这主张了一个反直觉的趋势:为了减轻发射载荷,芯片设计者开始利用物理定律的四次方效应,通过让芯片「发烧」来换取更轻、更高效的卫星架构。

太空星座将成为全球 inference 任务的最高效引擎,而非仅作为数据中转站。Starcloud 计划部署 8.8 万颗卫星构建 20 GW 的算力集群,通过光学链路实现全球低于 50 毫秒的延迟,专门支持代码生成等 agent(智能体)任务。这预示着太空将从「信息的搬运工」进化为「答案的生产者」,直接在距离用户最近的轨道完成智能决策的计算。

向太空大规模迁移算力是人类文明迈向「戴森球」阶段的起跑点。建设 20 GW 规模的太空基础设施不仅是商业布局,更是人类开启 Type 2(二级,指能利用恒星全部能量的文明等级)文明建设的开端。这一判断的主张极其宏大且反直觉:我们正处于人类历史上最大基础设施建设的元年,这标志着人类不再受限于地球资源,转而开始直接收割太阳能。

如果只能记住这场对话的一件事,是什么?

在地球上盖数据中心太贵太费电了,以后我们要把所有的 AI 芯片都送上天,利用太空里 24 小时照个不停的太阳光,造出全世界最便宜的智能。

Flapping Airplanes:数据是 AI 的真实瓶颈

Flapping Airplanes 是一家专注于"数据效率"和"算法-硬件协同优化"的 AI 基础研究公司。核心主张是:现有 AI 模型在结构上极度浪费——人类学会编程只需比当前前沿模型少 10,000–100,000 倍的数据。他们试图绕开 PyTorch 等主流框架的限制,直接接管 GPU 底层逻辑,开发能在"小数据"条件下逼近大模型效果的新范式。公司名"扑翼飞机"暗示了一种隐喻:当年人类执着于模仿鸟类扑翼飞行最终失败,真正起飞的是固定翼飞机——AI 不必照搬大模型的暴力路径。

当前的 AI 繁荣本质上是「富矿效应」,模型只在数据极度充沛的窄域展现了能力。搜索和编程之所以强大,是因为它们消耗了几乎整个互联网和海量的合成数据。这一判断的主张在于:这种「数据贪婪」模式无法复制到更广阔的实体经济中,因为机器人或供应链等领域的可用数据量极度稀缺,AI 必须学会在「贫矿」中生存。

人类的学习效率证明了现有的 AI 模型在结构上存在巨大的资源浪费。人类只需比当前前沿模型少 10,000 到 100,000 倍的数据量,就能掌握同样高超的编程技能。这意味着 data efficiency(数据效率,指用更少数据达到同等智能水平的能力)是完全可行的,目前的 scaling law(规模定律)只是在用海量算力掩盖算法上的低效。

算力(compute)是容易扩张的标准商品,而高质量数据是充满摩擦力的非标资产。购买算力只需支付资金,但获取长尾任务的优质数据却涉及复杂的法规谈判、企业条件约束甚至去搜刮倒闭的实体书店。因此,将数据效率提升 1000 倍的商业价值远大于将算力降价 1000 倍,因为它直接消除了进入现实世界各行各业的「行政门槛」。

数据效率决定了未来 AI 世界的权力结构,是打破技术垄断的唯一武器。如果数据量依然是竞争的护城河,那么 AI 革命将沦为少数几家能垄断海量信息的巨头的游戏。讲者主张通过提升效率让普通公司也能参与竞争,这意味着数据效率不只是技术指标,更是决定 AI 革命是走向「中心化集权」还是「分布式普惠」的哲学开关。

主流软件框架如 PyTorch 正在「戴着镣铐跳舞」,严重限制了硬件性能的释放。PyTorch(一种流行的开源机器学习框架)为了易用性,将极其并行的 GPU(图形处理器)伪装成单线程模型运行,导致许多高效算法无法被表达。这一判断的重要性在于:我们面临的瓶颈往往不是芯片不够快,而是我们与硬件交互的方式过滤掉了最聪明、最节省数据的路径。

寻找 AI 能力的新边疆,必须直接从「硬件原语」层级进行降维打击。通过重新定义硬件交互的 primitives(原语,指构建复杂程序的最小逻辑单位),可以解锁那些在标准框架下运行极其低效的复杂算法。这主张了一个反直觉的路径:想要让 AI 更聪明,你应该去「折磨」硬件,在底层挖掘出被主流系统抛弃的高效潜力。

只有通过系统与算法的「协同优化」,才能实现真正的数据效率飞跃。讲者开发了一套接管整个 GPU 的虚拟架构,用来运行那些在传统逻辑下「异步且低效」的细粒度训练循环。这种深度定制化的意义在于:它打破了软硬件脱节的现状,证明了只有让算法直接长在硬件的最优解上,才能在极少数据的条件下实现智能突变。

AI 进化的终局是从「大数据」驱动转向「精细化」驱动,重塑经济的长尾部分。当 AI 能够不再依赖互联网级的数据规模,它才能真正渗透到那数以万计的、目前缺乏数字化资源的传统工业场景中。这一判断的主张极其宏大:我们必须从追求「规模」转向追求「效率」,因为只有能解决「小数据」难题的 AI,才是真正能改变物理世界的 AGI。

如果只能记住这场对话的一件事,是什么?

现在的 AI 学习效率太低了,只有让 AI 学会像人类一样只看几眼就能掌握新技能,它才能真正进入工厂、医院和我们生活的每一个角落。

Unconventional AI:大脑如何实现 100 万倍能效

Unconventional AI 是 Naveen Rao 创办的非冯·诺依曼架构计算公司。核心主张是:现代 AI 仍跑在 1940 年代为完全不同目的设计的浮点数+冯·诺依曼架构上,导致绝大部分能量损耗在"内存与计算单元间搬运数据"上。他们试图用非线性动力学和振荡器耦合这类模拟物理过程,让计算结果通过物理系统的自然演化"自发涌现"——目标是把能效提升三个数量级,逼近大脑的水平。

AI 发展即将撞上物理世界的「能源墙」,现有的算力扩张模式难以为继。在未来 2 到 4 年内,全球将不再有足够的剩余电力来支撑按当前轨迹增长的 AI 训练和推理需求。这一判断的重要性在于:目前的 scaling law(规模定律)本质上是在用暴力消耗能源来换取智能,如果不改变计算的物理底座,AI 的进步将因为触及能源天花板而被迫停滞。

生物大脑的存在证明了「高能耗」并非智能的必然代价,而是我们设计的缺陷。全球 80 亿人的大脑总功耗仅为 160 吉瓦,而目前的 AI 模型单次推理或训练就可能消耗兆瓦甚至吉瓦级的能量。这主张了一个核心观点:我们对「智能」的实现方式极其低效,生物界已经给出了一个低功耗运行通用智能的「存在性证明」,提示我们必须彻底重构计算逻辑。

我们正试图在已有 80 年历史的陈旧数字化抽象上构建 21 世纪的智能。现代芯片仍依赖 1940 年代为完全不同的目的设计的浮点数和 von Neumann(冯·诺依曼,指存储与计算分离的架构),导致数据在两者间搬运损耗了绝大部分能量。这一判断反直觉地指出:即便强如 GPU 也是在错误的架构上「修修补补」,硬件进化的方向从一开始就偏离了智能处理的本质。

通往 AGI 的真正路径是放弃矩阵数学,转向非线性动力学计算。大脑并不像 GPU 那样计算矩阵,而是通过 nonlinear dynamics(非线性动力学,指系统状态随时间进行复杂且非比例变化的规律)让神经元相互作用。这一判断的主张在于:我们不应再追求每秒执行多少次精确计算,而应让物理系统自发地通过时间演化来收敛出答案,从而实现跨越式的效率提升。

拥抱「噪声」和随机性是实现超低功耗计算的必经之路。数字计算机如果错了一个比特就会系统崩溃,但大脑在 stochastic(随机的,指具有概率性而非确定性的)信号中依然能稳定运行。这主张了一个反直觉的结论:极致的精确性反而成了效率的枷锁,允许系统具备一定的随机性和容错力,才是模拟生物级高效智能的关键。

我们应该利用物理规律的「时间轴」来计算,而不是人为划定主频周期。通过使用可训练耦合的 oscillators(振荡器,指产生周期性重复信号的电路),计算过程变成了物理系统随时间自然沉降到稳态的过程。这一判断的重要性在于:它消除了传统机器在内存和缓存间反复读写的功耗,直接让「物理规律」本身承担了所有的计算任务。

只有实现状态、功能与物理底座的完全重合,才能达到计算效率的极限。在非冯·诺依曼架构的动力系统中,信息存储的地方就是信息被处理的地方,两者在物理上完全一体化。这主张了一个突破性的方向:计算将不再有「内存墙」的限制,这种三位一体的架构有望将计算效率提升三个数量级,从根本上解决 AI 的能源危机。

构建 AGI 的过程也是人类最终理解自身意识本质的过程。当我们能够从第一性原理出发,用合成电路复刻出大脑的非线性动态轨迹时,我们才真正掌握了智能的运行密码。这一判断的主张极其宏大:AGI 不仅是软件的胜利,更是一场硬件的「回归」,让我们能通过亲手建造大脑来真正解开生物智能这一持续了 40 亿年的物理谜题。

如果只能记住这场对话的一件事,是什么?

现在的电脑算东西太费电了,我们得学学人脑的结构,不再让电脑死算数学题,而是让电流在电路里像水流一样自然地跑出答案。

Disclaimer: This article is copyrighted by the original author and does not represent MyToken’s views and positions. If you have any questions regarding content or copyright, please contact us.(www.mytokencap.com)contact
More exciting content is available on
X(https://x.com/MyTokencap)
or join the community to learn more:MyToken-English Telegram Group
https://t.me/mytokenGroup