三年之后:回看 2023 年我对 ChatGPT 的判断

Favoritecollect
Shareshare

作者: 王健硕

2023 年 3 月 6 日,ChatGPT 刚出来不久,GPT-4 还没发布,我和 Sarah 做了一场关于 ChatGPT 的访谈——Traders' Talk「大白话系列」的第三期( 大白话聊 ChatGPT 播客发布了,欢迎收听)

那时候 ChatGPT 才出来没多久,真正上手用的人还非常少,这场长达三个小时的访谈,后来一直挂在小宇宙 ChatGPT 类目的第一名。我在里面一口气抛出了二十来个判断和预测,全凭直觉和有限的信息,没什么数据。当时那场访谈的完整逐字稿,还留在公众号上。

现在是 2026 年 5 月底,三年过去了,AI 已经长成了当年想象不到的样子。

我想做一件事:把当年那二十条逐条拎出来,用今天能查到的最新数据,客观地对一次账。看清楚三年里世界到底变成了什么样,也看清楚三年前那个我,哪些地方看准了,哪些地方看偏了。

为了尽量不偏不向,这次对账我索性交给了 AI 来做:把当年的访谈逐字稿丢进一个 workflow,由它调度 41 个 Opus 4.8 的 agent ,先把二十条判断逐条拆开,再各自联网检索最新数据、一条条交叉求证,最后给三年前的王建硕打分。这群 agent 花了大约 20 分钟、烧掉 140 万 token(约等于 35 美元),跑出了下面这份报告。判断都来自它们,不是我。基准日定在 2026 年 5 月。

裁决符号:✅ 正确 · ? 基本正确 · ? 部分正确 · ❌ 错误

粗看下来,王建硕当年的大方向大多站住了,真正算硬错的只有一条——把 GPT-4 传成了 100T 参数。 但魔鬼藏在细节里 :几乎每条「对」的背后,都压着一截当年没说准的尾巴。二十条里没有一条纯粹「仍不确定」,三年足够长,多数事情都有了倾向性答案。下面分组细说。

这一组的共同点是:王建硕当年判断的方向、机制、甚至时间节奏都押中了,错也只错在「程度」和「绝对化措辞」。

RAG 与检索架构(观点 2、3)

> 2023 年王建硕说:解决知识和幻觉的主流方法不是改模型,而是向量检索把知识灌进去当「小抄」;正确架构是搜索引擎做检索、把结果喂给 LLM。

这就是今天所有 AI 产品的事实标准。RAG 成了企业 AI 的默认架构,OpenAI、Google、Anthropic 都把它做成了平台级能力;ChatGPT Search 字面意义上就是「先用 Bing 索引检索、把结果喂给 GPT、再生成带引用的答案」。Google AI Overviews 用 grounding 做到约 20 亿月活,Perplexity 一家纯靠这架构的公司估值冲到约 200 亿美元。

在 GPT-4 还没发布、业界默认「靠微调注入知识」的时候,他押的是「不动模型参数、外挂检索」,机制和时间都对了。

需要诚实的是:他设想的是「静态一次性检索」,而现实更复杂——长上下文、 GraphRAG 、agentic retrieval 都来补强。2026 年那场「RAG 已死」的争论,恰恰证明大方向没死,它否定的只是「朴素一次性检索」,结论是升级成混合检索,而不是退回去改模型参数。还有一点:RAG 这个术语 2020 年 Meta 那篇论文就提出来了,并非他首创——他只是在窗口期押中了它会成主流。

LUI 是新大陆(观点 7)

> 2023 年王建硕说:ChatGPT 最伟大之处不是 AIGC,而是开启了 LUI(自然语言用户界面),会像 GUI 当年一样重构人机交互,催生一个比「做大模型」本身大得多的新行业。

「新大陆」这部分几乎全中。自然语言成了大众主导的交互层(ChatGPT 九亿周活),并催生了一个独立新产业——agent、coding agent、协议层全部兑现。最具体的那句「比做模型本身大得多」被强力印证:MCP 协议成了 LUI 时代的「操作系统标准」,2025 年被 OpenAI、Google、微软全面采纳,年底转入 Linux 基金会;Claude Code 单一产品就做到约 25 亿美元年化营收。

但他用了「重构、取代 GUI」这种强措辞,三年后看是 叠加共存,而不是取代 。三类反例很硬:MIT 报告显示 95% 的企业 GenAI 试点没有可衡量的 ROI;直接操作界面的 computer-use agent 在测试集上顶级模型才约 78%,刚摸到人类基线;纯去掉屏幕的语言硬件几乎全军覆没(Humane Pin 2025 年永久停服)。更准的说法是:LUI 是叠加在 GUI 之上的新交互层。

机器人网络与新寻址(观点 9)

> 2023 年王建硕说:未来约十年会出现「机器人网络」——agent 之间用自然语言自动握手、互相调用,不再需要传统 API;会诞生一套全新的域名寻址系统。这套东西「两三年就能做完」。

方向命中得惊人。MCP、A2A(已捐给 Linux 基金会、150 多家组织支持)解决 agent 互调;Agent Network Protocol 直接基于 W3C 的 DID 做「无中心权威的 agent 寻址」,目标是「数十亿 agent 协作网络」——这跟他说的「全新域名系统」高度同构。

两处要修正:一是「不再需要 API」不成立,主流协议底层是结构化 schema,本质是在 API 之上叠一层标准;二是「两三年做完」没兑现,Gartner 数据显示截至 2026 年仅约 17% 组织真正部署了 agent。有意思的是,他当年其实把话分了层——雏形「两三年」、成熟「约十年」。 雏形的节奏命中得很准,成熟周期也确实是十年级 。把两层分开看,这条的质量比看上去高。

中国一定能做出可用大模型(观点 10、20)

> 2023 年王建硕说:中国一定能做出可用的大模型,与顶尖的差距会在约三年内迅速弥合(类比红旗浏览器追 Netscape)。

这条的时间线吻合得让人意外。Stanford 2026 AI Index 实测,顶尖中美模型的基准差距从 2023 年 5 月的 17.5–31.6 个百分点,收窄到了 2.7% ;而美国的私人 AI 投资是中国的约 23 倍——用小得多的投入实现了弥合。DeepSeek、Qwen、Kimi、GLM 成了全球主流,开源生态甚至领先。

但「迅速」二字偏乐观——真正成熟发生在约 14 个月后,而非「几个月」。而且这是追平可用性、不是定义前沿:截至 2026 年初仍无中国模型超过 OpenAI o3。观点 20 里他错得明显:「门打开了就不会关上」的判断,被 OpenAI 在 2024 年 7 月主动切断对华 API 直接推翻,门是被供方关上的;他点名领跑的文心一言反而掉队,真正接棒的是当年还不起眼的 DeepSeek、豆包、千问。

没意识、图灵测试只测表象(观点 13)

> 2023 年王建硕说:ChatGPT 没有意识,是「说者无意、听者有心」的自作多情;图灵测试本就只测「是否让你以为它有」,而非它真有。

「测表象」这个核心判断站得很稳,还被一个实验反讽式地坐实了:2025 年 UC San Diego 的图灵测试里,GPT-4.5 在「扮演人设」的提示下被判为人类的比例高达 73%,比真人还高,但靠的纯是表演技巧——这正是「只测是否让你以为它有」的最佳注脚。

要补的是:「机器一定没有意识」这个 绝对化的强论断,三年里被推进了灰区 。Anthropic 设了「 模型福祉 」研究岗,给出约 15%–20% 的意识概率,还给 Claude 加了「主动结束被滥用对话」的功能。这些把「绝无」变成了「低概率但不可排除」。不过都基于「可能、应假设」而非「已证实」,内核没被推翻,只是当年语气下得太满。

其余看对的(观点 6、11、12、16、18、19)

GPT-4 是 100T 参数(观点 4)——彻底错

> 2023 年王建硕说:(传闻)GPT-4 是 100T 参数,比 GPT-3 的 175B 大约 600 倍。

两个数字都错了。GPT-3 是 175B,2023 年 7 月泄露的最佳估计是 GPT-4 约 1.8T、16 专家的 MoE,仅约 10 倍 。100T 和实际差了约 55 倍量级。「100T」的唯一源头,是 Cerebras CEO 2021 年一句「大约」的二手转述,Sam Altman 早在 2023 年 1 月就当面斥那张对比图是「complete bullshit」。

他原话标了「传闻」,保留了不确定性。更深一层,「用参数倍数衡量代际」这框架本身就过时了:OpenAI 后来的 GPT-4.5、GPT-5 干脆不再公开参数量。这是唯一一条数字错、视角也过时的硬错。

LLM 数学(观点 1)——诊断对,封顶结论错

> 2023 年王建硕说:LLM 数学差是本质,让它自己学会数学既不可能也没必要,正确做法是外挂工具。

「诊断加工具路线」全对——根因正是逐 token 生成导致进位不可靠(2025 年机制论文精确证实了「末位常对、中间位错」的直觉);外挂工具的提升也巨大(o4-mini 允许用 Python 时,AIME 2025 达 99.5%)。

错在「不可能、没必要」这种封顶式措辞。「不可能」被证伪——2025 年 7 月 Gemini Deep Think 和 OpenAI 模型在 IMO 用纯自然语言、无工具拿到金牌。关键转折是 2024–2025 才出现的「推理模型」,这在 2023 年 3 月无法预见——所以对这条预测应宽容评判方向,而非苛责时点。

价值捕获(观点 8)——赌对一半,核心论断反了

> 2023 年王建硕说:价值最终会落在应用层,开创基础层的公司(做模型者)结局未必赚钱。

钱确实开始往应用层流(Cursor 三年做到 20 亿年化营收)——这半对了。但「做基础层的不赚钱」被 英伟达直接证伪 :FY2026 净利约 1200 亿美元、市值 5 万亿+,是全市场唯一明确大额盈利者。而被他暗示会赢的模型层(OpenAI 2026 年预亏约 140 亿)反而最像他说的「烧钱不赚钱的基础层」。

他没区分「算力基础层」和「模型基础层」,也没区分「营收」和「利润」。价值在 2026 年比 2023 年更极端地被算力层捕获,而不是向应用层转移。要补一句:赔钱的是买芯片的云厂,不是卖芯片的英伟达——这恰是他那个「铁路过度建设」类比的错位之处。

版权(观点 14)——登记对,规避侵权错

> 2023 年王建硕说:AI 生成内容可能规避版权(保护表达不保护思想);生成物可能既不侵权、也无法登记。

「无法登记」成了既定法律事实(2025 年美国版权局明确「仅输入提示词不足以主张作者身份」)。但「规避侵权」错得明显:法院反复认定 AI 输出若与原作实质性相似仍构成侵权;Anthropic 因盗版语料以 15 亿美元 和解,是美国史上最大版权赔偿。AI 不仅没「规避」版权,反而付出了史上最大的代价。

世界大同(观点 15)——机制对,趋势赌反了

> 2023 年王建硕说:ChatGPT 把人类观点做「加权平均」,可对抗抖音式信息茧房,给了「世界大同」的可能。

机制层对了——2025 年多项研究确凿证实 LLM 把观点压向众数、系统性低估少数派。但社会判断层赌反了:他自己加的「至少现在不是千人千面」,三年内就被推翻——OpenAI 从 2025 年 4 月起把跨对话记忆和个性化做成默认能力, AI 正高速走向千人千面 。更关键的是,他把「加权平均」想象成中立的世界公约数,但实测它是带方向的偏移,还叠加谄媚,可以被用来主动操纵立场——这指向「制造新茧房」,而非「消解极化」。

局部战争与成本(观点 17)——定性全中,定量证伪

> 2023 年王建硕说:再做大模型会迅速沦为「局部战争」,成本可知(去掉弯路约 5-10 亿美金封顶),会有很多玩家进入。

定性方向对得惊人——大量玩家涌入、迅速商品化、开源追平闭源,全兑现了。但「5-10 亿封顶」这硬数字两端都错:前沿端被严重低估(GPT-5 级 2026 年达 2-5 亿美金训练,叠加千亿级数据中心和 5000 亿的 Stargate);复刻端又被高估(DeepSeek 把边际训练成本压到百万美金级)。同一个模型的「成本」按口径能差 200 倍,唯独不在他给的那个区间里。

涌现能力(观点 5)——方向对,数字和框定错

> 2023 年王建硕说:约 60B 参数以上出现原始语料里没有、研究者也无法解释的新能力。

方向性直觉成立,但两处表述站不住:其一,不存在统一的「60B 阈值」——思维链的真实门槛约 100B,不同能力在 13B 到 540B 不等的规模上出现;其二,「无法解释」在 2023 年底就被一篇 NeurIPS 杰出论文挑战——很多「突变」是评测指标选择造成的假象,换连续指标后曲线平滑可预测。公平地说,当年他复述的是绝对主流的叙事,真正可纠正的是把「60B」当硬阈值、把「无法解释」当定性结论。

逐条对完账,退后一步看,王建硕这二十条判断里藏着几条比任何单条都更值得记下来的规律。

一、方向远比数字和程度靠谱。 二十条里,凡是判断机制和方向的(RAG、LUI、机器人网络、图灵测试),几乎全中;凡是给了具体数字或封顶措辞的(100T 参数、60B 阈值、5-10 亿成本、数学「不可能」),几乎全错。对快速变化的领域,押方向、押机制,少押精确数字,更要警惕「不可能、一定、封顶、绝无」这类把话说满的词——它们是被时间打脸的高发区。

二、时间上,他倾向于高估速度、低估程度。 凡是说「迅速、两三年做完」的,成熟期普遍更慢;但对能力跃迁的天花板又低估了——数学能从「不可能」到 IMO 金牌,前沿成本能涨到当年想象不到的量级。一句话:短期太乐观,长期太保守。

三、最隐蔽的错,反复出在「分布」上。 不是方向错,而是只看总量、忽略分布。「不会失业潮」对,但伤害高度集中在年轻新人;「价值落应用层」对了一半,但没区分算力层和模型层。 总量正确,掩盖了分布灾难 ——这是最该补的一课。

四、把话留有余地的地方,三年后都经得起检验。 「传闻」「至少现在」「大幅降低而非消除」「雏形两三年、成熟约十年」——凡是当年带了限定词、分了层次的判断,今天回看都更站得住。反而是脱口而出的绝对句,最容易翻车。预测的诚实,一半在于敢说,另一半在于敢标注自己的不确定。

五、有些问题,三年根本不够。 价值最终归谁、涌现是不是真相变、机器到底有没有一丝意识、长上下文会不会吃掉 RAG——这些当年的争论,到 2026 年依然是争论。能区分「已经有答案的」和「还得继续等的」,比急着给每件事下结论更重要。

三年前的王建硕,凭直觉在 GPT-4 还没出来的迷雾里指了二十个方向。今天对完账,最该记住的一句话或许是:看对大方向其实没那么难,难的是承认自己在数字、速度和分布上一次次想当然。这二十条账,与其说是给过去打分,不如说是给未来三年立的几条规矩。下一个三年,2029 年再来对一次。

Disclaimer: This article is copyrighted by the original author and does not represent MyToken’s views and positions. If you have any questions regarding content or copyright, please contact us.(www.mytokencap.com)contact
More exciting content is available on
X(https://x.com/MyTokencap)
or join the community to learn more:MyToken-English Telegram Group
https://t.me/mytokenGroup