被神话的GPT 造不出你的梦中神车
ChatGPT爆火之后,AI大模型成为众多科技公司追逐的热点。从聊天对话,到图像生成,再到桌面办公,仿佛AI在一夜之间具备了颠覆一切的神力。
热潮蔓延至汽车行业,从业者开始思考:让GPT造车,是否可行?
有车企宣布将应用大模型技术,也有车企称要接入第三方大模型,还有车企抢着发布了带有GPT字眼的自动驾驶系统。
有从业者对深途说,智能座舱和自动驾驶,或将是大模型最先应用的场景。这其中,尤以自动驾驶最让人期待。
自动驾驶是一个难度极高的赛道。除了谷歌、百度等科技巨头,一大批天才创业者投身其中,烧掉数十亿美金,至今也没达到让人满意的效果。
AI大模型杀入自动驾驶,这次会不一样吗?
GPT跟汽车,有几毛钱关系?
GPT跟汽车,表面看无直接关联,实则渊源很深。故事得从六年前说起。
2017年6月,特斯拉的老板马斯克,从OpenAI挖走了一个斯洛伐克籍的研究员。这个人叫Andrej Karpathy,他后来成为特斯拉的AI总监。
当时马斯克对人工智能表现出极大兴趣,他也是OpenAI的捐资创办人之一。把Andrej Karpathy招致麾下不久,马斯克离开OpenAI董事会,他认为特斯拉和OpenAI都在研究AI,未来可能发生利益冲突。
后来,Andrej Karpathy在特斯拉重写了自动驾驶算法,开发出BEV纯视觉感知技术,让特斯拉自动驾驶进入新阶段。而他的前东家OpenAI,则将全部筹码押注在通用人工智能,最终研发出GPT。
从产品角度看,OpenAI的GPT和特斯拉的BEV,是完全不同的物种。但从技术底层来看,它们都依托人工智能技术,尤其是对谷歌Transformer模型进行了应用。
Transformer是一种深度学习的神经网络架构,由谷歌的8位AI科学家在2017年提出。这是人工智能行业极其重要的一项发明,今天大火的ChatGPT中的“T”,就是指Transformer大模型。
与传统神经网络RNN和CNN不同,Transformer通过自我注意力机制,去挖掘序列中不同元素的联系及相关性,具有很好的时序数据处理能力。这让它在机器翻译、文本摘要、问答系统等任务上,展现出突出的性能。
因此Transformer一开始被人们用在NLP(高级自然语言处理)领域,用于理解人类的文本和语言。
在Transformer模型上进行预训练,经过不断的微调、迭代,OpenAI相继推出了GPT-1、GPT-2、GPT-3、GPT-4等语言训练大模型。ChatGPT是OpenAI对GPT-3模型微调后开发出来的对话机器人。由于它能以对话的方式进行交互,普通人很好上手,且比过去的聊天机器人显得更“聪明”,因此大放异彩。
从根本上,ChatGPT的GPT模型、谷歌的LaMDA大模型,以及百度的文心大模型,同宗同源。
将Transformer模型用于自然语言,诞生了ChatGPT这样的聊天应用;将它用在计算机视觉,同样取得了惊人的效果,这方面的先行者是特斯拉。
Andrej Karpathy在担任特斯拉AI总监期间,负责领导自动驾驶的计算机视觉团队,通过结合Transformer模型,特斯拉成功开发出BEV技术。
BEV全称是Bird's Eye View,即鸟瞰图。它可以将摄像头拍摄的2D图像拼接转化为3D图像,统一转换到俯视角度下进行处理,形成“上帝视角”。这么做的原因是:开车是在三维空间中进行的,人看到的是立体的世界,而不是2D的图像。
这项全新的感知方案,在2021年8月的特斯拉AI DAY上由Andrej Karpathy对外展示。为此特斯拉不惜重写了自动驾驶算法,对训练深度神经网络的基础设施进行了重构。
这是大模型技术首次被应用到自动驾驶行业。
今天回过头来看,虽然GPT目前主要应用在自然语言处理领域,我们并不能让GPT去驾驶一辆汽车,但它背后的AI大模型技术,尤其是Transformer架构,实际上早就已经在自动驾驶领域应用了。
从自然语言处理到计算机视觉,两个领域基于Transformer架构在建模结构上实现了统一,使联合建模更加容易。
而随着对AI的理解加深,汽车公司越来越像人工智能公司。除了特斯拉,理想汽车在今年初公布公司愿景,声称要在2030年成为一家人工智能企业。它将在今年推出的城市NOA导航辅助驾驶系统,技术支撑就是BEV感知和Transformer模型。
让AI跟人对话,与让AI驾驶一辆汽车,似乎本质上并无区别,只是二者落地场景不同。在将底层技术应用到具体产品这件事上,人类永远充满想象力。
GPT教会自动驾驶的那些事
今年以来,GPT展现出来的强大能力,让外界大受震撼。通用人工智能不再是空中楼阁。自动驾驶行业的人开始思考,或许生成式AI在语言模型上的应用思路,可以迁移到自动驾驶上。
本质上,语言模型是对人类的语言建立的数学模型。计算机还是不懂自然语言,但它通过数学建模,把语言问题变成了数学问题。通过给定的文本的历史,预测下一个词出现的概率,间接地理解了自然语言。
换到驾驶场景,如果给定当前的交通环境,给定一个导航地图,以及一个驾驶员驾驶行为的历史,那么,大模型是不是可以预测下一个驾驶动作?
地平线创始人余凯在今年4月举办的电动汽车百人会论坛上说,ChatGPT给他很大启发,“我们要继续用大数据、更大的数据、更大的模型,并且无监督地去学习人类驾驶的尝试,就像你从大量的、无监督的、没有标注的自然文本里去学习一样”。他认为,每个驾驶员驾驶控制的序列,就像我们的自然语言文本一样。下一步,他想构建一个回归自动驾驶的大语言模型。
理论上,这个思路是可行的。人工智能已经具备学习能力。根据自适应的语言模型,机器会根据用户的反馈不断迭代优化,学习用户的习惯,然后改进模型。现在的ChatGPT就运用了这项技术。那么,让机器学习司机的驾驶习惯,就不是一件很难的事情。
特斯拉的影子模式,就是把真人司机的驾驶数据,投喂给机器学习。通过比对人类驾驶员行为,来达到训练算法的目的。
GPT掀起新一轮AI热潮后,对行业造成的一个认知冲击是,通过把模型的参数规模不断变大,数据量指数型增加,也就是所谓的大模型,在达到某个临界点后,模型会突然变得很聪明。
过去,模型在训练阶段需要的数据,是经过人工标注的。以自动驾驶为例,数据标注员通过大量的图片标注,告诉机器什么是猫,什么是狗,猫和狗各有多少种类。标注员就像是机器的老师,一遍一遍教会它认识这个世界。
问题是,老师没教过的东西,机器还是不会。典型的是特斯拉曾多次发生自动驾驶事故,车辆撞上侧翻的大卡车,因为机器识别不了。
和高资本创始合伙人何宇华对深途举过这样一个例子:广州的夏季雨天频繁,在一些灯光比较昏暗的场景下,空中会有大量的飞虫。当汽车驶过时,灯光打过去,可能会有数以千计的飞虫撞向车头。在这种情况下,汽车的自动驾驶感知系统,可能会误认为是一堵墙。
自动驾驶系统不能穷尽所有的corner case(极端场景),是其发展路上的一大难关。
ChatGPT抓取的是全网未标记的数据。在自监督学习中,数据本身被用作监督信号,而不是依赖于人工标记的标签。有一天人们发现,大模型在消化这些数据的过程中,突然具备了举一反三的能力。
那么,如果自动驾驶大模型也能无监督地学习人类驾驶行为,不需要“老师”手把手地教,是不是意味着,系统摇身一变,成了“老司机”?
GPT“开车”,还不靠谱
梦想很美好,实现梦想的路总是很骨感。
类似ChatGPT的AI大模型要在自动驾驶领域发挥威力,目前来看至少有如下几个问题需要解决。
首先是数据来源。
ChatGPT的数据来源非常丰富,包括维基百科、书籍、新闻文章、科学期刊等等,相当于全网公开数据都是它的养料。
自动驾驶不同。驾驶员的驾驶数据、车辆行驶数据不公开,很多还涉及隐私。汽车厂商、自动驾驶公司各自为政,数据封闭不流通,这让获取数据变得困难。没有数据,自动驾驶就是无源之水。
联想创投总裁贺志强对深途说,自动驾驶的核心是要有数据,数据对训练模型非常重要。比亚迪这样的主机厂有数据,但算法还需要打磨,“蔚小理”等造车新势力擅长算法,但车的销量还不够。既有数据也有算法的公司,才能充分用好大模型。
其次是系统的计算部署方式有限制。
余凯认为,OpenAI、ChatGPT是在云端的计算,在云端有充分的能量供给、电源供给,同时有非常好的系统,可是如果在车上依赖的是电池,依赖的是车端的散热,那么这个挑战是很大的,意味着自动驾驶不能用那么大的模型、那么大的计算。
大模型对算力的消耗,导致云计算厂商成为这波AI热潮中第一批吃到红利的玩家。大厂开卷云计算,也是为大模型开路。但是在车端,这会是一个矛盾。
更大的问题是,大模型的可靠性尚未验证。
使用过ChatGPT的人知道,ChatGPT有时候会胡说八道,时对时错。这在业内被称为幻觉(hallucination)倾向,即产生完全没有出处的非真实内容。大模型会编造内容,而不在意内容的真实性和准确性。
聊天可以胡说八道,自动驾驶不可以。任何一次错误的输出,导致的结果都可能是致命的。
“ChatGPT取得巨大进展,但自动驾驶迟迟没有到来,因为自动驾驶特别是无人驾驶,可能容错率就是零,那是人命关天的事情。”余凯说。
曾在硅谷某AI创业公司担任COO的龙志勇认为,不可控、不可预测和不可靠,是大模型商业化最大的威胁。典型表现是大模型有幻觉倾向。
现在,要让自动驾驶系统学会选择和辨别,并稳定地输出最优解,还不太现实。
一家人工智能公司的内部人士对深途说:“视觉感知在算法层面的确有不少突破。但车这种场景,要求太高了,我个人不觉得短期能有大的突破。可以关注一下特斯拉的动向。”
然而最近科技圈有一股风气,大大小小的公司,都要蹭一把GPT的热点。有一些汽车厂商,宣布即将应用类似GPT的技术,一堆炫酷的概念让人傻傻分不清楚。
比如某传统车企旗下的自动驾驶公司,就发布了一个自动驾驶生成式大模型,要用这个模型来训练自动驾驶,号称“行业首例”。
一位长期关注智能汽车赛道的投资人,询问一位行业大佬怎么看该模型,对方就回了四个字:“TM扯淡。”
“完全就是一个PR行为。”这位投资人对深途评价。
自动驾驶,会被推倒重来吗?
在特斯拉的带动下,再叠加今年兴起的AI浪潮,自动驾驶行业逐渐向大模型、大算力、大数据方向不断靠近。
大模型对自动驾驶的影响,目前还不够剧烈,但嗅觉敏锐的人已经呈现出一种矛盾心态。
就像当年特斯拉利用Transformer将多摄像机数据从图像空间转化为BEV空间,为此不惜将原有架构推翻,重写算法。现在大模型的应用,也可能意味着原有自动驾驶算法,会被推倒重来。
贺志强认为,大模型会对自动驾驶有巨大影响。以前自动驾驶用到很多小模型,现在变成大模型,可能需要重新来一遍。自动驾驶行业会重新洗牌。
一家AI芯片公司的自动驾驶总监赵东翔对深途说,整体端到端更改,等于重新做。
洗牌对新入局者是机会,对领先者是威胁。弯道超车的故事,往往发生在技术急速变革时期。在技术一日千里的时代,在旧路线投入越多,沉没成本可能越大,转身越困难。对于整车厂或自动驾驶公司而言,要拥抱一项新技术,不仅要考虑效果,还要考虑成本。
赵东翔表示,就当前阶段而言,自动驾驶变换技术路线没意义,“现在行业技术能力也不差,大家花那么多钱做了那么久,没有大幅度提高的话没有换的动力。”
在去年底的AI DAY上,特斯拉将BEV升级到占用网络(occupancy network),泛化能力得到进一步提升。通过占用网络,特斯拉的自动驾驶感知系统可以不需要知道看到的物体是什么,就可以判断是否需要躲避,由此解决了更多长尾问题。
不论何种技术路线,现在都处于快速变化迭代中。过去的小模型可能会被大模型替代,今天的大模型也可能在未来被某种新物种替代。
但不管怎样,蹭热点、制造噱头的做法,是无益于技术进步的。“蹭热度是陋习,踏踏实实做产品才有用。”赵东翔说。
自动驾驶真正的“王炸”,还远没有到来。我们需要做的,是对每一轮技术变革保持敬畏之心。被神话的GPT,造不出你的梦中神车,但至少,变化已经发生了。
Analog Mainnet Goes Live for Multi-Chain Development
Analog mainnet has been launched after the success of Analog testnet during which the website got 12...
Best New Meme Coins with 1000X Potential: Investors Rush to Claim BTFD’s Limited-Time Festive Deal While BONK and Dogwifhat Keep Traders Guessing
Discover why BTFD Coin's 50% festive bonus is the ultimate chance for gains, as BONK's burn campaign...
What are the differences between snooker and billiards?
Snooker and billiards differ in table size, objectives, and gameplay. Snooker features larger tables...