正文

a16z：生成式 AI 与游戏领域结合的市场生态概述

金色-比推 Bitpush News2022-12-25 03:01:00

本文将介绍 a16z 在该赛道的投资布局。

A16Z 最近写了一篇很有意思的文章，谈到他们认为的生成式 AI 和游戏结合在一起的机会在哪，笔者翻译后对部分内容进行了注解。文章第一部分已经发出，见：《a16z：生成式 AI 在游戏领域的观察与预测》，本篇为第二部分，包括 A16Z 对游戏 + 生成式 AI 领域的市场生态的判断（请注意：这些大部分都是 A16Z 的 Portofolio，请大家本着客观理性的态度阅读）。

市场生态概述

下图为整体的市场生态情况，描述了 A16Z 在各个类别中发现的创业公司，在这些具体的项目中，我们看发现了生成式人工智能（AIGC）对游戏的影响，本篇会对每个类别中最有特点的公司和机会进行介绍。

用文本生成平面图像（2D Images）

从文本提示中生成 2D 图像，已生成式人工智能最为广泛的应用领域之一。诸如 Midjourney、Stable Diffusion 和 Dall-E 2 这样的工具，直接可以将文本描述生成高质量的二维图像，并且它们用在了游戏开发和制作的整个生命周期的多个阶段。

概念艺术（Concept Art）

（注释：概念艺术也可以称为初步设计，通常在影视或者游戏行业中有这个专业设计概念。总的来说，指的是为产品的视觉效果定出一个基调，应该说是一个游戏或影片的最初的核心工作内容之一。通过全新的设计思路和方向（包括造型、精神、概念等），对过去的方式进行革新甚至是颠覆，创造出全新的造型角色或者概念。和插画有什么区别？插画家与游戏的关系更多的是帮其绘制海报、包装封面等。而与影视、游戏开发的工作真正紧密相关的 2D 艺术工作之一就是我们所说的 Concept Art。和漫画有什么区别？Concept Art 跟漫画有很大区别，漫画（manga）是日本一个独立的体系，更多服务于热门的轻小说的视觉化。而概念艺术则是服务于游戏，动画（animation），在风格上表现形式上不受限制，创造出一些超前的，或者是完整的一套设定显得极为重要。和原画有什么区别？Concept Art 几乎包括所有的角色，场景塑造，跟原画师不同的地方是，概念设计师必须要主动产出一些更有趣的设计。

Concept Art 区别于原画师，在游戏，动画项目中扮演一个仅次于主策划的一个美术向的决策地位，决定这个项目的风格和受众，因此一个以概念艺术家为目标的画师，被一种画风禁锢是不称职的。）

生成式人工智能工具，在帮助像游戏设计师这样的角色进行游戏概念探索与灵感启发都比较有用处。这也是生产过程的一个关键环节，例如，某个游戏工作室正在使用上述工具， 从根本上加快了他们的概念艺术的开发流程 ，因为他们只用了一天时间就创造出了一个图像，而在以前，这个过程需要长达 3 周的时间，但是具体怎么操作呢？

首先，游戏设计师使用 Midjourney 来探索不同的灵感，并生成他们认为合适的概念图像。之后，图像会被交给专业的概念艺术家，艺术家可以把这些图像组合在一起，然后创建一个相关主题的连贯图像，然后将这些图片输入 Stable Diffusion，以形成系列的图像变化。

大家会共同讨论这些风格各异的图像风格，然后确定一个，用画笔手动编辑，然后继续重复以上过程，直到大家对作品结果感到满意。在这个阶段，再把这个图像最后上传给 Stable Diffusion，创造出最后的艺术作品。

2D Production Art

还有的游戏工作室在尝试使用类似的人工智能工具来制作游戏中的美术作品。例如，下图是来自 Albert Bozesan，关于如何使用 Stable Diffusion 来创建游戏中的 2D 资产的教程。

3D Artwork

3D 立体模块，是目前所有现代游戏以及即将到来元宇宙的重要构建源。虚拟世界和游戏关卡，本质上都是一个 3D 资产的集合，通过不同的组合和放置方法，修改不同的参数来填充游戏环境。而创建 3D 元素比创建 2D 平面图更为复杂，涉及多个步骤，包括需要制作 3D 模型、添加纹理和效果。而对于动画人物来说，还涉及到需要创建一个内部「轮廓」，然后在轮廓之上创建动画。

我们发现有不同的初创公司，在寻找有关 3D 资产创建过程的各个阶段的机会，包括模型创建、角色动画和关卡制作等等。然而，这部分的业务和创新尚在探索中。

三维资产（3D assets）

试图往创建 3D 模型方向发展的初创公司包括 Kaedim、Mirage 和 Hypothetic。大公司也在关注这个问题，包括 Nvidia 的 Get3D 和 Autodesk 的 ClipForge。Kaedim 和 Get3d 专注于图像到 3D 模型的转换；ClipForge 和 Mirage 专注于文本到 3D 转换，而 Hypothetic 公司对文本到 3D 搜索以及图像到 3D 都感兴趣。

Kaedim 公司：总部在伦敦，主要是通过 2D 图像生成 3 维模型。

三维纹理（3D Textures）

如果在游戏中，三维模型能够用在基于网格的纹理或材料上，能够显得更加真实。例如，一个中世纪的城堡模型上使用不同类型的、带有青苔的风化石，可以完全改变一个场景的外观塑造。这里所说的纹理，包含关于光对材料的反应的元数据（即粗糙度、光泽度等），艺术家可以根据文本或图像提示轻松生成纹理，对于提高创作过程中的迭代速度是非常有价值的，像 BariumAI、Ponzu 和 ArmorLab 这样的公司正在在这个领域努力。

动画

优秀动画的制作，是游戏创作过程中最耗时、最昂贵和最有技巧的部分之一，降低成本和创造更为真实的动画的方法之一，是运用动作捕捉，即给演员或舞者穿上动作捕捉服，用专门的设备，记录他们的动作。

我们发现，当前的生成式人工智能，可以直接从视频中捕捉动画。这就更高效了，因为这样就不需要成本高昂的的动作捕捉设备，也意味着我们可以从现有视频中捕捉动画。

人工智能模型的另一个令人兴奋的点在于，可以用于过滤现有动画，加上新的特效，例如让动画人物一键看起来喝醉了，或者老了，或者高兴。这一领域的公司包括 Kinetix、DeepMotion、RADiCAL、Move Ai 和 Plask。

Kinetix

DeepMotion

RADiCAL

关卡设计和游戏世界构建（Level design & world building）

游戏创作中最耗时的方面之一是构建游戏世界，生成式人工智能可以用于这项任务。像《Minecraft》、《No Man's Sky》和《Diablo》这样的游戏，因程序化技术生成关卡而闻名，其中关卡是随机生成的，每次都不一样，但都遵循关卡设计者制定的规则。新的 The new Unreal 5 游戏引擎的一大卖点在于，它收集了用于开放世界设计的程序化工具，例如叶子的放置。

例如 Promethean、MLXAR 或 Meta 的 Builder Bot 这些公司，都是看到了生成式 AI 技术的机会。这方面的学术研究已经有一段时间了，包括 Minecraft 的生成技术或 Doom 的关卡设计。

为什么生成式人工智能工具具备用于游戏关卡设计的潜力？ 因为 AI 具备创造不同风格的关卡和游戏世界的能力。可以想象一下，通过工具迅速生成一个 1920 年纸醉金迷时代纽约的游戏世界，或者是神秘的反乌托邦银翼杀手的设计，或者是托尔金派（ 类似于魔戒的设计和景观 ）的幻想世界（vs dystopian blade-runner-esque future, vs. Tolkien-esque fantasy world.）。

下面的概念是由 Midjourney 使用提示生成的游戏中不同风格关卡：

音频

声音和配乐是游戏体验的重要部分。已经有公司开始使用生成式人工智能生成音频，以补充图形方面的工作。

音效

声音效果是人工智能的另一个有吸引力的领域。已经有学术论文探讨了使用人工智能在电影中生成「foley」的想法（例如脚步声），不过目前能够直接在游戏中应用的商业产品还很少。

笔者认为，这只是一个时间问题，因为游戏的互动性使其成为生成式人工智能的一个明显的应用，既可以创造静态的声音效果作为生产的一部分（「游戏里的激光枪音效等等」），也可以在运行时创造实时的互动声音效果。

想象一下，如何给玩家角色生成脚步声（笔者注：例如 CS 和吃鸡里的脚步声..）？大多数传统游戏，会通过少量预先录制的脚步声来解决这个问题：例如，在草地上行走、在砾石上行走、在草地上跑步、在砾石上跑步等等。这些声音的发布和管理都很繁琐，而且运行的时候听起来重复且不真实。

更好的方法是实时通过生成式 AI 的模拟音效，产生合适且更真实的的音效，通过游戏中的参数，如地面、角色、的重量、步态、鞋类等不同的介质，表现出不同的音效。

音乐（游戏配乐）

配乐对游戏来说很重要，因为它可以帮助故事主题设定感情基调，就像在电影或电视中一样。但由于游戏持续的时间更长，有的时候能持续数百甚至数千小时，不变的音乐可能很快变得重复或令玩家厌烦。此外，由于游戏具备互动性质，游戏配乐很难完全精确地配合屏幕上随机发生的场景和动作。

二十多年来，自适应音乐（Adaptive music）一直是游戏配乐的一个受关注的话题，它可以一直追溯到微软的「DirectMusic」系统，用于创建互动音乐。不过，DirectMusic 并没有被广泛采用，主要是因为用这种格式作曲难度较大，只有少数游戏，如 Monolith 的《无人生还》，创造了真正的互动配乐（Monolith’s No One Lives Forever,）。

现在，有许多创业公司正在尝试创造人工智能生成的音乐，如 Soundful、Musico、Harmonai、Infinite Album 和 Aiva，尽管目前的很多工具，如 Open AI 的 Jukebox，是高度计算密集型的，还不能实时运行，不过，一旦初始模型成功建立，实时运行将成为可能。

对话&语音（Speech and Dialog）

很多公司试图为游戏中的人物创造逼真的声音，当然，由于计算机的语音合成历史悠久，这并不少见，这些公司包括 Sonantic、Coqui、Replica Studios、Resemble.ai、Readspeaker.ai 等等。将生成式人工智能用于语音有多种优势，当然，这个赛道竞争也比较激烈。

即时对话生成。 通常情况下，游戏中的语音是由配音演员预先录制的，但这些都仅限于死板的演讲稿。有了生成式人工智能对话，角色可以说任何话，这就意味着可以对玩家的行为做出充分的反应。

角色扮演。 许多玩家希望扮演与自己现实世界身份几乎没有相似之处的虚拟人物。然而，只要玩家用自己的声音说话，这种幻想就会破灭，使用与玩家的化身相匹配的生成的声音可以保持这种幻觉。

控制音效。 通过 AI 生成语音时，我们可以控制声音的细微差别，比如它的语调、转折、情感共鸣、音素长度、口音等等。本地化（方便翻译和国外推广）。对话可以翻译成任何语言，并以同样的声音说话，像 Deepdub 这样的公司专门专注于这个细分市场。

NPC&玩家角色

很多初创公司在研究使用生成式人工智能来创建可以互动的角色，除了游戏中 NPC 的市场机会，虚拟助理或接待员也具备很大的增长空间。这种努力可以追溯到人工智能研究初期。

很多公司正在建立通用聊天机器人，其中许多是由类似于 GPT-3 的语言模型驱动的。少数公司专门试图建立以娱乐为目的的聊天机器人，如 Replika 和 Anima，试图建立虚拟陪伴者。电影《Her》（斯派克·琼斯编剧并执导的一部科幻爱情片，由华金·菲尼克斯、斯嘉丽·约翰逊等主演）中展现的虚拟女友时代，可能很快就会到来。

现在可以看到这些聊天机器人平台的下一个迭代，如 Charisma.ai、Convai.com 或 Inworld.ai，除了可以渲染 3D 角色提供动力外，还具备情感呈现，工具可以让创造者给这些角色设定目标，可以在融入游戏或在推动情节发展中具有叙事性的地位，而不是纯粹的摆设。

一体化平台

像 Runwayml.com 这样最成功的生成式人工智能工具，可以将广泛的创作者工具集于一身。不过，目前游戏领域还没有这样的公司，A16Z 很想投资具备以下特点的生成式 AI 游戏解决方案：