据The Information报道,微软这厢高调将GPT-4融入自家各种招牌产品里,那厢背地里却已经开始密谋Plan B,想要通过自研对话式AI(人工智能)大语言模型,来做到媲美OpenAI模型的表现。
据一名现任员工和另一位最近离开微软的人透露,最近几周,领导微软 1500名 研究人员的Peter Lee指示他们中的许多人开发对话式AI。这些AI可能表现不及OpenAI的大模型那么好,但胜在规模较小,运营成本也低得多。
这些知情人士说,微软旗下搜索引擎必应(Bing)的产品组正试图将微软的自研模型整合到必应聊天(Bing Chat)中。
一位微软现任员工称,微软研究人员正在分配他们大约 2000个 GPU中的大部分,用于制作更低成本、规模更小的模型。
01.GPT-4太烧钱,微软正在制定Plan B
微软将AI纳入其软件的推动几乎完全取决于OpenAI,以换取使用其顶尖技术的权利。但随着运行先进AI模型的成本上升,The Information报道称,微软研究人员和产品团队正在制定Plan B。
随着AI成本的飙升,微软和谷歌等其他大型AI开发人员正想办法从对话式AI软件和运行它的服务器芯片中省钱。此前微软已经承诺向OpenAI投资100多亿美元,部分用于获取其知识产权。
尽管有这项投资,但微软在推出OpenAI支持的功能时仍然必须控制成本,包括自动生成PowerPoint演示文稿、转录Teams会议以及根据客户告诉他们想要查看的应用程序创建Excel电子表格的功能。如果超过10亿人最终使用这些功能,微软将不得不缩小其规模和复杂性,以避免破产。
微软还希望这样做将释放更多供不应求的AI服务器芯片资源。
尽管微软的努力仍处于早期阶段,但这展示了微软CEO萨提亚·纳德拉(Satya Nadella)如何为微软的AI产品开辟一条不完全通过OpenAI运行的道路。多年来,这两家公司将保持密不可分的联系,但随着它们越来越多地竞争向相同的企业客户出售AI软件,它们之间的关系日益紧张。
“这最终必须发生,”企业软件公司Databricks的高管Naveen Rao在谈到微软的内部AI工作时说。
他谈道:“微软是一家智能企业公司,他们需要高效,当你部署使用这些大型型号的产品时,如(OpenAI的)GPT-4......这就像说,「我需要一个有医学博士和两个博士学位的人来接听Nerf枪支公司的客户服务热线。」这不是可行的经济学。”
02.不指望开发GPT-4,想增加更多谈判筹码
微软的研究小组对开发像GPT-4这样的大型AI没有幻想。该团队没有与OpenAI相同的计算资源,也没有大批人类评论员来反馈他们的大语言模型如何回答问题,以便工程师可以改进这些问题。
不可否认,OpenAI、谷歌以及周一从亚马逊云科技(AWS)获得40亿美元投资的另一家明星大语言模型创企Anthropic,在开发先进大语言模型方面都领先于微软。
但微软可能能够以成本的一小部分,在构建模仿OpenAI软件质量的AI模型的竞赛中竞争,正如微软在6月份发布的一个称为Orca的内部模型时所表明的那样。
大语言模型是ChatGPT等对话式AI的基础。对于微软来说,在没有OpenAI直接帮助的情况下开发高质量的大语言模型,可以在公司讨论在未来几年更新合作伙伴关系时为其提供更多的谈判筹码。
目前的交易似乎是互惠互利的:作为对OpenAI资金的回报,微软获得了永久使用OpenAI在微软产品中现有知识产权的独家权利。在偿还初始投资之前,它还获得OpenAI理论运营利润的75%,并在达到一定上限之前获得49%的利润。
微软指望其与OpenAI以及其他AI企业的现有联盟,在未指定时期内增加至少100亿美元的新收入。Office 365生产力应用程序中新的AI功能出现了收入牵引的早期迹象。其云计算竞争对手AWS的至少一个主要客户在Azure OpenAI云服务上花费了大量资金。微软还在7月透露称,超过27000家公司已经为代码编程工具GitHub Copilot支付了费用,该工具由OpenAI软件提供支持。
不过,纳德拉或微软研究主管的任何愿望,在没有OpenAI的情况下开发复杂的AI,都可能是一厢情愿的想法。
自从全力以赴地使用OpenAI以来,微软的研究部门在很大程度上被降级为调整OpenAI的模型以用于微软产品,而不是开发自己的模型。过去一年,随着几波研究人员的离开,以及一些人进入微软内部产品团队,该部门失去了一些人才。
03.投入上千块GPU‍,开发更低成本的“精简”模型
但在OpenAI的阴影下呆了一年后,一些微软研究人员发现了一个新的目的:制作AI工程师所谓的“精简(distilled)”模型,这些模型模仿GPT-4等大型模型,但规模更小,操作成本低得多。
讽刺的是,微软与OpenAI的交易条款,正在帮助微软努力打破对OpenAI的依赖。当微软客户使用必应聊天机器人时,微软可以对OpenAI模型产生的结果拥有独特的访问权限。
微软现在正在使用这些数据来创建更小的模型。其研究人员发现,这些模型可以用更少的计算资源产生类似的结果。谷歌、Databricks等许多其他AI开发人员也专注于开发更小的模型来处理特定任务。
为了创建其Orca模型,微软研究人员将GPT-4产生的数百万个答案输入一个更基本的开源模型,以教它模仿GPT-4。
最后,研究人员表示,Orca模型在一系列任务上的表现,比他们训练的开源模型基本版Meta Llama 2要好得多,几乎和GPT-4一样,例如解释如何解决数学问题或总结会议记录。
他们称,在某些情况下,Orca与OpenAI的ChatGPT的免费版一样好。Orca能够用不到GPT-4使用的 1/10 的计算能力做到这一点。
在本月发表的另一篇论文中,微软研究人员公布了Phi,他们完全根据“教科书质量”信息对其进行了训练。Phi的参数量不到GPT-4参数量的 1% 。研究表明,由于高质量的训练数据,Phi在数学和逻辑问题上精通的开源模型是其规模的 5倍 。
目前还不清楚像Orca和Phi这样的精简模型在长期内是否有用,微软之外的研究人员激烈辩论,这些论文是否真的证明了较小的精简模型以任何方式与GPT-4等更大的先进模型具有可比性。但他们的成本优势给了微软一个继续前进的动力。
一位微软现任员工说,在公布Phi后,Peter Lee本月早些时候告诉员工,验证此类模型的质量将是团队的首要任务。他还谈道,研究人员正在分配他们大约 2000个 GPU中的大部分,用于制作精简模型。
当然了,与微软提供给OpenAI的计算资源相比,这点芯片集群规模可以说是微不足道。
一篇即将发表的论文将重点关注一种被称为对比学习的方法,其中工程师教授模型以区分高质量和低质量的响应,如何改善Orca。这个人谈道,其他微软研究人员正在开发一个可以解释和生成图文的多模态大语言模型。
微软和OpenAI的发言人拒绝对这篇论文发表评论,微软不会让Lee或Orca背后的研究人员接受采访。
像Orca和Phi这样的模型可以帮助微软降低与它为客户提供的AI功能相关的计算成本。一位现任员工称,微软产品经理已经在测试如何处理一些用户的必应聊天机器人对Orca和Phi的查询,而不是使用OpenAI的模型。这些方法包括使用更简单的查询来总结小段文本或回答是或否的问题,不需要多步推理的更长查询。
微软还在权衡是否向Azure云客户提供Orca版本。对它的需求可能已经实现了。
据知情人士透露,在微软发布Orca论文后,微软研究院的经理告诉同事,一些Azure客户询问了他们何时可以使用它。鉴于Meta对公司将其开源大语言模型商业化的限制,目前还不清楚微软是否需要Meta的许可。
04.结语:微软与OpenAI裂痕渐显,正积极接纳其他大模型伙伴
华盛顿大学教授、向AI开发人员销售软件的Snorkel AI的联合创始人Alex Ratner谈道:“越来越多的企业正在运行小模型。”GPT-4是“吸引眼球的东西,可以作为你开始的基础......但当涉及到微软为其产品提供动力所需的专业用例时,我们将继续看到这种多样化。”
微软还通过Azure提供其他大语言模型,包括Meta的Llama 2,对冲了对OpenAI的赌注。据The Information此前报道,微软正在与Databricks合作,向Azure客户销售软件,以便他们可以使用开源大语言模型而不是OpenAI的闭源应用程序来构建应用程序。