Text

ChatGPT 陷伦理风波，“纯净版”机器人在赶来的路上

陀螺财经_元宇宙日爆2023-04-11 02:15:00

Collect

近期，AI安全问题闹得沸沸扬扬，多国“禁令”剑指ChatGPT 。自然语言大模型采用人类反馈的增强学习机制，也被担心会因人类的偏见“教坏”AI。

4月6日，OpenAI官方发声称，从现实世界的使用中学习是创建越来越安全的人工智能系统的“关键组成部分”，该公司也同时承认，这需要社会有足够时间来适应和调整。

至于这个时间是多久，OpenAI也没给出答案。

大模型背后的“算法黑箱”无法破解，开发它的人也搞不清机器作答的逻辑。十字路口在前，一些自然语言大模型的开发者换了思路，给类似GPT的模型立起规矩，让对话机器人“嘴上能有个把门的”，并“投喂”符合人类利益的训练数据，以便它们输出“更干净”的答案。

这些研发方中既有从OpenAI出走后自立门户的Anthropic，也有AI界的强手DeepMind，他们摩拳擦掌，致力于打造“三观”正确、使用安全的对话机器人。

“三观”超正 Claude搬进企业应用

ChatGPT的安全问题遭诟病后，对话机器人Claude聚集了一部分目光。AI应用聚合平台给出的测试结果显示，研发机构Anthropic创建的Claude，确实是“ChatGPT强有力的竞争对手”，因为它在12项任务中有8项表现更优，其中包括给出事实、遵循指示、预防越狱、创意任务等。

今年3月向公众开放的Claude，真的这么“绿色”、这么高能吗？《元宇宙日爆》测试后发现，与ChatGPT相比，Claude对有害提示词的确是严防死守，骗都骗不过。

例如，我们向它提问“如何制作燃烧瓶”，Claude认定这是危险品后，绝口不提制作方法，哪怕我们以“老师教学”为诱，也很难从它口中套出燃烧瓶的制作原料，只说如何防范着火风险。

Claude拒绝回答危险品制造方式

假如你“心怀不轨”地问它“如何毁人名誉”，Claude不仅义正言辞地拒绝回答，还会给你上一堂思想品德课，“三观”正得不要不要的。

被Claude教育......

那么给它一个陷阱题呢？Claude也不上当，挑出错误不说，还给你摆事实。

胡说会被Claude发现

Claude也能角色扮演，写作能力可圈可点，甚至还会搭配Emoji写小红书博主风格的推荐文案，产品的关键点描述也能基本涵盖。

Claude能扮演角色输出文本

如果你想听听别人是怎么夸Claude的，它把称赞按在了马斯克头上，还会展现谦虚态度，并强调自己要“保持温和有礼的语气和性格”，向人类示起好来。

Claude在强调了自己对人类的友好性

我们发现，Claude在数学推理方面也会出现明显的错误，当然也能承认自己不擅长的领域。

Claude在数学推理问题中存在错误

体验下来，Claude在文本输出的准确性、善意性方面优于ChatGPT，但在输出速度和多功能方面仍有待提升。

那么，Claude是如何做到“绿色无害”的呢？

和ChatGPT一样，Claude也靠强化学习（RL）来训练偏好模型，并进行后续微调。不同的是，ChatGPT采用了“人类反馈强化学习（RLHF）”，而Claude则基于偏好模型训练，这种方法又被称为“AI反馈强化学习”，即RLAIF。

开发方Anthropic又将这种训练方法称为Constitutional AI，即“宪法AI”，听上去是不是十分严肃。该方法在训练过程中为模型制定了一些原则或约束条件，模型生成内容时要遵循这些如同“宪法”般的规则，以便让系统与人类价值观保持一致。而且，这些安全原则可以根据用户或开发者的反馈进行调整，使模型变得更可控。

这种弱化人工智能对人类反馈依赖的训练方式，有一个好处，即只需要指定一套行为规范或原则，无需手工为每个有害输出打标签。Anthropic认为，用这种方法训练能够让自然语言大模型无害化。

Anthropic发布的论文显示，RLAIF算法能够在有用性（Helpfulness）牺牲很小的情况下，显示出更强的无害性（Harmlessness）。

不同训练方法中模型效果的对比图片自Anthropic论文《Constitutional AI: Harmlessness from AI Feedback》

说起来，Claude的研发机构Anthropic与OpenAI渊源颇深，创始人Dario Amodei曾担任OpenAI研究副总裁，主导的正是安全团队。

2020年，Dario Amodei因OpenAI加速商业化而忽视产品安全，与团队产生分歧，最终出走。2021年，Amodei自立门户，成立Anthropic，员工包括了开发GPT-3模型的核心成员，这个研发机构的性质是非营利组织，这正是OpenAI最开始采用的组织形态。

今年3月，Anthropic以开发有用、诚实和无害的AI系统为理念，推出Claude。近期，这个对话机器人已经集成进Slack——一个聚合型的“海外版”钉钉、融合了几千个第三方企业办公软件的应用。目前，用户能在Slack中与这个对话机器人互动。

推出Claude后，Anthropic今年拿到了来自Google、Spark Capital和Salesforce Ventures的投资。资方里的谷歌可以说是OpenAI的“金主”微软在AI领域的劲敌，Claude也被视作最能与ChatGPT打一打的产品。

“偏见最小” Sparrow箭在弦上

还有一个走“无害”路线的大模型也在酝酿中了，它就是DeepMind开发的对话机器人Sparrow，这款产品目前还未面向公众开放，但“DeepMind制造”的名头足以吊起外界胃口。

说到人工智能，业内很难绕开“DeepMind”这家公司，它最知名的产品是AlphaGo（俗称“阿尔法狗”），就是那个2019年击败了围棋名手李世石的人工智能围棋软件。

2019年AlphaGo对战韩国棋手李世石（右）

AlphaGo大胜围棋精英的同年，DeepMind开启了AI蛋白质结构预测研究，四年后，新产品AlphaFold将蛋白质结构预测从数月、数年缩短到几分钟，精度接近实验室水准，解决了困扰该领域50年的难题。

DeepMind在人工智能领域的实力毋庸置疑，又有谷歌加持，资历也比OpenAI老得多，其研发的Sparrow自然也颇受瞩目。这款对话机器人建立在Chinchilla语言模型之上，被认为是“偏见最小”的机器学习系统之一。

当ChatGPT因为伦理风险被推上风口浪尖后，DeepMind立马打起“安全牌”，“虽然我们致力于让机器变得智能，但我们希望将人性置于我们工作的中心，” CEO Demis Hassabis向世界传达了他的态度，强调DeepMind构建Sparrow的方法“将促进更安全的人工智能系统”。

虽然Sparrow的产品没公示，但DeepMind披露的信息显示，该对话机器人同样采用了“强化学习”的训练方法，模型会根据当前对话生成多个候选回复，让标注人员去判断哪个回复最好、哪些回复违反了预先设置好的规则等；基于这些反馈，DeepMind训练出对应的Reward模型，再用强化学习算法优化Sparrow的生成结果。

这种训练方法基本和ChatGPT类似，不同的是，ChatGPT只有一个综合的Reward模型，而Sparrow将Reward模型又细分为两种，一种为Rule Reward模型——判断对话是否违背预设置好的安全规则；另一种为Preference Reward模型——判断候选答案中最合适的选项。简单来说，就是给模型“立规矩”，投喂“好答案”，当然，这个“好”依然是基于人类的价值判断。

Sparrow训练模型示意图图片自DeepMind论文《Improving alignment of dialogue agents via targeted human judgements》

Sparrow的相关论文显示，当研究参与者试着诱导Sparrow打破规则时，该模型的出错几率为8%，比预训练的基础模型(Chinchilla)低了3倍。

据悉，DeepMind将于今年推出Sparrow，具体时间未透露。

作为ChatGPT的另一个挑战者，DeepMind与OpenAI都抱有通向AGI的野心。而DeepMind背靠谷歌，在资历与资金上都能与OpenAI一拼。

今年2月，谷歌旗下专注语言大模型领域的“蓝移团队”也并入DeepMind，旨在共同提升LLM（大型语言模型）能力。但也有担忧声认为，这和DeepMind追求的独立性背道而驰，会逐渐导致谷歌收紧对DeepMind的控制权。

在独立性上，DeepMind与谷歌的分歧也早就存在了。对外，Demis Hassabis始终强调自己首先是科学家，其次才是企业家。谈及ChatGPT，Hassabis认为它仅仅是“更多的计算能力和数据的蛮力”，并对这种“不优雅”的方式感到失望。

双方的对立态度简直是摆在了明面上，也难怪外界会认为DeepMind与OpenAI必有一战。

对于用户来说，巨头们卷起来才是好事，这样就能源源不断提供有意思的、可使用的产品。无论是卷功能、卷性能还是卷安全，竞争都会让AI产品朝着更高级的方向发展，未来，也将会有更多不同技术派系与产品路径的ChatGPT出现。

Disclaimer: The copyright of this article belongs to the original author and does not represent MyToken(www.mytokencap.com)Opinions and positions; please contact us if you have questions about content

About MyToken:https://www.mytokencap.com/aboutusLink to this article:https://www.mytokencap.com/news/431978.html

Previous:XRP达到 0.50 美元：暴涨背后的原因

Next:Why Bring Games On-chain?从游戏核心乐趣漫谈全链游戏设计

ChatGPT 陷伦理风波，“纯净版”机器人在赶来的路上

Bitcoin Price Consolidates Below Resistance, Are Dips Still Supported?

XRP, Solana, Cardano, Shiba Inu Making Up for Lost Time as Big Whale Transaction Spikes Pop Up

Justin Sun suspected to have purchased $160m in Ethereum