安全部署 AGI 可以考虑以下几个方面:
如果模型能力出现了很明显的跳变式跨越,就会带来一个问题,即“我们要如何保证产品已经足够安全到可以发布了?”,我没办法给出一个适应所有情况的答案,但为了让这种风险更可控,就需要进行大量的模拟部署测试,比如红队测试。这样的测试应该设计成比实际部署中计划的操作更极端和容易失败的情况,来确保模型最终操作的安全性。还需要建立一个有效的监控系统,能够在部署的系统出现问题时迅速发现。这可能得建立一个机制来专门监督已经部署的AI模型,观察它们的行为,并寻找可能的异常迹象。然后还需要多层次的防御措施,这需要模型本身表现得非常规范,具备无可挑剔的道德信念,同时也要也要确保系统能够抵御任何严重的误用风险。Dwarkesh Pa tel:开始进行连续任务的强化学习时,应该跟踪哪些关键指标和信号来及时发现系统的跨越式进展,并确保能够安全部署?该怎么在广泛部署模型之前及时发现这种跳变式跨越?John Schulman:在训练模型的过程中我们需要做大量评估,尤其是潜在智能水平非常高的AI模型。现在我们还不需要太担心,因为现在让模型执行连续任务还是个挑战,但一旦模型的智能到了高水平的时候就必须谨慎,包括对模型做大量评估,检测有没有不当行为,确保模型充分alignment,防止出现背离预期的行为。另外,还需要警惕模型能力有没有出现跳变式跨越。在训练AI模型时,还要确保数据或训练方式不会让模型出现相反的行为。在用RLHF方法训练模型的时候,我们能感觉到模型在非常智能时还是很安全,因为它的主要目标是生成令人满意的文本,除此之外并不“关心”世界上的其他事情。如果模型需要执行一系列很复杂的、涉及工具的操作,那它可能就会做一些对人类来说不合理的行为来达到目标,但它的主要动机仍然是能最终产出高质量的结果。
John Schulman:我现在还没有一个很好的答案,如果能像我说的那样友好协商肯定是最好。毕竟搭建这些模型需要大量的资本投入,而且有很多复杂的东西要考虑,并不是每个人都能在家里造这些东西,有能力去训练最大型模型的公司也很少,所以这种协商我感觉是有可能实现的,只是我不知道该怎么在长时间内维持这种平衡。不过一旦达到平衡,就没什么大问题了。Dwarkesh Pa tel:如果未来有了很多智能体能够上云统一部署、集中协调,那时人类将怎样从中受益?John Schulman:如果我们能让所有相关方都协调一致,并且alignment的技术问题也解决好了,那时我们就可以部署高智能水平的AI,把这些AI作为人们意志的延伸,同时也防止它们被过度滥用,这样就能让AI得到安全有效地部署,帮助科学进步和社会的繁荣。Dwarkesh Pa tel:让我们做一个最好的假设,假如所有相关方在那时都决定暂停部署AI,先确认好我们部署的模型价值观和人类完全对齐,不会突然搞一场政变,或者煽动其他人来这么做,那么我们该怎么证明模型确实是安全且对齐的呢?John Schulman:我觉得更安全稳妥的方式是能渐进式地部署更智能的模型,而不是要求所有相关方都必须协调一致,然后严格控制研究的进展,保证最后安全发布,因为这种情况下模型的潜能会被束缚,没办法充分释放。所以最好是能形成一个持续迭代,逐步推出性能更优的产品的过程。在这个过程中,我们要确保对每一个迭代的安全性和alignment都充满信心,这种信心与系统能力的提升也是匹配的。这样如果在过程中出现了让人担忧的状况,我们就可以及时放慢步伐,这是我希望的发展方向。
Dwarkesh Pa tel:如果明年或者之后实现了AGI,你们接下来会有什么计划?John Schulman:如果AGI比预期来得更快,我们肯定需要更加谨慎地对待,比如在非常确信可以安全处理这些问题之前,可能需要在训练和部署上放慢脚步。我们需要对AGI要做什么、能做什么有一个非常清晰的认识。在很多方面,我们对模型的理解仍然处于初级阶段。我所说的“谨慎”是指,暂停训练更聪明的模型,或者在训练环节下一代模型是要相当小心,比如需要确保模型在沙盒环境中是安全的,另外,在模型的部署规模上要十分审慎。Dwarkesh Pa tel:我们假设这么一个情形:AGI明年就出现了,并且AGI的发展不只是在OpenAI,所有其他公司也拥有类似的能力,这也是我们假设AGI这么快出现的原因。在这种情况下会发生什么?除了OpenAI之外的其他公司可能会做什么?John Schulman:这个涉及到博弈论,一下想清楚还是挺难的。首先,我不认为这种情况会在明年发生,当然提前讨论一下也是好事,我猜可能需要两到三年的时间。然后是需要各个公司之间协调一致,尤其是大厂之间,大家需要对部署或未来训练的限制达成共识,否则就会出现竞赛,每个人都想争先,这就可能会牺牲掉安全性。Dwarkesh Pa tel:如果各公司之间的协商需要暂停模型部署的话,这个过程会持续到什么时候?是直到我们搞清楚模型的内部运作和行为机制吗?John Schulman:我们可以暂停对模型做进一步训练,也可以暂停部署,还可以尽量避免可能带来更高风险的一部分训练。我们会制定一些合理的规则,或者提供一个限制相关风险的行动指南。Dwarkesh Pa tel:限制风险是为了什么?AI的智能潜能迟早会被释放出来,假设两年后我们成功开发出AGI,可能会引起大家的普遍恐慌,那个时候公司又不再继续研发和部署AI了,在这个阶段我们是在等什么,需要做好哪些准备?