【编者按】“如果被迫与机器妥协,我们的底线是什么?”外交家亨利·基辛格在其生前最后一本书《人工智能时代与人类价值》中,与两位合作者——谷歌前CEO埃里克·施密特及微软前首席研究和战略官克雷格·蒙迪,从高度战略性的角度对这一问题进行了审视。他们预见,随着时间推移,人工智能“将对历史、宇宙、人类本质以及智能机器的本质得出结论,并在这一过程中形成初步的自我意识”,进而变成“类人人工智能”。如何与之共存?两个“对齐问题”需要解决:一是人类价值观和意图与人工智能行动在技术层面的对齐,二是人与人之间在外交层面的对齐。本文摘自该书第八章第二小节《共存:类人人工智能》,已获出版社授权。
迈达斯国王——历史上小亚细亚王国的君主——曾许下一个著名的愿望,希望他所接触的一切都能变成黄金。希腊的酒神和享乐之神狄俄尼索斯满足了迈达斯的这个愿望,尽管他知道这个愿望并不会带来什么好事。不久,由于触碰到的佳肴和美酒都变成金子无法享用,迈达斯被迫在帕克托洛斯河中洗手,以摆脱他那被诅咒的手指。
在由迪士尼重述的叙利亚故事《阿拉丁》中,一个童工和一个有权有势的阿格拉巴王朝国师争夺对一盏神灯中无所不能的精灵的控制权。每个人都努力引导精灵实现自己的愿望。国师的最后一个愿望是让自己变得和精灵一样强大,但他没有意识到,拥有如此强大的力量意味着他也将被囚禁在神灯里,服侍其他人类主人,直到获得自由的那一天。
这两个故事都讲述了解封和运用一种我们凡人所无法理解或掌控的力量有多么困难。这场古老斗争在现代的寓意是,很难让人工智能与人类的价值观相一致,也很难让人类的期望与现实相一致。我们应该假定,人工智能会让我们大吃一惊,并且随着智能体或“规划型”人工智能的发展,它们在动态世界和数字世界中让我们为之惊讶的能力也会提升。如前文所述,未来几代人工智能将能够感知现实;它们可能不仅具有自我意识,还拥有自我利益。一个自利的人工智能可能会认为自己在与人类竞争一些东西,比如数字资源。在“递归自我完善”的过程中,一些人工智能可能会发展出设置自身目标函数的能力。人工智能可以操纵和颠覆人类,挫败我们限制其力量的任何尝试。人工智能已经能够欺骗人类,以实现自己的目标。
如今,我们几乎没有独立能力来验证人工智能模型的内部运作,更不用说它们的意图了。如果智能机器仍然像埃利泽·尤德科夫斯基所说的那样,是“巨大而不可捉摸的小数阵列”,那么随着它们变得越来越强大,我们也无法指望它们对我们来说是安全的。因此,最重要的是,我们在学会如何解读智能机器的同时,也要学会如何确保它们对我们安全,这两项使命要双管齐下。
鉴于人工智能目前展现的令人惊讶的能力,我们将如何设法未雨绸缪,而不仅仅是在人工智能的风险来临时兵来将挡?我们需要怎样的远见和效率预见未来发展的全部倾向和一系列可能采取的行动?要知道这不仅关乎我们自己的物种,还事关一个全新物种。我们不能在只有一次试验机会且容错率为零的情况下奉行试错策略。
要让人工智能不那么引人惊骇,加强人们对它的体验、参与和互动也许是无可替代的办法。早期的人工智能开发者曾担心过早地将人工智能暴露在世人面前,而最近的开发者则一直在释放早期模型,允许更多的公众尽可能快速、安全地对其进行试验。工程团队目前正在研究和微调不同的模型,并调整控制系统,而人工智能与全球范围内人口的互动也暴露出了新的担忧。
对人工智能的早期社会化可以通过对其进一步的教育来降低出现问题行为的风险,同时在人类之中,也可以提高对此的意识水平、应对力,并培养一种健康的怀疑精神。每天数以百万计的人机互动有助于测试人工智能可能遇到的最不可能的情况;反过来,公众对人工智能系统的使用,在发现新错误和新风险的同时,也可能有助于加快技术协调一致化的进度。因此,将这些远非完美的人工智能放任于世间,不仅有助于我们适应它们,更重要的是,它们的出现使得我们能够提出更完善的理论,以使它们适应我们。
不过,广泛部署和公开发布可能还不足以揭示与解决当今人工智能的所有风险,更不用说未来的风险了。
但值得庆幸的是,目前人们正在进行大量尝试,以创建一个集成的控制架构,并将其通过预训练注入最强大的人工智能,从而积极引导机器实现合法、无害和有益的用途。
迄今为止,实现这种人工智能与人类协调一致的方法大致分为两类:基于规则的系统和从人类反馈中“强化学习”。下面让我们逐一介绍。
基于规则的系统类似于预先编程的指令,是程序员管理人工智能行为的一种尝试。虽然这种方法对于简单的任务来说直截了当,但在复杂的场景中却经常会出现问题,因为系统无法进行实时适应。而强化学习就其本身而言则更适合复杂系统,它允许人工智能从与人类评估者的交互中学习,并灵活地适应特定环境。
当然,这种方法也有它的缺陷。为了指导学习,需要精心设计“奖励函数”;任何失误,无论是由于目光短浅、不可预见的情况,还是由于人工智能聪明过人,都可能导致“奖励黑客”的情况,即人工智能在解释模棱两可的指令时,虽在技术上取得了高分,却没有达到人类的实际期望。
今天的人工智能系统被灌输了各种类型的信息,却没有直接体验现实世界,而是通过由数万亿个概率判断组合而成的现实模型来观察这个世界。对它们来说,在这个宇宙中,从一开始就没有“规则”,也没有任何方法来区分科学事实和未经证实的观察。对人工智能来说,一切——甚至是物理定律——都仅仅存在于相对真理的范围之内。
不过,现在人工智能领域已经开始努力纳入人类规则和实例化事实。现在,人工智能模型已经有了一些成熟的机制,通过这些机制,这些模型可以吸收某些实在性的“基本真实”常量,将其标记为最终常量,并将其映射到自己的嵌入空间中。此外,这些信息还可以很容易地进行全局更新。通过这种方法,人工智能模型就能将两个部分——更广泛的概率判断和更狭义的事实真相评估——融合在一起,从而做出合理准确的反应。
但这项任务还远远没有结束,问题仍层出不穷。比如,我们人类该如何为人工智能区分真理的必要属性,并在此过程中为我们自己也做一番区分?毕竟,在人工智能时代,即使是基本原理也会不断被修正和失效。然而,恰恰是这一点,为我们提供了纠正先前错误并开辟新天地的机会。我们知道,我们对现实的概念也可能发生变化,因此,我们不应该把人工智能禁锢在可能错误的“真理”中,这样会阻碍它们重新考虑自己的终极“真理”。
不过,这已是很久之后的事情了。目前,人工智能仍然需要一棵初级的确定的知识树,这些知识代表人类迄今为止推断出的“真理”。让我们的机器拥有这些知识,将使我们能够可靠地强化它们的世界观。特别是,如果我们现在可以根据宇宙法则来调整早期的人工智能系统,那么我们也有可能参照人类天性的法则来依葫芦画瓢。既然我们可以确保人工智能模型以我们所理解的物理定律为出发点,同样,我们也应该防止人工智能模型违反任何人类政体的法律。
在一个人工智能的“法典”中,可能存在不同治理级别的层次:地方、地区、州、联邦、国际。法律先例、法理、学术评论——或许还有其他不太偏重法律的著作——可以同时被人工智能纳入考量。与基于规则的一致化系统一样,预定义的法律和行为准则可以成为有用的约束,尽管它们往往也不那么灵活,设计时考虑的范围也不如实际的人类行为不可避免地要求的那样广泛。
幸运的是,新技术正在接受考验,我们感到乐观的原因之一,在于一些非常新颖,同时又非常古老的事物的存在。
有种东西比任何通过惩罚强制执行的规则更有力、更一致,那便是我们更基本、更本能、更普遍的人类理解。法国社会学家皮埃尔·布迪厄将这些基础称为“共识”(doxa,古希腊语,意为普遍接受的信仰):这是规范、制度、激励机制和奖惩机制的重叠集合,当它们结合在一起时,就会潜移默化地教导人们如何区分善与恶、对与错。共识构成了人类真理的准则,它是人类的典型特征,但没有人工制品对其加以固化呈现。它只是在人类生活中被观察到,并被纳入生活本身。虽然其中一些真理可能是某些社会或文化所特有的,但不同社会在这一方面的重叠性也是很大的;数十亿计的人类,来自不同的文化,有着不同的兴趣爱好,他们作为一个普遍稳定且高度互联的系统而存在。
在书面规则无法平息混乱的情况下,未加定义的文化基础却可以做到,这一观点构成了人工智能领域一些最新方法的基石。“共识”的法典无法表述,更无法翻译成机器可以理解的格式。必须教会机器自己完成这项工作——迫使它们从观察中建立起对人类做什么和不做什么的原生理解,吸收它们所看到的一切,并相应地更新它们的内部治理。
在这一灌输“共识”的技术过程中,我们不需要,甚至不希望就人类道德和文化的正确表述达成先验一致。如果大语言模型能够以未经整理的方式吸收整个互联网的内容,并从中找出尽可能多的意义(正如它们已经做到的那样),那么机器——尤其是那些已经发展出接地性(也就是反映人类现实的输入与大语言模型输出之间的可靠关系)和因果推理能力的机器——在吸收连我们自己都一直难以明确表达的内容时,或许也能达到同样的效果。
当然,机器的训练不应只包括“共识”。相反,人工智能可能会吸收一整套层层递进的金字塔级联规则:从国际协议到国家法律,再到地方法律和社区规范等。在任何特定情况下,人工智能都会参考其层级中的每一层,从人类定义的抽象戒律转化到人工智能为自己创造的,对世界信息的具体却无定形的认知。只有当人工智能穷尽了整个程序,却找不到任何一层法律能充分适用于指导、支持或禁止某种行为时,它才会参考自己从观察到的人类行为的早期互动和模仿中得出的结论。这样,即使在不存在成文法律或规范的情况下,它也能按照人类的价值观行事。
几乎可以肯定的是,要建立并确保这套规则和价值观的实施,我们必须依靠人工智能本身。迄今为止,人类还无法全面阐述和商定我们自己的规则。而且,面对人工智能系统很快便有能力做出的数以十亿计的内部和外部判断,没有任何一个人或一组人能够达到对此加以监督所需的规模和速度。
最终的协调机制必须在几个方面做到尽善尽美。首先,这些保障措施不能被移除或以其他方式规避。其次,在控制上必须允许适用规则的可变性,这种可变性基于环境、地理位置和用户的个人情况而定,例如,一套特定的社会或宗教习俗和规范。控制系统必须足够强大,能够实时处理大量的问题和应用;也要足够全面,能够在全球范围内,在各种可以想见的情况下,以权威且可接受的方式进行处理;并且足够灵活,能够随着时间的推移进行学习、再学习和调整。最后,对于机器的不良行为,无论是由于意外失误、意想不到的系统交互,还是有意滥用,都不仅要禁止,而且要完全防患于未然。无论何种事后惩罚都只会是为时晚矣。

克雷格·蒙迪(Craig Mundie)
译者:胡利平 风君
出版品牌:中信出版·方舟工作室
(文章仅代表作者观点。)
发表评论