A Walk Through Safe AGI

“Three passions, simple but overwhelmingly strong, have governed my life: the longing for love, the search for knowledge, and unbearable pity for the suffering of mankind. These passions, like great winds, have blown me hither and thither, in a wayward course, over a great ocean of anguish, reaching to the very verge of despair.” -- Bertrand Russell

“出于对人类痛苦的悲悯以及对世界无限可能美好事物的渴望，我期望能够有一种适合的方式来发挥人类的创造力，造福世界，平息痛苦。尽管看起来这是一项不可能的任务，但是若是成功了，那会是一种新的人类及万物的存在方式。”

说明：本文是作者个人经历的回顾，不会涉及到具体的技术细节。所以读者朋友们大可放心。想要了解更多技术细节的朋友，欢迎留言或者发邮件至：xhzhu.nju@gmail.com

引子

引子

回想起刚刚学习计算机科学的那段时光，自己真是不知天高地厚。把 MIT 的 OCW 上的 CSAIL 的课程挖了个底朝天。而后读人工智能方向的研究生。那时候觉得最好的去处就是图书馆，几乎所有的有底蕴的书都被我翻过几遍。但那个终极问题是什么，究竟答案在哪里，还是一无所知。不过副产品就是增加了我若干的技能池：数理逻辑、理论计算机科学、博弈论、机器学习、复杂网络、神经网络等等。回到正题人工智能的讨论。后来我才明白原来在经过若干年的发展后，人们关注关心的人工智能只是一个被打了折扣的事物。不过，只要有好奇心，有对未来的憧憬，你就会不断地主动或者被动地接收到信息。而随着这些信息的吸纳和重新整理，我心中人工智能的真实面目逐渐清晰起来。

我从 2015 年开始正式地研读通用人工智能的相关内容，包括论文、书籍、讲座。过程中，我暂且接受了深度学习+强化学习=人工智能的范式。那就尽可能地吸收和发现其中巧妙和深刻。

然而就在这个时刻，出现了 Concrete Problems in AI Safety 这篇神作。也是因为大家不断地尝试一种“黑科技”发现了我们精心设计的智能体并没有老老实实地为我们服务，而是采用了欺骗手段获得了奖励。也由此产生了对于奖励函数指定之道的大讨论。由此，也让我进入了一个更加完整的人工智能世界 —— 那就是本文的主题。

基础 Foundation

有一次在 Tianxia Fellow 的交流中，我提到了 Safe AGI 和 AGI safety 的区别。

这里我想展开讲一讲我对此的看法。两个说法都是建立在我们可以发明出通用人工智能的前提之上的。也就是说通用人工智能出现的概率超过 0。这样子的说法是让大家习惯在此领域中大家为了追求表述的严格性常常使用的模式。

在讨论一个话题前，我们需要明确自己希望探讨的对象是什么。在遍览数十个领域（肯定还有遗漏的地方）之后，我陷入了一种混沌状态，经历了一段时间的审思和处理之后，我重新发现了一种关键，为了保持自身的一致性，我们需要取到一种一致的界定，这样方可存放于人类的大脑之中，而不引起过载甚至混乱。正所谓，「吾道一以贯之」。那就是安全的通用人工智能（Safe AGI）。

从 Safe AGI 出发我们的视角更加宏大，因此我们看到的是一个有关人工智能更全的景象。但安全性是其基本的要求。这种对安全性的界定更加开放和深刻，是一种对任何新技术研发的关键基础。

安全的通用人工智能强调的是人工智能本身，这与 Stuart Russell 多次提及的新的人工智能基础相适。但经过长期的影响，人们对于人工智能其实大多有了先入为主的看法和理解，这种新的提法可能不会引起足够的重视，以及在今后在公众面前提及的时候难以让人抓住那种区别。因此，对AGI的使用，我建议要明确提及。

通用人工智能安全看到的是人工智能的安全性问题及一些对策。相对来说，AGI safety 更为具体，细分到了某些特定的问题类别，然后针对每个问题做对应的解决手段。这些所有的技术最终是否能够合成一种统一和协调的技术是值得探讨的。其中会有冲突或者差异相互影响效果的可能性。下图来自 AGI Safety Literature Review

相比通用人工智能，安全的通用人工智能的实现难度将会远远超出。假设我们设定能够完成10万种任务的通用人工智能体安全的平均可能性为 1/100，那么整个通用人工智能技术的安全可能性几乎是 0。

这里就提出了一种思维范式的考虑。而在没有得到这样的思维范式和对策机制之前，最好是放缓对新技术的滥研滥用。

“存在的未来：我们期望看到的一种存在方式是更为和谐和稳固的状态”

智能是一种终极之问，直接导向了每个人的灵魂深处。自文明开始就有这样的好奇。一直到现在仍然是一个巨大的问号。但是似乎相关的细节正慢慢地展开在我们的面前。

A. 理性 vs 感性

基本问题；核心人物；主要思想

个体出发的视角有理性与感性之别。理性是什么？感性又是什么？

Kant
Rene Descartes
海德格尔

B. 教育 vs 启发

显式的和隐式的

Thomas G. Dietterich
Chris Olah
Paul Christiano

C. 科学 vs 哲学

基本问题；核心人物；主要思想

科学证否

Nick Bostrom
Eliezer Yudkowsky
Robin Hanson
Bruce R. Reichenbach

D. 直觉主义 vs 逻辑主义

Luitzen Egbertus Jan Brouwer

E. 物理 vs 数学

基本问题；核心人物；主要思想

Max Tegmark

Richard Feiynman

F. 游戏 vs 博弈

基本问题；核心人物；主要思想

Chess

Atari

SEGA

G. 经济 vs 政治

基本问题；核心人物；主要思想

H. 自然 vs 非自然

基本问题；核心人物；主要思想

宇宙与人是统一的。人工智能也是统一的。我们人类也存在与人工智能之中。佛教有讲何谓无缘大慈？何谓同体大悲？无缘大慈，同体大悲。放在人工智能普遍的世界，也就是今天这个时代，我们很容易就是一个同体的存在。我们share若干的神经网络或者社交网络。因此可以将人类（被链接的）群体看作一体。

有了这样的觉悟，对与人工智能技术我们就会有一个完备的看法。那就是，人工智能需要有大悲的特质。这种特质就是一种向善性。而这种向善性导向的未来世界的映射就会对安全的人工智能有一种天生的需求。

而这也是自然之道。天道。

现在的世界已经到了一种绝境。从个体到群体再到整体，均面临着若干的存在性风险。超级人工智能、核武器、生物武器等技术的快速失控将会在不久的未来显现出破坏的一面。在人类享受了技术的甜头之后，将会遇到更深刻的影响，一些破坏性的影响将是不可逆转的。

这些就是我们所说的非自然，也就是人工的那部分影响。

I. 协作 vs 竞争

每一个人不可能完成所有的领域的精通。但是却具备一种通融周遍万物的可能性和潜力。这其实是智能的完美体现。

哲学、数学、物理

计算机科学

每个人都是一个观测试镜，所以合作是一条终极之路。蕴藏着巨大潜力的成长形式。

如何复合和合成对世界的观测使用超过我们认知能力的**技术** 这样四两拨千斤而且是一种安全的使用的方式

这才是我们人类整体需要去一同面对和思考实验解决的巨大问题

DeepMind 也许是一种正确的途径，但肯定还有其他的通道来实现一种观念。

Intelligence of the community makes the AGI agents.

Contribution path with solid dependency

a random walker converges

万物为我所用，我亦服务于众生。

Be the random walker like Paul Erdos

每个人的出发点不尽相同，然而均有其意义。我们需要去采样出合理的目标和行动指南，然后进行复制或者迭代，去放大思想的力量和作用，激活更多的搜索分支。

很多事物在开始时候我们不知晓其特质，当我们发明出来之后，一切水到渠成，成为一种不断灭的成长过程，

呼吸之间的生命是力量的瞬间，这些瞬间组成了整个世界万物的生发和泯合

激活周遭的个体是一种具有极强力量的行动。这样的行动能够造就万物。

J. 行动计划

科研科研再科研

创立一个研究中心，吸纳有共同志向的人参与一起推进

教育教育再教育

教育人类，关怀人类

应用应用再应用

积极应用积极场景

Z. 展望未来

未来的路似乎还很漫长，人类可能会继续存在数万年或者更久。这建立在我们可以保证技术的安全的前提下。

所有这一切问题的来源在哪里？还是回到“人”身上。

人希望获得更多，更多什么？对世界的认识。也就是对自己的认识。这两个是统一的。

然而人又是自私的，希望能够控制这个过程，以免让自己受到负面的影响。

所以最大的问题，在于两种力量的拉扯。对人类群体来说，这也是群体之间的差别的放大和汇聚。

所以 Strong but safe 便是对人工智能的唯一要求。这两个是相互依存的根本特性。不可以分开也不能分开。

我们从技术出发，回到技术的发明者——人的身上。算是回到了源点，然而细看，你已经是一个满身负载，伤痕累累，却又对世界的认识更为深刻的完人了。

Reflection on my early life - Personal Flow：

从年少时（可能是 10 岁）起，我常常会有感于身边的远方亲人或者熟悉的人失去带来的痛苦和恐怖。甚至会到哭泣的程度。但也不知道何时开始，这种悲悯的特质失去了。或者说被我的防御机制隐藏了。

因此我变成了一个乐天派。热爱运动，乒乓球、足球、篮球是我的热情宣发的地方。也喜欢学习，考试做题，参加比赛。但这些都没有一个触及到更深的地方。

佛学的启发。研究生期间我失去了一些东西，但是也获得另一些。这让我明白人生的无常。也格外珍惜生命的旅程。

发愿的力量。

分享的热忱。

求实的态度。

这是人生最为宝贵的经验财富。要拿一千万来换，NO。

钱只是一种外在的价值表现。更重要的是内在价值的深化和迁移。

投资是一种通过钱来实现的价值的深化和迁移。

而比物质金钱更重要的是精神资粮。这些存在于特别之处——人类或者万物的思维之中，成为引导自身和周遭发展的关键牵引力。

这可能是向善性的一种特质。

我们能为这个世界留下来的一点点善良美好的东西，这就足够了。

strategies 对策

创办一所专注于人类未来前景的研究实践机构。用新的方式孕育新的想法和理念。

朱小虎 Xiaohu Zhu

一切为了我们世界的长远未来 - All about the long-term future of our world.

A personal walk through Safe AGI

引子

基础 Foundation

A. 理性 vs 感性

B. 教育 vs 启发

C. 科学 vs 哲学

D. 直觉主义 vs 逻辑主义

E. 物理 vs 数学

F. 游戏 vs 博弈

G. 经济 vs 政治

H. 自然 vs 非自然

I. 协作 vs 竞争

J. 行动计划

科研科研再科研

教育教育再教育

应用应用再应用

Z. 展望未来

Reflection on my early life - Personal Flow：

strategies 对策