AlphaGo被导师推荐进行强化学习的wired获得了ACM计算奖量子比特奖

时间 • 2023-04-14 08:48:41

学习

一个

我们

认为

强化

本周，DeepMind的MuZero通过审查，刊登在Nature的最新一期上。

MuZero是围棋、象棋、象棋、57种Atari游戏中超越人类表演的通用游戏AI。而且这种AI不需要事先知道规则。近日，DeepMind主任科学家、AlphaGo主任研究员David Silver接受wired杂志采访，讨论了MuZero的强化学习和未来的通用人工智能。

David Silver毕业于剑桥大学，于是与DeepMind创始人Demis Hassabis交上了朋友。银先生带领DeepMind的强化学习研究小组，计算机游戏的飞跃性的发展被认可，2019年获得了ACM计算奖。MuZero重要的理由MuZero刊登在Nature杂志上，告诉不知道这件事的人，为什么它很重要。大卫银：MuZero重要的一步是没有告诉环境的动向自己想办法，自己制定计划，考虑最有效的作战计划。我想要能在现实世界中运行的算法，但是现实世界又复杂又混乱，是未知的，所以不能只看前面，必须学习像国际象棋一样世界是如何运转的

一些观察人士指出，“MuZero”、“AlphaGo”和“AlphaZero”并不是真正从零开始的。使用聪明人设计的算法来学习特定任务的执行方法，我想这是不是偏离了重点。没有真正的空白机器学习也没有自由午餐的定理如果不从某个开始就什么都做不到的定理在这种情况下是空白提供了一个神经网络来学习从游戏的输赢和分数的反馈中理解世界，人们关注的一件事是我是说，我们在任何情况下都在教合法的动作。但是，如果你进行强化学习来解决未知的问题，通常你会告诉你你能做什么。你必须告诉代理选择，让他们选择其中一个。你可能会批评我们之前做过什嚒。现实世界非常复杂，像人脑一样能够适应这一切的东西还没有确立，这是公平的批判，但是我认为MuZero自己找到了制作模型的方法，从第一原理理解了这一点。[MuZero]实际用途是什嚒[DeepMind]最近宣布，使用AlphaZero背后的技术，解决了预测蛋白质折叠形式的重要实际问题。您认为MuZero在哪一点最初会产生很大的影响

当然，我们正在寻找在现实世界中应用[MuZero]的方法，有一些令人鼓舞的初始结果。举个具体的例子，互联网上的流量主要是视频。开放化的一大问题是如何有效地压缩视频。虽然有一个非常复杂的程序来压缩视频，但是如果应用了像MuZero这样的东西，我们的初始结果表明，压缩视频所用比特的5%左右，可能会节省很多数据。从长远来看，你认为强化学习对哪些方面的影响比较大？我认为有一个系统可以让用户尽可能有效地达到目的。你可以看到你看到的所有东西，拥有和你一样的感觉，是一个有助于达到人生目的的真正强大的系统。我认为那是非常重要的事情。从长期来看，另一个创新的东西提供了个别的保健解决方案，有必须解决的隐私和伦理问题，但是有很大的变革价值，它会改变医疗的方式和生活的质量，你认为在你活着的时候机器会学到什么吗虽然没有，但我认为人类能做的都是机器。大脑是计算过程。我认为那里没有魔法。能理解并实现像人类的大脑一样算法高效强大吗？嗯，不知道时间分配是怎样的。但是我觉得这次旅行很有趣，我们应该致力于实现它。这趟旅行的第一步是理解获得知性的意义。我们想要解决什么问题呢？有自信从象棋和Atari这样的游戏中成为真正的智能吗？强化学习会产生理解常识的机器我们有一个假设，我们把它称为“足够的报酬”假设，根据这个假设，智力的基本过程就像一个试图使报酬最大化的系统一样简单为了达到目标而将报酬最大化的过程足以产生自然智能所能看到的所有智力特性。这是一个假设，不知道是否正确，但它表明了研究的方向。如果你具体理解常识，“报酬充足”的假设很好地表明了这一点，常识对系统来说是有用的，这实际上应该有助于你更好地达到那个目标。

你的专业领域的强化学习，从某种意义上来说，似乎是理解力和“解决力”的基础。这样啊，我觉得真的很有必要。我认为是否真的是最好的问题，因为这是很多人关于人工智能的思考，非常复杂的机制的集合，明显违背了每个人都有需要解决的问题和独特的做法，或者没有常识这样明确的问题定义。这个理论，不，实际上，可能有一个非常明快和简单的方法来考虑所有的智力。那就是它是一个目的优化系统。如果找到优化目标的方法，这些其他的东西都会从这个过程中出来，强化学习从几十年前就存在了，但好像暂时走投无路了。事实上，根据你的导师之一，她想挽留你。你为什么无视她继续走下去。强化学习被认为是解决AI中许多问题的工具之一。我把强化学习作为一个整体来考虑，如果你想尽可能地描述智力，我认为强化学习本质上是我们智力真正意义上的特征，当你开始那样看的时候，我为什么不能这样对待呢。如果这是最接近被称为智能的东西，只要解决了就会解读。请看我的工作。我致力于这个问题。在解决围棋之类的问题的过程中，我明白了智能在这个过程中意味着什么。请认为强化学习是使智能体能够获得所有需要的其他能力的能力。在这里可以看到像AlphaGo一样的东西。在这里只要求赢游戏，但是要学习游戏的结束和开始这一人类过去所拥有的固有知识。计算力会限制AI的发展吗DeepMind有没有压力AlphaGo这样的大展览能再做一次吗。好问题。我认为我们处于一个非常有利的地位，因为我们的立场和资金都是安全的。我们尝试一个新的大规模展示。唯一的压力是进步通用智能。当我们想要在启动中获得资金或在学术界获得资金时，这是不允许的真正的特权

强大的AI系统目前需要大量的计算机能力。你不担心会妨碍进展吗？我们回到[MuZero]。这是根据计算伸缩的算法的例子。在Atari上进行的实验中，即使是极少量的计算（相当于在一个GPU上运行数周）也非常有效，发挥了远远超过人类的性能。也有数字显示，如果把现在能使用的所有计算能力合计起来，就会和人脑处于同一水平。也许你需要考虑一个更聪明的算法。MuZero的精彩之处在于你开始了解世界是如何运转的。你可以用计算来展望未来，想象接下来会发生什么。一些武器交易商利用强化学习建立更强大的武器系统。你怎么看？你有没有想过你的一些作品不应该公布？我反对在所有致命武器上使用AI，希望在禁止致命自动武器方面取得进一步进展。[DeepMind]和联合创始人是一个致命的自动武器承诺签署者，攻击性技术应始终处于适当的人类控制之下。然而，适当公开我们的方法是科学的基础，我们相信通用AI算法的发展将在许多积极应用中带来更大的整体社会利益。原文链接：https：//www.wired.com/story/what-AlphaGo- teach how people - learn /