【人工智能】一切皆与经验相关 | Richard Sutton揭示强化学习的核心 | 2024 ACM图灵奖 | 如何解释智能 | 四个阶段 | 何为经验 | 世界状态 #
最近,人工智能领域传来喜讯,被誉为“强化学习之父”的理查德·萨顿及其导师安德鲁·巴托荣获2024年度图灵奖,这是计算机领域的最高荣誉,表彰他们对人工智能,特别是强化学习的开创性贡献。萨顿的《苦涩的教训》已成为AI从业者的必读经典。
萨顿在2022年的演讲《AI中感知运动经验日益重要的作用》中,深入探讨了强化学习的核心——利用经验学习的方法。他认为,Agent通过与外部世界交互产生经验,这种交互包括发出动作并接收感知反馈。这种经验是强化学习中普遍的感知方式,也是Agent预测世界变化的基础。与此不同的是,监督学习主要依赖特殊的训练数据,系统运行时并不学习新的经验。
经验是Agent与外部世界互动产生的数据,是沟通的重要途径。但经验本身如果没有与其他经验建立联系,就没有实际意义,除非它能带来奖励。奖励代表Agent追求的目标,Agent的目标就是最大化奖励。智能究竟是用客观术语还是经验术语来解释?客观术语包含外部世界的状态、目标、人、地点等,而经验术语则包含感知、动作、奖励等Agent内部的事物。萨顿认为,虽然研究者们通常思考客观概念,但现在更应关注Agent与外部世界交互产生的经验。
萨顿认为,AI的发展将经历四个阶段:智能体身份(Agenthood)、奖励(Reward)、经验状态(Experiential State)以及可预测的知识(Predictive Knowledge)。首先是智能体身份阶段,早期AI系统功能单一,主要解决问题或回答问题,没有感知和行动能力。过去30年,人工智能的研究方向发生了巨大转变,开始关注构建Agent,使其能够从环境中获得认知并采取行动。
接下来是奖励阶段,这是一种以经验形式描述AI目标的有效方法。尽管有人认为奖励已经足够构建智能目标,但萨顿认为,奖励仅仅是一个数字,不足以解释智能的目标。然而,奖励的优势在于目标可以被清晰定义且易于学习。
萨顿还用一个Agent执行程序的输入输出信号阵列的例子,详细解释了什么是经验。他认为,经验是对感觉-运动经验的数据中发现的模式所产生的知识和理解。其中包含了行动与感知信号的关联,以及奖励的预测。
在经验状态阶段,萨顿提出的经验状态与客观的世界状态不同,它是根据经验来定义的,是过去经验的总结,用来预测和控制未来获得的经验。经验状态可以递归更新,AI可以每时每刻访问经验状态,从而预测接下来会发生的事情。
最后是预测性知识阶段,这类知识与描述外部客观世界的知识不同,它属于经验知识。以往的AI研究倾向于将知识视为客观选项,但萨顿认为,基于对序列事件的预测是一种具有明确语义属性的知识,可以被视为一种新的世界知识。一般价值函数和选择模型是预测性知识领域的前沿成果。
尽管经验在AI发展中越来越重要,但萨顿也承认,对人类来说,经验过于主观化和个人化。然而,对AI来说,经验是无成本、自动获取的,且AI有大量数据可用于计算。经验就像一条通向了解世界的道路。
萨顿总结说,在过去70年里,AI领域逐渐增加对经验的重视,从最初获得经验,到根据经验设定目标,再到根据经验获得状态和知识,每一个阶段都在不断进步。虽然目前AI还没有完全完成经验状态和预测性知识这两个阶段,但这种发展趋势会越来越明显。他认为,将一切都归于经验,才是通向真正AI的可行路径。并非所有的一切都是从经验中习得的,而是所有的一切都与经验有关。