【人工智能】经验时代来临 | AI的下一个范式转变 | 人类数据时代 | 自主学习 | 经验流 | 真实世界互动 | 奖励机制 | 规划与推理 | 世界模型 | 发展与挑战
近年来,人工智能借助海量人类生成数据取得了令人瞩目的突破。然而,仅仅依赖现有数据和方法,AI能否持续进步,其未来发展方向又在何方?谷歌强化学习副总裁大卫·西尔弗和图灵奖得主理查德·萨顿共同撰写了一篇名为《欢迎来到经验时代》的论文,犹如《苦涩的教训》般,为我们指明了AI的未来之路。
西尔弗和萨顿认为,人类数据正在达到瓶颈,经验才是下一个超级数据源。真正能推动AI进步的数据,必须随着模型变强而自动增长,而唯一途径就是经验本身。萨顿主张,未来的AI将不再是提示词加知识库,而是行动加反馈的循环体。经验时代标志着AI范式的重大转变,我们将从人类数据时代跨入经验时代,这不是模型的升级,而是更根本的范式转变。AI将从模仿人类走向超越人类,从静态数据走向动态经验,从监督学习走向主动试错。
回顾AI的发展历程,可以发现,AI通过训练海量人类数据,并借助专家标注进行微调,取得了显著进步,大语言模型就是典型代表。但这种依赖人类数据的发展模式也逐渐暴露问题。虽然模仿人类能让AI在一定程度上复现人类能力,但要在数学、编程、科学等关键领域实现超人类智能,仅靠这一点远远不够。在这些领域,从人类数据中提取的知识已接近极限,高质量数据来源要么已被大量使用,要么即将耗尽。更重要的是,很多新见解,如新的定理、技术或科学突破,都超出了人类理解范围,现有数据无法捕捉。因此,我们需要寻找新的数据来源和发展模式。
萨顿认为,新的数据来源于Agent与环境互动产生的数据,这能让Agent不断从自身经验中学习,持续改进数据。经验将成为AI发展的主要数据来源,完全取代以人类为主的数据。例如,AlphaProof在接触了人类数学家创建的大约十万个形式化证明后,通过与形式化证明系统的持续互动,生成了数亿个新的证明,从而探索了超越形式化证明的数学可能性。
经验时代的Agent不仅能从海量经验数据中学习,还能突破以人类为中心的AI系统的局限性。首先,Agent将栖息于经验流之中,而非短暂的互动片段,能在较长时间尺度上推进学习和行动。例如,连接可穿戴设备的健康Agent能持续监测用户睡眠、活动和饮食,提供个性化建议;个性化教育Agent能跟踪用户学习语言的进展,根据学习风格调整教学方法;科学Agent能追求宏大目标,分析真实世界观察结果,进行模拟实验。其次,Agent的行动和观察将深深扎根于环境之中,而非仅仅通过人类对话互动,它们将积极探索世界,根据环境变化调整行为,发现人类未曾想到的策略,并采取“机器友好”的行动方式,通过数字接口与真实世界互动,例如监测环境传感器数据,远程操作望远镜,或控制实验室机械臂。第三,Agent的奖励将来自对环境的体验,而非人类先入为主的判断。例如,健康助手根据用户休息时心率、睡眠时长等信号设置奖励,给出更合适的健康建议;教育助手用学生考试成绩作为奖励信号,优化教学策略;用户可以反馈自己吃了某个蛋糕后的感受,让助手提供更好的食谱。最后,Agent将根据经验计划和推理,而非仅仅用人类的术语进行推理。Agent通过将token添加到自己的上下文中来执行各种算法,在人类数据时代,这些推理方法大多是模仿人类的思维过程,但在经验时代,自主学习系统可以通过经验学习,发现或改进更有效的思维机制。Agent必须与现实世界进行互动,做出假设、进行实验、观察结果,然后根据结果来更新自己的原则,才能够推翻那些错误的思维方法。
构建世界模型是让Agent的思维扎根于外部世界的一种可行方法。世界模型可以预测Agent的行动对世界的影响,包括预测奖励。Agent就能根据自己的行动以及它对世界的因果效应来进行计划。随着Agent在经验流中不断与世界互动,这个动态模型会不断更新,纠正预测中的错误。计划和推理这两个方法不是相互排斥的,Agent可以在计划过程中使用内部的大语言模型来选择行动,或者模拟、评估这些行动的后果。
虽然从经验中学习不是新鲜事,但以前的强化学习系统在模拟环境中取得了成功,却难以跨越到现实世界。在人类数据的时代,基于人类数据训练的大语言模型虽然实现了广泛的能力,但是过于依赖人类的知识和数据,减弱了Agent自我发现知识的能力。而经验时代的到来,正是为了调和这两者的优势。
自主Agent和强化学习方法的不断发展,表明向经验时代的过渡即将到来。随着以人为中心的大语言模型兴起,人们的焦点从如何自主学习转移到了如何利用人类知识上,RLHF之类的技术虽然功能强大,但是往往绕过了强化学习的核心概念。经验时代的到来,正好为我们重新审视和改进这些概念提供了机会。通过对这些经典概念和算法的深入研究和优化,我们可以更好地释放自主学习的潜力,让Agent在经验流中更加高效地学习和成长。
经验时代的到来无疑会带来巨大的影响,既有令人期待的潜力,也伴随着诸多挑战。它有望带来更加个性化的助手,但在工作岗位流失、安全风险以及决策过程的可解释性方面,也带来了一系列挑战。经验时代的Agent往往是通过复杂的算法和大量的经验数据进行学习和决策的,这个决策的过程和结果的可解释性可能会变得更低。经验学习并非只有风险,也具有一些安全方面的优点,例如Agent在经验流中可以不断适应环境的变化,奖励函数可以根据用户的需求和环境的变化灵活的调整。
总而言之,经验时代将是AI发展的下一个关键时期。在这个时代,Agent将不再局限于从人类衍生的数据中学习,而是能够从自身与世界的互动中获取经验,不断地学习和成长,从而超越人类数据的局限,释放出全新的能力。