机器人带什么技能(现在机器人带什么技能)

转自 CAAI认知系统与信息处理专委会


本文提出了一种在多任务机器人技能获取框架背景下耦合内部引导学习和社交互动的方法。更具体地说,专注于通过结合主动内在动机学习和主动模仿学习来学习机器人运动基元的参数化分布。由机器人通过经验。这种方法旨在通过依赖技能获取机制尽可能有效地结合体验式学习和观察式学习,其中代理/机器人能以迭代方式编排不同的学习策略,并根据以前的经验调整这些模式的使用。模拟的 7-DoF Franka Emika 机器人证明了本文的方法在垃圾扔任务上的有效性,在学习过程的每次迭代中,机器人可以在观察/模仿学习和体验/内在动机学习之间进行主动选择。



人类和其他动物通过终身学习以开放式的方式获得和完善技能,因此在他们的环境中进行互动和学习时具有自主性和多功能性。尽管人工智能取得了重要进展,但机器人仍然缺乏这种能力。赋予机器人以开放式方式增量地自主发现和解决多项任务的能力是当今机器人技术的最大挑战之一,也是发展机器人技术领域的目标。特别是,人类有能力使用多种学习方式,最有趣的是根据其可靠性来仲裁他们的选择。本文通过提出一种结合内在动机学习和模仿学习的有原则的计算方法来探索实现这一目标的可能途径。在机器人技术中,技能习得最常通过专注于单一学习策略或通过预先定义学习策略的基本序列(例如,用演示初始化的强化学习问题)来研究。这导致了大量的研究工作致力于开发专门用于单个领域的非常精细的算法(从演示中学习、强化学习、好奇心驱动的学习)。


本文认为,可以通过允许多种学习策略并提供一种机制来以开放式和交互方式选择这些学习方式,从而降低这种复杂性。就像我们不能仅仅通过看电视来学习踢球,也不能仅仅根据比赛规则从头开始学习足球战术一样。我们认为机器人应该依赖多种学习策略,其顺序只能确定在学习过程中,以终身学习的方式。上述论点受到各个领域的研究的推动,包括认知科学、行为学、神经计算和机器人学,所有这些都以不同的形式证明了见解,关于结合多种学习方式来获得技能的重要性。特别是,多项发展研究表明,模仿学习是儿童发展中社会学习的关键组成部分。孩子们倾向于模仿他们看到的东西,即使观察到的一些动作不一定有用。从发展机器人学的角度来看,本文认为在技能获取过程中编排多种学习策略可以更好地应对每个单独策略的特定优势和局限性。事实上,这些策略通常是相互补充的,因此有必要将它们结合起来。内在动机学习不需要外部指导,即不需要人在场,但通常涉及与环境的长期交互过程。另一方面,模仿学习需要人类在场,但演示提供了大量信息,而这些信息需要大量时间才能自主获取。


本文提出了一种可以在不同方面发挥作用的主动学习方法:在基元级别,通过以开放式方式决定当前最合适的学习方式,在低级别,通过决定哪些代理当前需要自己体验或要求作为演示的条件/情况/背景。本文的贡献是用于学习机器人运动原语的贝叶斯计算框架,提供这种高级和低级仲裁能力,即:策略选择:机器人根据其先前的经验在模仿学习和内在动机学习之间主动选择。示范选择:在模仿学习策略中,机器人主动选择期望的目标产生最有趣的演示。策略探索:在内在动机学习策略中,机器人主动选择哪个动作最能提高其对任务的知识。据本文所知,本文的工作是第一个将这三个学习方面集成到计算框架中的工作。



通过 7-DoF 模拟 Franka Emika Panda 机器人的垃圾投掷任务展示了本文方法的稳健性。本文通过将每个主动学习算法与替代基线进行比较来研究它们的有用性,并表明在所有实验中,本文的算法都提供了最佳性能。本文方法的基本要素在于对运动的联合分布进行建模。以此可以计算几种形式的条件分布(在本文的例子中,量化特定机器人运动对物体的内在激励学习的影响,或者将物体带到所需的最终模仿位置所需的机器人运动学习)。此外,由于内在动机学习和模仿学习基于相同的运动联合模型,本文可以定量比较这些非常不同的学习方式。在未来的工作中,本文将研究是否可以将额外的学习方式添加到框架中。特别是,使用人类反馈作为一种学习方式可能特别有趣,因为人类用户向机器人提供部分反馈而不是完整演示会不那么麻烦。未来还将调查所提议的主动学习方法是否可以扩展到技能的不同方面,以允许不同的学习方式改进任务的不同方面(例如,通过观察学习获得运动学方面,以及通过体验式学习的动态方面)。