卡内基梅隆大学(Carnegie Mellon University)和b谷歌DeepMind的研究人员最近开发了RoboTool,这是一个可以扩大机器人能力的系统,使它们能够以更有创意的方式使用工具。在arXiv预印本服务器上发表的一篇论文中介绍了这个系统,它可能很快会给机器人领域带来新一轮的创新和创造力。
“使用工具通常被认为是高级智能的标志,”卡内基梅隆大学(Carnegie Mellon University)最后一年的博士研究生、该论文的共同第一作者徐梦迪(Mengdi Xu,音译)告诉Tech Xplore。
例如,在沃尔夫冈·克勒(Wolfgang Koehler)的实验中,类人猿巧妙地堆叠板条箱来获取挂在它们够不着的香蕉,而以螃蟹为食的猕猴则用石头作为工具来敲开坚果和贝壳。除了将工具用于其预期目的和遵循既定程序之外,以创造性和非常规的方式使用工具提供了更灵活的解决方案,但对认知能力提出了更多挑战。”
机器人经常以标准和重复的方式完成手动任务,而不探索替代方法。然而,通过探索更具创造性的做事方式,他们可以更好地处理复杂的现实世界场景。
“在机器人技术中,创造性地使用工具也是一项至关重要但要求很高的能力,因为它需要全面的能力来预测行动的结果,推断使用什么工具,并计划如何使用它们,”共同第一作者、博士候选人黄培德说。
Xu, Huang和他们的同事最近工作的主要目标是设计一个系统,使机器人能够更有创造性地使用工具。这样的工具可以帮助更有效地解决许多现实世界的问题,例如,允许机器人在试图抓住遥不可及的物体时调整策略,或者创建台阶以爬到目标位置。
“大型语言模型(llm)的兴起极大地增强了聊天机器人、编码自动化和视觉内容创作的功能,”黄解释说。“除了这些数字界面,嵌入式人工智能可能代表着智能的下一个前沿领域——与现实世界进行有形互动。机器人作为法学硕士的物理延伸,为这一探索提供了理想的媒介。”
法学硕士的出现及其最近的普及鼓励了研究人员探索它们在机器人领域的应用。过去的研究证明了这些模型在提高各种机器人能力方面的潜力,包括它们与用户的沟通,以及它们的推理、计划和任务执行。
例如,b谷歌DeepMind的SayCan工具可以让机器人理解自然语言指令,比如“我的饮料洒了,你能帮忙吗?”,然后设计出解决各种家务的策略。然而,利用llm来解决需要对机器人身体及其周围环境设置的隐式约束进行推理的问题仍然具有挑战性。
徐、黄和他们的同事开始探索使用法学硕士来提高机器人处理不同任务的创造力。换句话说,他们的希望是创建一个系统,可以识别创造性的方法,使看似“不可能”的任务成为可能。
他们提出的系统,被称为RoboTool,接受自然语言指令,包括关于环境的文本和数字信息,机器人的具体体现,以及任何需要遵循的约束。然后,它生成代码,应用机器人的参数化低级技能来控制模拟机器人和物理机器人。
研究人员创造的新工具有四个关键组件:分析器、计划器、计算器和编码器。分析仪处理promptS由用户以自然语言给出,识别可能影响请求任务可行性的关键元素。
系统的计划器组件接收原始语言输入和确定的关键概念,使用它们制定完成任务的综合策略。另一方面,计算器组件确定参数,例如每个参数化技能所需的目标位置。
RoboTool的最后一个组件,编码器,将规划器创建的综合计划和计算器产生的参数转换为可执行的代码。值得注意的是,所有这些组件都是使用OpenAI的GPT-4模型开发的。
RoboTool允许机器人创造性地使用工具,解决他们以前从未遇到过的各种复杂任务。例如,它可以帮助制造一个杠杆来举起沉重的箱子,或者从磁性立方体上制造一根棍子来按下一个够不着的按钮。
Xu, Huang和他们的合作者开发的新工具很快就会被世界各地的机器人专家使用,以扩大他们提出的系统的能力。例如,该工具可以让机器人执行更复杂的家务,如疏通下水道或使用可用工具修理损坏的家具。
徐说:“RoboTool还可以通过临时使用可用的工具来接近被困人员,从而提高机器人在废墟或倒塌建筑中的导航能力。”“它也可以应用于建筑和维护,允许机器人使用手头的任何工具自适应地修复机械或结构,或者通过创造性地组合传统工具来构建复杂的设计。”
研究人员已经在项目网站上发布了RoboTool的演示视频。在接下来的研究中,他们计划将大型视觉基础模型整合到他们的系统中,包括支持3D计算机视觉的模型,因为这可以进一步增强机器人在开放世界环境中的感知和推理能力。
CMU安全人工智能实验室主任、副教授丁钊表示:“我们还计划开发直观的方法,让人类指导和与RoboTool合作,并为RoboTool建立安全措施,降低机器人与人类一起工作时的风险。”
更多信息:徐梦迪等,基于大型语言模型的创造性机器人工具使用,arXiv(2023)。DOI: 10.48550/ arXiv .2310.13065
?2023 Science X Network
引用:通过利用大型语言模型,允许机器人创造性地使用工具的系统(2023年,11月14日)
作品受版权保护。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。的有限公司
内容仅供参考之用。