比如说,你是否曾经想过用自己的语言告诉机器人该做什么,就像对人说话一样?你是否希望只需告诉家庭助手机器人:"请帮我加热午餐",就可以让它自己找到微波炉?尽管语言是我们表达意图最直观的方式,但目前我们仍然严重依赖手写代码来控制机器人。而微软团队一直在探索如何改变这种现实,使用的新AI语言模型实现自然的人机交互

是一个基于大量文本和人类交互训练的语言模型,可以生成一系列连贯和语法正确的回答,以回答各种提示和问题。微软的目标是看看是否可以超越文本,思考物理世界以帮助机器人完成任务。他们希望帮助人们更轻松地与机器人交互,无需学习复杂的编程语言或机器人系统的详细信息。

这里的关键挑战是如何教授如何考虑物理定律、操作环境的上下文以及机器人的物理动作如何改变世界的状态。

事实证明,可以自己做很多事情,但它仍然需要一些帮助。微软在技术论文描述了一系列设计原则,可用于指导语言模型解决机器人任务。来看看,是如何控制机器人的。

根据研究文章的介绍,当前的机器人流程始于需要将任务要求转换为系统代码的工程师或技术用户。工程师处于"in the loop"的状态,这意味着他们需要编写新的代码和规范来纠正机器人的行为。总体而言,这个过程是缓慢的(用户需要编写低级代码)、昂贵的(需要深入了解机器人的高技能用户)和低效的(需要多次交互才能正常工作)。

开启了新的机器人范式,允许(潜在的非技术性)用户坐在"on the loop"上,为大型语言模型(LLM)提供高级反馈机器人模型chatgpt,同时监控机器人的性能。通过遵循我们的一套设计原则,可以生成用于机器人场景的代码。在没有任何微调的情况下,微软可以利用LLM的知识控制了不同机器人形态的不同任务。

在我们的工作中,微软展示了解决机器人难题的多个示例,以及在操作、空中和导航领域中进行的复杂机器人部署。

眼中的机器人

提示LLM是一门高度经验主义的科学。通过不断试错,微软建立了一种方法论和一套用于编写机器人任务提示的设计原则,帮助人们用更好操控机器人:

首先,微软定义一组高级机器人API或函数库。这个库可以特定于特定的机器人,并应该映射到机器人控制堆栈或感知库中现有的低级实现。对于高级API,使用描述性名称非常重要,以便可以推断其行为。

接下来,我们为编写一个文本提示,描述任务目标,同时明确指出高级库中可用的函数。提示还可以包含有关任务约束的信息,或者应如何形成其答案(特定的编码语言,使用辅助解析元素);

用户保持在循环中,通过直接检查或使用模拟器来评估的代码输出。如有需要,用户可以使用自然语言向提供有关答案质量和安全性的反溃

当用户对解决方案感到满意时,可以将最终代码部署到机器人上。

但是还不完善,仍需要更全面的提示系统

良好的提示工程对于LLM(如)在机器人任务中的成功至关重要。现在来看,提示是一门经验主义科学,缺乏全面且易于访问的资源,其中包含有关不同机器人类别的良好(和不良)示例,以帮助领域内的研究人员和爱好者。为了填补这一空白,微软提供了一个 叫 的协作开源平台,任何人都可以在其中共享不同机器人类别的提示策略案例,以丰富整个提升库。目前,微软提供了本研究中使用的所有提示好和对话机器人模型chatgpt,给到公众使用()

除了提示设计外,微软还希望增加包括多个机器人模拟器和接口,以允许用户测试其生成的算法。

微软将机器人技术带出实验室走向世界,而不是毁灭世界

微软发布这项技术研究,目的是让更多人低成本的接触到机器人技术,并且更好地使用它。但是,这一研究发布后,也引起了不少人的恐慌,比如西部世界、天终结者,机械公敌...科幻电影的场景,就要走入了现实。

但是机器人模型chatgpt,微软坚信基于语言的机器人交互控制,是将机器人技术带出科学实验室并进入大众生活的基矗

也就是说,微软再次确实强调, 的输出不应该在未经仔细分析的情况下就直接部署在机器人上。他们鼓励用户利用模拟的力量,以便在潜在的现实生活部署之前评估这些算法,并始终采取必要的安全预防措施。

因此,微软希望借助"控制机器人"的方式能激发未来的大部分工作,让人们从繁忙劳作中解放,去花更多时间享受世界,陪伴家人。

参考文献:

来自AI中国网

免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表本站的观点和立场和对其真实性负责。如需转载,请联系原作者。如果来源标注有误或侵犯了您的合法权益或者其他问题不想在本站发布,来信即删。