7月12日,国际界传来新动态,谷歌正借助其先进的Gemini 系统,深化对旗下的训练,旨在显著提升它们的导航能力和任务执行能力。DeepMind机器人团队发布的研究论文,详细阐述了如何利用Gemini 1.5 Pro的强化长上下文窗口功能,极大地优化了用户通过自然语言指令与RT-2机器人交互的体验。
这一创新技术的核心在于,机器人首先通过拍摄并分析家庭或办公室等指定区域的,利用Gemini 1.5 Pro的强大能力来“学习”并理解其所在环境。随后,机器人能够基于这些视觉,灵活运用语音和/或图像反馈,执行用户的复杂指令。例如,当用户询问“我在哪里可以给充电?”时,机器人能迅速识别环境,并引导用户至最近的插座。
据DeepMind透露,在覆盖超过9,000平方英尺的测试区域内,这些由Gemini驱动的机器人成功响应并完成了50多项不同用户指令,成功率高达90%,展现了极高的准确性和效率。
更令人振奋的是,初步研究还揭示了Gemini 1.5 Pro赋予机器人的额外能力——即除了精准导航外,还能规划并执行更为复杂的任务指令。例如,面对询问是否有特定饮料的用户,机器人能够自主决定前往冰箱检查,随后返回并报告结果,这一连串动作展现了其强大的决策与执行能力。
尽管在视频演示中,机器人对每条指令的迅速确认给人留下了深刻印象,但研究报告也诚实地指出了背后隐藏的“秘密”——处理这些复杂指令实际上需要10至30秒的时间。这表明,尽管技术进步显著,但实现完全无缝的人机交互仍需时日。
不过,这一系列的进展无疑为我们描绘了一幅未来生活的美好图景:或许不久的将来,我们就能与这些高度化的机器人共享家园,让它们帮助我们找到遗失的钥匙、钱包,甚至是执行更多日常生活中的琐碎任务,极大地提升生活的便捷性与舒适度。
上一篇:逐际动力再获资本青睐,加速通用人形机器人技术商业化进程
下一篇:FSD渐入佳境,视觉方案还在机器人中“打酱油”?
- XPC564AEVBKIT: MPC564xA评估套件:XPC564AKIT176S、XPC564AKIT208S和XPC564AKIT324S
- 使用 ON Semiconductor 的 ILC6381 的参考设计
- LTC3119EFE 3.3V、750kHz 宽输入稳压器的典型应用电路
- OP184FSZ-REEL 电阻与输入串联的典型应用将过压电流限制在安全值
- DER-601 - 基于InnoSwitch3-CP的60W USB PD Type-C电源
- TMC2225步进电机驱动
- REF191 精密微功率、低压差堆叠电压基准的典型应用电路
- LTC3855EUJ 演示板,双路输出,VIN = 4.5V 至 25V,VOUT1 = 3.3V @ 5A,VOUT2 = 2.5V @ 5A
- LTC2946IMS 12V、50A 电源、电荷和能量监视器的典型应用
- LTC3225 的典型应用 - 150mA 超级电容器充电器