AI 大模型迈向多模态，助力具身智能与机器人实现创新-电子工程世界

你听过莫拉维克悖论 (Moravec's paradox) 吗？该悖论指出，对于人工智能 (AI) 系统而言，高级推理只需非常少的计算能力，而实现人类习以为常的感知运动技能却需要耗费巨大的计算资源。实质上，与人类本能可以完成的基本感官任务相比，复杂的逻辑任务对 AI 而言更加容易。这一悖论凸显了现阶段的 AI 与人类认知能力之间的差异。

人本来就是多模态的。我们每个人就像一个智能终端，通常需要去学校上课接受学识熏陶（训练），但训练与学习的目的和结果是我们有能力自主工作和生活，而不需要总是依赖外部的指令和控制。

我们通过视觉、语言、声音、触觉、味觉和嗅觉等多种感官模式来了解周围的世界，进而审时度势，进行分析、推理、决断并采取行动。

经过多年的传感器融合和 AI 演进，机器人现阶段基本上都配备有多模态传感器。随着我们为机器人等边缘设备带来更多的计算能力，这些设备正变得愈加智能，它们能够感知周围环境，理解并以自然语言进行沟通，通过数字传感界面获得触觉，以及通过加速计、陀螺仪与磁力计等的组合，来感知机器人的比力、角速度，甚至机器人周围的磁场。

迈入机器人和机器认知的新时代

在 Transformer 和大语言模型 (LLM) 出现之前，要在 AI 中实现多模态，通常需要用到多个负责不同类型数据（文本、图像、音频）的单独模型，并通过复杂的过程对不同模态进行集成。

而在 Transformer 模型和 LLM 出现后，多模态变得更加集成化，使得单个模型可以同时处理和理解多种数据类型，从而产生对环境综合感知能力更强大的 AI 系统。这一转变大大提高了多模态 AI 应用的效率和有效性。

虽然 GPT-3 等 LLM 主要以文本为基础，但业界已朝着多模态取得了快速进展。从 OpenAI 的 CLIP 和 DALL·E，到现在的 Sora 和 GPT-4o，都是向多模态和更自然的人机交互迈进的模型范例。例如，CLIP 可理解与自然语言配对的图像，从而在视觉和文本信息之间架起桥梁；DALL·E 旨在根据文本描述生成图像。我们看到 Google Gemini 模型也经历了类似的演进。

2024 年，多模态演进加速发展。今年二月，OpenAI 发布了 Sora，它可以根据文本描述生成逼真或富有想象力的视频。仔细想想，这可以为构建通用世界模拟器提供一条颇有前景的道路，或成为训练机器人的重要工具。三个月后，GPT-4o 显著提高了人机交互的性能，并且能够在音频、视觉和文本之间实时推理。综合利用文本、视觉和音频信息来端到端地训练一个新模型，消除从输入模态到文本，再从文本到输出模态的两次模态转换，进而大幅提升性能。

在今年二月的同一周，谷歌发布了 Gemini 1.5，将上下文长度大幅扩展至 100 万个词元 (Token)。这意味着 1.5 Pro 可以一次性处理大量信息，包括一小时的视频、11 小时的音频、包含超过三万多行代码或 70 万个单词的代码库。Gemini 1.5 基于谷歌对 Transformer 和混合专家架构 (MoE) 的领先研究而构建，并对可在边缘侧部署的 2B 和 7B 模型进行了开源。在五月举行的 Google I/O 大会上，除了将上下文长度增加一倍，并发布一系列生成式 AI 工具和应用，谷歌还探讨了 Project Astra 的未来愿景，这是一款通用的 AI 助手，可以处理多模态信息，理解用户所处的上下文，并在对话中非常自然地与人交互。

作为开源 LLM Llama 背后的公司，Meta 也加入了通用人工智能 (AGI) 的赛道。

这种真正的多模态性大大提高了机器智能水平，将为许多行业带来新的范式。

例如，机器人的用途曾经非常单一，它们具备一些传感器和运动能力，但一般来说，它们没有“大脑”来学习新事物，无法适应非结构化和陌生环境。

多模态 LLM 有望改变机器人的分析、推理和学习能力，使机器人从专用转向通用。PC、服务器和智能手机都是通用计算平台中的佼佼者，它们可以运行许多不同种类的软件应用来实现丰富多彩的功能。通用化将有助于扩大规模，产生规模化的经济效应，价格也能随着规模扩大而大幅降低，进而被更多领域采用，从而形成一个良性循环。

Elon Musk 很早就注意到了通用技术的优势，特斯拉的机器人从 2022 年的 Bumblebee 发展到 2023 年三月宣布的 Optimus Gen 1 和 2023 年年底的 Gen 2，其通用型和学习能力不断提高。在过去的 6 至 12 个月里，我们见证了机器人和人形机器人领域所取得的一系列突破。

下一代机器人和具身智能背后的新技术

毋庸置疑的是我们在具身智能达到量产方面还有很多工作要做。我们需要更轻便的设计、更长的运行时间，以及速度更快、功能更强大的边缘计算平台来处理和融合传感器数据信息，从而做出及时决策和控制行动。

而且我们正朝着创造人形机器人的方向发展，人类文明数千年，产生出无处不在的专为人类设计的环境，而人形机器人系统由于形体与人们类似，有望能够在人类生存的环境中驾轻就熟地与人类和环境互动并执行所需的操作。这些系统将非常适合处理脏污、危险和枯燥的工作，例如患者护理和康复、酒店业的服务工作、教育领域的教具或学伴，以及进行灾难响应和有害物质处理等危险任务。此类应用利用人形机器人类人的属性来促进人机自然交互，在以人为中心的空间中行动，并执行传统机器人通常难以完成的任务。

许多 AI 和机器人企业围绕如何训练机器人在非结构化的新环境中更好地进行推理和规划，展开了新的研究与协作。作为机器人的新“大脑”，预先经过大量数据训练的模型具有出色的泛化能力，使得机器人能做到见怪不怪，更全面地理解环境，根据感官反馈调整动作和行动，在各种动态环境中优化性能。

举一个有趣的例子，Boston Dynamics 的机器狗 Spot 可以在博物馆里当导游。Spot 能够与参观者互动，向他们介绍各种展品，并回答他们的问题。这可能有点难以置信，但在该用例中，比起确保事实正确，Spot 的娱乐性、互动性和细腻微妙的表演更加重要。

Robotics Transformer：机器人的新大脑

Robotics Transformer (RT) 正在快速发展，它可以将多模态输入直接转化为行动编码。在执行曾经见过的任务时，谷歌 DeepMind 的 RT-2 较上一代的 RT-1 表现一样出色，成功率接近 100%。但是，使用 PaLM-E（面向机器人的具身多模态语言模型）和 PaLI-X（大规模多语言视觉和语言模型，并非专为机器人设计）训练后，RT-2 具有更出色的泛化能力，在未曾见过的任务中的表现优于 RT-1。

微软推出了大语言和视觉助手 LLaVA。LLaVA 最初是为基于文本的任务设计的，它利用 GPT-4 的强大功能创建了多模态指令遵循数据的新范式，将文本和视觉组件无缝集成，这对机器人任务非常有用。LLaVA 一经推出，就创下了多模态聊天和科学问答任务的新纪录，已超出人类平均能力。

正如此前提到的，特斯拉进军人形机器人和 AI 通用机器人领域的意义重大，不仅因为它是为实现规模化和量产而设计的，而且因为特斯拉为汽车设计的 Autopilot 的强大完全自动驾驶 (FSD) 技术基础可用于机器人。特斯拉也拥有智能制造用例，可以将 Optimus 应用于其新能源汽车的生产过程。

Arm 是未来机器人技术的基石

Arm 认为机器人脑，包括“大脑”和“小脑”，应该是异构 AI 计算系统，以提供出色的性能、实时响应和高能效。

机器人技术涉及的任务范围广泛，包括基本的计算（比如向电机发送和接收信号）、先进的数据处理（比如图像和传感器数据解读），以及运行前文提到的多模态 LLM。CPU 非常适合执行通用任务，而 AI 加速器和 GPU 可以更高效地处理并行处理任务，如机器学习 (ML) 和图形处理。还可以集成图像信号处理器和视频编解码器等额外加速器，从而增强机器人的视觉能力和存储/传输效率。此外，CPU 还应该具备实时响应能力，并且需要能够运行 Linux 和 ROS 软件包等操作系统。

当扩展到机器人软件堆栈时，操作系统层可能还需要一个能够可靠处理时间关键型任务的实时操作系统 (RTOS)，以及针对机器人定制的 Linux 发行版，如 ROS，它可以提供专为异构计算集群设计的服务。我们相信，SystemReady 和 PSA Certified 等由 Arm 发起的标准和认证计划将帮助扩大机器人软件的开发规模。SystemReady 旨在确保标准的 Rich OS 发行版能够在各类基于 Arm 架构的系统级芯片 (SoC) 上运行，而 PSA Certified 有助于简化安全实现方案，以满足区域安全和监管法规对互联设备的要求。

大型多模态模型和生成式 AI 的进步预示着 AI 机器人和人形机器人的发展进入了新纪元。在这个新时代，要使机器人技术成为主流，除了 AI 计算和生态系统，能效、安全性和功能安全必不可少。Arm 处理器已广泛应用于机器人领域，我们期待与生态系统密切合作，使 Arm 成为未来 AI 机器人的基石。

关键字：AI 大模型模态机器人 Arm 物联网引用地址：AI 大模型迈向多模态，助力具身智能与机器人实现创新

上一篇：比Java快15倍！国产编程语言MoonBit发布原生后端
下一篇：TI研讨会正在进行中，米尔诚邀您参与

推荐阅读最新更新时间：2024-11-10 18:32

巨头垄断、3年一洗牌，国内工业机器人企业生存法则

近日，在中央经济工作会议提出的2019年重点工作任务中，“推动制造业高质量发展”被放在了首位。我国虽已成为全球制造业大国，但“大而不强”“全而不优”的问题仍然突出。对于工业机器人企业来说，在中国制造特有的模式下，势必需要走出一条新的道路。中国特色下的工业机器人企业在谈国内制造业之前，我们先来看一组数据。近半年以来，制造业PMI指数持续下降，2月份中国官方公布的数据已经低于50.0%的临界点，外需疲软，产出指数甚至续创两年半低点；从企业规模来看，大、中、小型企业PMI分别为51.5%、46.9%以及45.3%，小型企业PMI较上月下降2%。但是中国PMI指数的下降在一定程度上是受到了全球宏观经济下行的影响。放眼全球，美国、

[机器人]

ARM吴雄昂：物联网需要开放的生态系统

本报记者倪雨晴深圳报道　　在物联网、智能硬件、可穿戴设备概念盛行的当下，产业链上游的半导体界也在风口挺进新技术的生态布局。　　6月初，Intel宣布以167亿美元重金收购可编辑逻辑芯片公司Altera，增强其数据中心和物联网业务； 5月28日，Avago Technologies以370亿美元收购wifi芯片供应商Broadcom，亦有意进军物联网和可穿戴设备。　　不难发现，在物联网和服务器领域，各种布局正拉开序幕。去年，ARM宣布推出mbed物联网设备平台，同年，英特尔也推出了英特尔物联网平台，两者的目的都是为用户提供解决方案。　　ARM是半导体知识产权(IP)提供商，它是苹果、诺基亚、A

[手机便携]

法律机器人“就职”和平法院

辽宁省首个集法律咨询和法律工具于一体的智能机器人“和平法宝”成为和平区人民法院的一名“新同志”。这位“同志”大脑里装有海量法律知识，能为群众提供全天候、全方位的诉讼服务，大家亲切地叫他“小宝”。 “小宝”是和平区人民法院升级诉讼服务的便民利民新举措。“小宝”既有微信线上版，登录和平区人民法院微信公众号就能找到“小宝”，又有现场实体版，他就在诉讼服务大厅等着你。 “小宝”可通过语音和文字等方式与群众进行智能交流，具有四大本领：一是诉讼引导。帮助当事人熟悉立案流程，能引用法条、分析案情并作出逻辑的推理判断。二是答疑解惑。“小宝”大脑中装着10万个实体法律问题，涉及的法律类型有刑事、民事、行政、知识产权等。三是提供参考。“小宝”

[嵌入式]

人工智能概念被炒烂，在电视领域怎么玩

提到当下互联网的热词，“ 人工智能 ”必不可少。随着科技的成熟，人工智能已经被应用于多种行业领域，诸如人工智能手机、智能音箱、人工智能电视等。提到电视，这一霸占传统家居许久的家电产品，在人工智能技术的进一步开发下，逐渐成为电视厂商们新的博弈点。不过，即使有了人工智能电视，还是没能拯救彩电市场日渐加重的颓势。中怡康时代全渠道数据显示，2017年Q1彩电零售量创五年来新低，同比下降12.5%。2017年上半年，除了2月和6月份销量出现小幅上涨外，其余月份销量形势均不容乐观，线下市场同比下降4.7%，线上同比下降19.3%。究其原因，除了年轻用户的大量流失，以及家庭娱乐习惯的改变，还有另一不可忽视的重点，那便是当下人工智能电

[嵌入式]

全世界每10台工业机器人就有4台被中国买走

国际机器人联合会（IFR World Robotics）给出的数据很好地展示了工业机器人在全球的增长势头：根据国际机器人联合会的研究，2016年的工业机器人销售额增长18%，达到创纪录的131亿美元。数据显示，全世界去年大约卖出30万台机器人，其中四分之三集中于五个国家，分别是中国、韩国、日本、美国和德国。每10台机器人就有4台被中国买走。曾经靠人力成为“世界工厂”的中国，从2013年以来一直都是最大的工业机器人购买国，去年的采购量增长27%。很多发展中地区的投资也在增加，例如中国台湾、泰国、印度和墨西哥，以及意大利和法国。就在机器人崛起的同时，这一领域的一批全球顶尖公司的股价也大幅飙升，包括日本的发那科和安川电气、

[嵌入式]

国外人工智能产业发展及应用分析，哪个国家处于领先地位

21世纪以来，人工智能的迅猛发展使其再次进入公共视野，例如，人工智能的“深度学习”，能够做出类似于人脑神经系统的反应，进行学习、分析问题，并就事物发展做出自己的推测与布局。金融风波平息后，西方发达国家加大了对人工智能领域的投资力度，该领域内的3D智能打印、人脑研究等项目的发展都取得了显著成就。目前人工智能研究的关注点主要集中在云机器人技术以及人脑仿生计算技术两方面。包括日本、美国在内的多个国家都十分关注云机器人的研究与开发，并通过发展相关技术，如机器人网络系统的计算方法、图像分析及处理技术、机器人控制系统的开放体系结构等，促进该领域的发展。对于人脑仿生计算技术的发展，多建立在“深度学习”的基础上，该技术的应用能够使

[嵌入式]

台积电10nm报喜物联网成为营收新主力

分享外资透露，台积电共同执行长刘德音昨（18）日在美林论坛专题演讲中指出，物联网将是继行动装置之后，半导体产业的成长新机会。台积电先进制程也捎来喜讯，刘德音预估，2020年时10奈米制程占台积电总营收比重将达55%。业界认为，物联网商机庞大，估计至2020年时，可创造约500亿颗晶片需求，台积电身为全球晶圆代工龙头，在物联网应用的成熟制程已取得制高点位置，加上台积电10奈米先进制程可望成为2020年营收主力，追赶英特尔，在成熟与先进制程同步大跃进带动下，台积电后市看俏。刘德音昨天受邀在美林论坛以Growth Beyond Mobile（行动装置时代后半导体成长动能何在？）为题，进行专题演讲。由于是闭门会议，现

[半导体设计/制造]

小鹏AI天玑5.4.0全球首发，“端味十足”的智驾下半场正式开战

10月24日，“小鹏P7+AI智驾技术分享会暨首发AI天玑5.4.0先享会”在广州举办，小鹏汽车副总裁、自动驾驶负责人李力耘博士、小鹏汽车智能体验负责人于桐，分别介绍了小鹏端到端大模型的技术优势和AI天玑5.4.0版本。与此同时，即日开始，全新版本端到端AI智驾在X9/G9/G6/P7i上同步开启公测，陆续推送中。云端大模型：智驾竞争的关键 2024 年，端到端大模型成为智驾行业最炙手可热的概念。随着 AI 大模型技术的发展，各家车企纷纷加大在这一领域的研究和量产力度。小鹏汽车在 “520AI DAY” 上发布了国内首个量产上车的端到端大模型，成为全球唯二量产端到端大模型的车企。在本次分享会上，小鹏

[汽车电子]

小鹏<font color='red'>AI</font>天玑5.4.0全球首发，“端味十足”的智驾下半场正式开战

热门资源推荐
热门放大器推荐

小广播