Leiphone雷峰网

具体到人形机器人的能力方面，因为人形机器人通常需要具备几大核心能力：人机交互、对话、移动和操作能力。这些能力在传统上对于人形机器人而言并不容易自主实现，往往需要凭借大量的外部输入和条件限制。而我们现在的研究，正是通过大型模型技术的应用，充分利用大模型内含的知识逻辑和推理能力，提升人形机器人的自主性和智能化水平，把机器人各种能力链接起来。

雷峰网：大模型这项技术将如何影响人形机器人的智能化进程？相应地，大模型对人形机器人来说是否也带来了新的挑战？

庞建新： 将大模型技术融入人形机器人领域，确实存在一些挑战和问题，我们在做实际项目时就能感受到。

首先，大模型的核心是在于其能够集成大量知识，供人类使用。然而在 人形 机器人领域，许多场景与知识并无直接关联。

许多行为，如人类的本能反应或动作智能，并不完全依赖于显性的知识。比如说我们在抓取物体或在不平坦地面行走时，往往不需要经过深思熟虑，身体能够自动适应环境。

在人形机器人的设计中，我们可以将其分为“大脑”、“小脑”和“躯体”三部分。小脑部分与大模型中的知识学习并不直接相关。因此，在大模型技术落地时，我们需要解决如何将大脑与小脑结合，以及如何通过小脑驱动躯体的问题。

其次，大模型依赖数据， 当任务与数据关系不大，或者数据难以采集和学习时，这构成了一个重大挑战。大模型训练和推理的高算力要求也是一个问题，特别是当应用场景对实时性有高要求时。

第三个挑战是大模型本身的特性，伴随着“涌现”的同时，这也可能导致“幻觉”问题 。如何抑制这些幻觉，通过各种方式抑制或者控制大模型输出错误信息，是我们需要克服的难题。

此外，大模型的成功率或者有效率问题也至关重要。对于大多数用户，往往需要多次尝试输入才能得到有效答案， 如何尽可能降低使用者的专业水平，比如通过自动生成相关提示语高效地获得正确结果，也是当前大模型需要解决的重要问题。

雷峰网：大模型与人形机器人的结合正在发展期，是否分化为几种不同流派？

庞建新： 我个人认为，可能有两种流派。

一种流派采用分层结构，将大模型分为三个层次：

第一层与大脑相关，主要处理知识、常识推理等；

第二层与动作决策和任务规划相关，类似于小脑的功能，指导动作的规划；

第三层则直接与控制相结合，处理动作的规划与控制。

这种分层解耦的方法，使得每一层都可以专注于其特定的任务和数据需求。

在大脑层面，可以使用现有的大模型数据，如与场景相关的知识和数据。

而在动作规划层面，由于大语言模型中缺乏这方面的内容，我们需要在仿真环境或物理环境中采集新的数据，以丰富这一层次的数据集。

至于控制层面，可能需要通过强化学习等技术，在虚拟或物理环境中生成所需数据。

另一种流派则追求端到端的解决方案，即从感知直接到控制的全过程。

这种方法虽然数据更为复杂，但能够提供更为直接的解决方案。然而，这种端到端的数据同样难以获取。

在实践中，我们的选择并不局限于单一流派。我们同时探索了解耦的分层方法和端到端的技术，以技术储备和实际应用需求为导向。 也就是说，由于人形机器人存在特殊的非刚体特性，我们目前更倾向于采用解耦的分层方法。同时，我们也在进行端到端技术的探索和研究，以适应未来可能的需求和发展。

雷峰网：最近我们对孙宇教授做了专访。孙教授的研究重点在于将大型语言模型应用于具体的机器人任务中，例如厨房烹饪场景。他的研究使得机器人能够创造出知识库中未包含的新菜单。此外，GPT-4通过精心设计的提示工程，能够生成多个不同的高级任务规划，并将其转化为可执行的低级PDDL计划。请问，优必选在这一领域的研究是否有相似之处，或者存在某些差异？

庞建新： 孙教授的研究实际上涉及到了高层决策和任务规划。

当我们人类执行一个任务时，通常会将其分解为一系列子任务，这个过程可能是下意识的，不一定由大脑直接完成，也可能是小脑参与其中，因为人类的认知过程相当复杂。

例如，当我们想要拿一瓶水时，我们自然而然地知道水可能在冰箱里，于是我们会走向冰箱，打开门，通过视觉找到水，然后抓取并带回。这个过程就是一个任务流。

所以抽象来看， 人类执行任务时，将其拆解为各个子任务本身就是一种知识。这种知识可以通过推理或场景驱动来实现。 这表明，大模型在理解和生成任务规划方面具有巨大的潜力，尤其是在与具体场景和知识库相结合时。

当前的AI技术，正是通过大模型，包括GPT或其他模型，处理这种任务流，进行决策，并将任务分解为子任务，再由人形机器人执行。

我们的一些研究工作与孙教授的研究类似，也是在特定场景中进行。例如，我们在2023年世界机器人大会上展示的“人形机器人多模态具身智能系统”，就涉及到更高层次的决策和任务拆解。

雷峰网：我追问一个问题，大模型与人形机器人的结合，是否能够帮助机器人向人类智能迈出关键一步？

庞建新： 首先，我们需要认识到，大模型的应用不仅仅是关于知识的问题，它还涉及到上下文和环境的问题。

当我们考虑将大模型应用于人形机器人时，目前还是会采用多个模型的集成应用，我们通常会将其分为几类：

基于语言的大模型、基于视觉的小模型、语音的小模型、多模态的大模型，以及通过强化学习等方式学习到的动作规划，以及控制策略的方面的大模型等等，它们在学习方式和应用上的差异是显著的。

一般看来，人们通常将大模型与基于生成式的语言大模型联系在一起。然而，在 人形 机器人的控制和规划领域，它们有自己独特的模型体系，这些模型与语言处理的并不是完全一样。

但无论是哪一种大模型，它们能与人形机器人结合的原因在于，人形机器人需要在复杂多变的环境中进行有效的交互和操作。那么，多模态大模型和基于知识的大模型，能够为机器人提供丰富的上下文信息和环境理解能力，从而提高其适应性和决策质量。此外，通过强化学习等技术学到的动作规划策略，可以增强人形机器人的动作协调性和任务执行能力，通过将这些模型进行融合，从而提升了人形机器人与物理世界的交互能力和智能化水平。

雷峰网：那么您的团队在融合大模型技术时，在分工上如何安排？

庞建新： 优必选在这方面采取了一种灵活而协同的工作方式。

由于大模型技术涉及的领域广泛，公司在进行相关项目时通常会组织多个团队联合作业。这些团队可能包括视觉感知、控制和语言处理等领域的专家。这样的跨领域合作模式已经成为优必选的标准做法。

而且与传统的深度学习项目不同，大模型技术的应用已经超越了单一工种的界限，需要多个团队的紧密协作。

这种跨团队的合作模式并不是新的组织结构，而是大模型技术发展至今的必然结果。技术的多样性和复杂性要求不同领域的专家共同参与，来实现项目的成功。

雷峰网：当前优必选推动技术成果产业化方面，有哪些计划或正在进行的项目？

庞建新： 今年2月底，我的团队与新能源车厂合作开展了一项实训工作。这项工作涉及到了我们多模感知决策技术的一部分应用。然而，我们也认识到，尽管这是一个很好的开始，但要实现AI大模型与人机协作的深度融合，我们仍需攻克一些核心技术难题。

人工智能技术，特别是大模型的应用，已经与我们的研究和实际项目紧密结合。

近期，优必选也跟百度达成了合作，将文心大模型接入人形机器人Walker S ，共同探索中国AI大模型+人形机器人的应用。

伴随着大模型技术的赋能，人形机器人的产业化进程将加快，未来“降本增效”的人形机器人将在工业制造、商用服务和家庭陪伴等多个场景实现落地应用，解决劳动力短缺，提高生产效率，让人类生活变得更加美好。我们坚信，这项技术将是未来长期发展的重要方向。我们将继续致力于这一领域的研究和开发，以推动技术的进步和产业化进程。

优必选技术高管的身份背后

雷峰网：能介绍下您的研究背景吗，是什么激发了您对AI与机器人技术结合的兴趣？

庞建新： 我本科是在中科大，这段时期专注于语音信号处理，而科大讯飞正是在我所在的语音实验室孵化出来的。后来我又在中科大完成了计算机视觉方向的博士学习。

2011年，我加入中国科学院深圳先进技术研究院，一边做科研，一边做产业。因项目合作，参与到与腾讯公司的合作中，研发了名为“小Q”智能机器人的产品系列。也就是那时候我正式从AI研究转向机器人研发，将人工智能与机器人相结合。

当我2015年加入优必选时，我专注于将人工智能技术与机器人融合，推动机器人技术的研发和应用落地。

所以总结来说，我的经验涵盖了语音处理、视觉识别到机器人技术等多个领域，这些都是当前人工智能和机器人发展的关键领域。

雷峰网：为什么看中了优必选？加入已经近十年时间了，这种专注来源于什么？

庞建新： 我加入优必选确实有一段奇妙的经历。

2014年，在前海深港青年梦工厂开业典礼上的一次展览，我和团队代表中国科学院深圳先进技术研究院，展示了我们的产品，而优必选的展位就在隔壁。

后来我了解到，优必选在做国内自主研发的人形机器人，也了解到了公司创始人周剑对于人形机器人的愿景和梦想，发现这个与自己的梦想高度契合，所以选择加入了优必选。

那时候，我住在宝安西乡，每天往返近100公里，到龙岗上班。因为我加入公司比较早，参与了公司早期和中期的多个项目，将这些技术转化为公司的众多产品。这就是热情所在。

实际上我从未真正离开过工业界。在我加入中科院之前，曾在一家外资企业从事计算机视觉算法的研发工作，后来这家企业在国内科创板上市。我在中科院的工作中，一半的精力用于技术转化，孵化了几个有影响力的产品，另一半则致力于前沿科研。这些年来，我的工作始终围绕着如何将最新技术转化为实际产品。

雷峰网：自2015年加入优必选以来，你眼中的公司经历了哪几个发展阶段？

庞建新： 优必选从未局限于单一的技术研发或产品开发。公司始终坚持技术和产品同步发展的战略，这也是优必选吸引我的地方。我认为，只专注于技术可能会导致与实际应用脱节，而只关注产品则可能失去技术优势和市场竞争力。

在2015年加入优必选后，在 CTO 熊友军博士的带领下，我们共同推动了研究院的成立，目的是将技术研发和产品开发紧密结合。

我们公司内部要求， 研究院除了支持产品进行技术研发，还要投入资源跟进最新技术，根据技术发展趋势和未来场景中可能遇到的关键技术进行研发。

从2016年开始，优必选着手研发大型人形机器人，并以此平台为基础，将技术成果转化为各业务线的产品支持。 公司始终坚持两条腿走路的策略，不偏重任何一方。

优必选在技术投入上非常聚焦，始终思考机器人技术的未来发展趋势和应用场景。基于这些长期趋势和应用场景的考量，公司有针对性地寻找和研发适合的技术。因此， 优必选很少会受到外部研究热点的影响 ，而是坚持沿着既定的技术发展路径和应用场景进行研发。

雷峰网：研究成果转化为实际产品，您有哪些心得？

庞建新： 科研人员往往专注于技术创新和独特性，以解决科学问题为导向，追求学术上的突破和理论上的完备解或最优解。

而在工业产品开发中，我们更多的是寻找和解决已经存在的关键问题。 目标是找到与工业场景、成本、软硬件匹配度以及研发周期最相匹配的解决方案。 这意味着在工业界，我们需要更多地考虑产品的实际应用和市场的需求。

此外， 在面向产品或特定场景的工作中，还需要建立一套标准化的思路 。这涉及到如何将场景中的各种元素数字化、标准化或规范化，确保技术的长期积累和持续改进。

尽管科研和工业界的目标和思路有所不同，但解决挑战的方法和路径在本质上是类似的。

雷峰网：以大模型这个热点技术举例，业界对其的广泛关注始于2022年底，当时ChatGPT的发布引发了众多讨论。在优必选是什么时候讨论大模型？

庞建新： 我们对大模型技术的重视可以追溯到更早的时期。优必选在2022年，甚至在2021年上半年，就已经注意到了大模型技术的潜力。

最初，大模型技术主要应用于视觉领域，许多国内外的科研机构和大型企业都在探索，如何利用视觉大模型进行识别和检测。

随着时间的推移，当语言大模型开始出现时，优必选内部已经开展了类似的项目，并在内部开展了小规模的研究项目来深入探索这些技术。

到了2023年和2024年，优必选迅速将这些技术应用到了机器人领域。通过自身的研究，优必选在技能上也进行了一些创新应用，将大模型技术融入到产品开发中，提升产品的性能和智能化水平。

这次，优必选Walker S与百度文心大模型进行深度融合，进行任务调度应用开发，快速构建了任务规划与执行能力，并完成柔软物体操作和物体干扰分拣等任务，也是这种技术应用的一次体现。

机器人如何进化？

雷峰网：您认为当前市场对机器人的需求主要集中在哪？是否有特定的场景，为您的技术和产品研发提供了启发？

庞建新： 在大模型技术出现之后，整个行业对大模型及其在各种场景中的应用提出了明确的需求。因为大模型技术正在重塑我们的生产方式，改变了生产力的构成。

人们可能会思考，是否可以通过人形机器人结合大模型技术，来解决工业制造中的问题？打造教育领域的潜在应用？

传统上，计算机教育可能侧重于采用编程的教学方法，但随着大模型技术的发展，我们现在可以探索低代码甚至零代码的方式来解决问题。 这可能为教育带来新的范式，使得更多人能够通过使用这项技术来满足他们的生产力需求。

除了工业制造和人工智能教育，优必选也在探索大模型技术在人机对话、康养以及其他应用场景中的潜力。

雷峰网：国内外对于机器人的较量到了什么阶段？对于AI前沿技术的把控会最终是如何影响大机器人开发上？

庞建新： 国内外在机器人的研究思路上存在一些区别。中国企业的研究思路更加面向实际应用场景，而海外企业，如OpenAI等，在得到大量资金的支持下，能够进行更多开放式的科学研究。

中国学术界和产业界曾经经历过一段跟随阶段，尤其是在大模型等技术领域跟随欧美的研究趋势。

但中国的跟随步伐相对紧凑，尤其在面向产品应用开发方面。尽管在某些领域，如芯片和GPU等与大模型密切相关的技术，中国可能会面临一些挑战，但我认为这种跟随是必须的。

因为在技术快速发展时，整个技术路线和应用场景还存在不确定性，当前正是国内机器人企业快速发展的最佳时期。

雷峰网：国内有哪些企业在机器人和大模型结合方面做得比较好？

庞建新： 从全球范围来看，大模型与具体行业的结合还处于非常早期阶段。尽管大模型技术取得了很多进步，但它在商业应用方面的转化还处于早期。

当技术进入平台期，真正的应用才会开始。也就是说， 目前技术尚未开始收敛，当技术开始收敛时，才意味着它真正准备好进行大规模应用。目前可能还处于小规模场景或特定场景的实验和测试阶段。

此外，大模型技术发展迅速，但应用仍面临一些挑战，如算力和数据的高要求，以及效率、成本和幻觉等问题。

雷峰网：在AI+机器人领域，未来几年可能会出现哪些颠覆性的技术变革？除了大模型技术之外，还有哪些值得关注的发展趋势？

庞建新： 仿真技术可能是未来人形机器人领域一个潜在的颠覆性变化。 由于人形机器人控制和操作相关的数据难以构建，仿真技术的发展将对人形机器人领域产生重大影响。 通过高效的仿真技术，我们可以构建大量用于人形机器人应用的数据和虚拟场景，这对于人形机器人技术的进步非常重要。

当前阶段，人工智能和人形机器人技术的结合正处于一个开放性问题的时期。

无论是在高层决策应用、底层控制，还是场景构建和仿真等方面，都呈现出多样化的发展态势。虽然已经在特定场景中看到了一些成果， 但这些成果是否足够泛化，是否能够在人形机器人上直接进行使用，仍然是一个挑战。

总之，AI增强人形机器人领域正处于一个充满活力和创新的时期，未来几年可能会出现多项颠覆性的技术变革。仿真技术、大模型以及其他AI技术的发展，将为人形机器人领域带来新的机遇和挑战。

在这个百花齐放的阶段，我们需要持续关注技术的发展动态，并积极探索如何将这些技术应用于实际场景中。

本文作者吴彤，长期关注AI4S，欢迎添加微信（ icedaguniang ）互通有无。

GAIR live 圆桌预告

4月8日（周一）晚间8点～10点 ，雷峰网将举办一场主题为 「大模型时代，机器人的技术革新与场景落地」 的线上圆桌论坛。

本次论坛的嘉宾有： 南佛罗里达大学孙宇教授、武汉大学李淼教授、逐际动力张巍博士、优必选科技庞建新博士。

“全球人工智能与机器人大会”（GAIR）始于2016年雷峰网与中国计算机学会（CCF）合作创立的CCF-GAIR大会，旨在打造人工智能浪潮下，连接学术界、产业界、投资界的新平台，而雷峰网“连接三界”的全新定位也在此大会上得以确立。

经过几年发展，GAIR大会已成为行业标杆，是目前为止粤港澳大湾区人工智能领域规模最大、规格最高、跨界最广的学术、工业和投资领域盛会。

GAIR Live作为雷峰网旗下视频直播品牌，旨在输出新鲜、深度、原创的大咖访谈与对话内容，打造辐射产、学、研、投的特色线上平台。

AI+机器人相关资料

1，Consolidating Trees of Robotic Plans Generated Using Large Language Models to Improve Reliability

链接：https://gairdao.com/doi/10.1142/S2972335324500029

2，《对话南佛罗里达大学孙宇教授：当大语言模型用于机器人任务规划丨IJAIRR》

链接：https://mp.weixin.qq.com/s/vrTMsssLQvmI11kX38Jvog

近期热门文章

讲座预约丨四位专家大论道：大模型时代，机器人的技术革新与场景落地丨GAIR live

对话武汉大学李淼教授：以大模型视角看待一切机器人问题丨GAIR live

对话南佛罗里达大学孙宇教授：当大语言模型用于机器人任务规划丨IJAIRR

Leiphone雷峰网

最新精华更多

专访优必选庞建新：在大模型时代推动机器人智能化丨GAIR live

寻找最适合机器人的大模型

优必选技术高管的身份背后

机器人如何进化？

最新有关Leiphone雷峰网的文章