o1研发团队首次集体访谈：教AI数r用了一年半

QbitAI量子位

最新更新时间：2024-09-22

阅读数：

克雷西明敏发自凹非寺
量子位 | 公众号 QbitAI

笑死，原来o1也像人类一样喜欢赶ddl。

这是在o1团队的“大型见面会”上，OpenAI创始成员Wojciech Zaremba揭开的o1“黑历史”。

包括Zaremba在内的18名团队成员，在首席研究官Bob McGrew的带领之下围坐一团。

o1核心贡献者Hyung Won Chung、Noam Brown等关键人物，也都在此列。

随着成员们的踊跃发言，o1的发展历程也逐渐被揭开——受AlphaGo和早期GPT模型的启发，想到了将两张背后的范式结合。

后来，团队训练出了第一个可以生成连贯思维链的模型，标志着研究方向开始逐渐明朗和聚焦……

在充满松弛感的气氛当中，众人还分享了有关o1研发的许多趣事：

在OpenAI内部，也喜欢用“数r”来测试大模型能力
为了解决“数r”的问题，OpenAI花费了一年半
技术人员会把代码报错信息直接丢给o1去debug
o1曾经说过，生命的意义是“42”，还试图用代数来定义“love”

同时在研究过程中他们还发现，o1不仅比人类更善于发现新的CoT推理步骤，并且还涌现出了自我批评能力。

有网友称赞说，这的确是一个出色的团队，非常喜欢听他们的发言，并且模型的推理能力也确实比以前强。

量子位整理了这次访谈的实录，下面就一起来看~

o1是什么？推理又是啥？

Bob McGrew ：我是OpenAI研究团队的负责人，我们刚刚发布了o1和o1-mini模型。

对此我们感到非常激动，今天我们的整个团队聚集在此，来介绍这两个模型。

什么是o1？

Bob McGrew ：所以，（第一个问题），到底什么是o1？

Hyung Won Chung ：我们开启了新的模型系列，并且起了一个新的名字叫o1。

这是为了强调，与GPT-4o等之前的模型相比，o1有很大的不同，稍后会有人详细解释。

o1是一个推理模式，所以它在回答问题之前思考的会更多。

我们发布了两个模型——（满血）o1的o1-preview，以及更小、更快的o1-mini，它和（满血）o1采用的是相同的训练框架。

我们希望大家喜欢我们的新命名方式。

推理又是什么？

Bob McGrew ：那么推理又是什么意思？

Giambattista Parascandolo ：对于简单问题来说，我们希望提问之后立刻就能得到答案。

比如你问意大利的首都在哪，你不用思考很多也知道答案是罗马。

但如果你想知道一个复杂问题的答案，或者写出一份好的商业计划，或者写一部小说，你可能就要思考一段时间了，并且你思考的越多，最后得到结果也就越好。

而推理就是 把思考时间化为更好的成果 的能力。

研发过程的那些事

你们在o1上工作多长时间了？

Bob McGrew ：你们在o1上工作多长时间了？

Jakub Pachocki ：在OpenAI早期，我们深受AlphaGo的成绩的启发，看到了深度 强化学习 的潜力，因此我们对其进行了深入研究，并看到了数据和机器人技术的大规模扩展。

我们也开始思考如何才能在通用领域进行强化学习，从而实现非常强大的人工智能。

然后我们看到了GPT范式中扩展和 监督学习 带来的惊人成果，从那时起，我们就一直在思考如何 将这两种不同的范式合二为一 。

Mark Chen ：项目开始的确切时间很难确定，但已经与Yaku和Shimon进行了早期探索，与Lukash、Ilya进行了早期探索。

一个重要的时刻是Jerry的加入，他推动了这个大型项目的进展。

研究过程中的“Aha moment”

Bob McGrew ：我认为在研究过程中最精彩的就是哪些“Aha moment”，你们的工作当中有哪些高光时刻呢？

Jerry Tworek ：我们训练了 GPT-2、GPT-3 和 GPT-4，每一次都成为了媒体上的热点。

但第一次有这种感觉是当模型出来的时刻，所有人都称赞很棒。

对于我而言，这样的时刻是当我们投入了更多计算资源，并 第一次生成了连贯的思维链 时。

当时我们心想，这和以前的模型看起来真的很不一样。

Trapit Bansal ：当我们考虑训练一个推理模型时，我立即想到的一件事是，用人类的思维过程进行训练。

但我发现，使用RL训练模型来生成己的思维链，结果可以做得 比人类写的思维链更好 。

在我看来这就是一个“Aha moment”，它告诉我们可以通过这种训练方式，让扩展模型的推理能力得到扩展。

Hunter Lightman ：我们花了很长的时间，一直尝试让模型更好地解决数学问题。

为此我们付出了很多努力，我们想出了很多不同的方法，但有一件事让我一直很沮丧，

每次我读到这些模型的输出时，发现模型似乎永远不会质疑自己哪里出了问题，什么时候犯了错误。

但当我们训练早期的o1模型并与之对话时，发现它在数学测试中得分更高了。

通过观察它的推理方式，我们发现它 开始质疑自己，并进行了非常有趣的反思 。

那一刻我感觉哇，我们发现了一些不同的东西。

感觉模型像人还是像机器？

Bob McGrew ：你们在看模型的思考过程时，觉得他们是更像真人还是更像机器人？

Liam Fedus ：这更像是一种“精神体验”。

你可以看到模型也会犯很多人类经常犯的错误，又能看到它对一些常识提出质疑。

很奇怪，模型会带有人类的行为。

Wojciech Zaremba ：在模型被设定了ddl的情况下，往往会在 快due的时候迅速得出结论 。

好像大模型也知道自己必须立刻给出答案。

Karl Cobbe ：我年轻的时候花了很多时间参加数学竞赛，而我进入人工智能领域的原因，就是试图实现这个过程的自动化。

所以对我来说，这是一个非常重要的转折点，因为我看到这个模型实际上能够遵循我解决这些问题时使用的步骤

虽然这不是完全相同的思路，但非常非常可靠。

Wojciech Zaremba ：可以相信，这些模型正在成为真正推动工程和科学发展的因素。

如果它们似乎能解决即使专家也难以解决的问题，那么将能够推动科学进步。

研发过程中的困难

Bob McGrew ：我们谈了很多令人兴奋的时刻，那么在工作过程中又遇到了什么障碍？

Jerry Tworek ：训练大型模型从根本上来说就是一件非常非常困难的事情。

有成千上万的事情可能出错，而且在每个领域都有事情确实出错了。

所以几乎这里的每个人都像你们知道的一样，在训练这些事情上付出了很多心血和汗水，并想出了如何让模型继续学习和进步的方法。

实际上，成功的道路非常狭窄，而失败的方式却有很多。

Wojciech Zaremba ：就像发射火箭一样，如果你偏离了一个角度，你就无法到达目的地，而这就是我们的工作。

Ilge Akkaya ：这个模型非常好，通常比人类好几倍，能达到博士的水平。

但是这有时是一个挑战，因为我们必须经常去验证模型没有偏离轨道。

但我们已经饱和了所有行业级的评估，我们不知道下一步该研究什么。

Mark Chen ：这也是一种成就感，就像每次遇到难题一样。

这就像这个团队要克服的另一个障碍，我真的很高兴我们克服了所有这些小障碍。

OpenAI内部这样用o1

如何测试模型表现

Bob McGrew ：你们测试模型的方法有哪些，有没有什么喜欢的问题，并发现模型在这些问题上变得越来越好？

Shengjia Zhao ：Strawberry里有几个r？

Wojciech Zaremba ：不管是什么原因，ChatGPT无法可靠地解决这些问题。

我们花了一年半的时间，现在我们可以计算出strawberry中的“r”的数量。

Hunter Lightman ：我有一个习惯，我想其他人也有。

每当上推特时，都会看到一些帖子说大模型无法解决这类问题。

我就把它复制粘贴进去，然后发现我们的模型可以做到。

内部o1使用方法

Bob McGrew ：为了让人们了解他们可以使用这个模型做什么，我很想听听你们使用o1的一些方法。

Hyung Won Chung ：我使用o1的方式主要是用来写代码。

我的很多工作都是关于代码的，我越来越关注问题定义，并使用TDD（测试驱动开发）。

因此，我不再编写实现功能的代码，而是专注于编写单元测试。

因为o1可以实现东西，所以我可以专注于重要的、需要解决的高级问题，这真的是一种转移我注意力的重要方式。

另一个领域是debug，现在当我收到一些错误消息时，我只需传递给o1，有时它会立即解决。

即使没有，它至少会给出一些更好的问题，提供一些更好地思考这个问题的方法。

所以对我来说，这是一个非常重要的工作变化，我希望这也能帮助其他人。

o1-mini的诞生过程

Bob McGrew ：o1-mini的故事是怎样的？它是如何诞生的？

Hongyu Ren ：我们想把o1系列带给更多人，它有更低的成本，所以做了o1 mini。它是o1框架的最小演示，是“推理专家”。它不一定能知道你喜欢的名人的生日，但是它能有效地推理，并且很智能。

实际上它真的很聪明，比我们之前最好的模型都要聪明很多，几乎与o1相当，但是成本和时延比它低很多。

不过也确实有局限性，可能不知道很多外部世界知识。这与技术本身无关，我们试图让它达到和此前最好模型最小版本差不多的水平，并且仍旧在努力进一步改进它。

用户尝试了o1 mini会很兴奋，因为它推理和思考的速度真的很快。

是什么激励你做这些研究？

Łukasz Kaiser ：我只是觉得在这个世界上，有一些可以做推理、有智能的东西，比想象中小很多。它们可以以不同方式做到这一点，这就非常迷人了。

Giambattista Parascandolo ：我觉得这是向模型范式转变的第一步。以前花很长时间才能解决的问题，现在做到了分钟级，这只是漫长道路的第一步。我们希望能在几个月或几年后，迈出第二步。

Wojciech Zaremba ：我觉得这很有意义，我们可以对世界产生一些实质性的积极影响。

而且这很有趣，我喜欢对着电脑“说话”，喜欢在集群上开始一项工作，也非常喜欢合作。

Jerry Tworek ：我认为科技可以改善人类生活，我喜欢我们的模型能为人工作，帮助我们解决日常问题，赋予它推理能力让它做事。

Liam Fedus ：我认为这一范式解决了一些模型无法解决的问题，所以不仅仅是回答变好一点，而是通过规划、通过错误纠正，它解锁了全新能力，在世界上创造新知识的能力，比如科学发现，我认为这是最令人兴奋的部分。

短时间内，它的自身进化会越来越快，这真的很棒。

Mark Chen ：我们团队中一些成员有数学等方面的背景，这驱动我们自己想去创造一个最好的系统。

Hyung Won Chung ：我认为推理比人们想象中的还要强大。当人类想要完成某项任务时，最基本的方法就是推理，你会遇到困难，你必须要找到解决方法。

我觉得AI研究员的工作好像是要找到一种方法来投入更多的计算。硬件方面的研究者在这方面做的很好，很长一段时间硬件成本都在指数级下降。

需要的计算量越来越多，就好像肩膀上的重量越来越重。这个新模式找到了一种方法，来帮我们卸下一些重量。

在这项研究中，你们还观察到什么吗？

Jason Wei ：我们发现一个有趣的现象是，每个模型都有自己的“怪癖”。

训练的每个模型在每个任务上的表现都不完全相同。所以模型可能有些任务表现得更好，有些表现得更差。每个模型都有它自己的个性和优点。

最后，原视频在这里奉上~

原视频地址：
https://www.youtube.com/watch?v=tEzs3VHyBDM

— 完 —

评选征集中

「2024人工智能年度评选」

量子位2024人工智能年度评选已开启报名通道，评选从企业、人物、产品三大维度设立了5类奖项。

欢迎扫码报名评选！ 评选结果将于12月 MEET2025智能未来大会公布，期待与数百万从业者共同见证荣誉时刻。

点这里 ???? 关注我，记得标星哦～

一键三连「点赞」、「分享」和「在看」

科技前沿进展日日相见 ~

QbitAI量子位

最新精华更多

o1研发团队首次集体访谈：教AI数r用了一年半

克雷西明敏发自凹非寺
量子位 | 公众号 QbitAI

o1是什么？推理又是啥？

什么是o1？

推理又是什么？

研发过程的那些事

你们在o1上工作多长时间了？

研究过程中的“Aha moment”

感觉模型像人还是像机器？

研发过程中的困难

OpenAI内部这样用o1

如何测试模型表现

内部o1使用方法

o1-mini的诞生过程

是什么激励你做这些研究？

在这项研究中，你们还观察到什么吗？

最新有关QbitAI量子位的文章

QbitAI量子位

最新精华更多

o1研发团队首次集体访谈：教AI数r用了一年半

克雷西 明敏 发自 凹非寺 量子位 | 公众号 QbitAI

o1是什么？推理又是啥？

什么是o1？

推理又是什么？

研发过程的那些事

你们在o1上工作多长时间了？

研究过程中的“Aha moment”

感觉模型像人还是像机器？

研发过程中的困难

OpenAI内部这样用o1

如何测试模型表现

内部o1使用方法

o1-mini的诞生过程

是什么激励你做这些研究？

在这项研究中，你们还观察到什么吗？

最新有关QbitAI量子位的文章

克雷西明敏发自凹非寺
量子位 | 公众号 QbitAI