QbitAI量子位

文章数:10350 被阅读:146647018

账号入驻

三个大模型组队挑战o1,实测360多模型协作干掉提示词工程

最新更新时间:2024-09-20
    阅读数:
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI o1的横空出世,开启了大模型演化的新范式—— Inference law (推理定律)。

正如 英伟达AI科学家 Jim Fa n 所说,o1的出现标志着大模型研发者开始把集中在训练阶段的投入,开始转移到了推理过程。

Jim还引用了机器学习先驱 Rich Sutton 的经典文章《苦涩的教训》中的话说,只有两种技术可以让(AI)计算的潜能无限扩展——学习和搜索。

而现在,是时候把目光聚焦在后者了。

在推理侧投入更多资源,模型也就有了更完备的思考过程,投入的增加换来的是质的提升。

在国内, 360创始人周鸿祎 的理念与之不谋而合,而且360更早就提出了“慢思考”的理念,并在技术架构和产品中都付诸了应用。

同时,360还在其AI产品中强调多模合作,让来自不同厂商的大模型“ 团取暖”,为国内模型追赶OpenAI,找到了一条可行的道路。

从o1看大模型“慢思考”

虽然o1的具体思考过程始终是OpenAI的至高机密,但可以肯定的是,思维链 (Chain of Thought, CoT) 在其中扮演了重要角色。

OpenAI在关于o1的报告中表示,思维链能让模型学会认识并纠正错误,学会将棘手的步骤分解为更简单的步骤,甚至学会尝试不同方法,极大地提高了模型的推理能力。

今年的AI顶会ICLR上,谷歌大脑推理团队创建者 Denny Zhou ,清华姚班校友、斯坦福助理教授、斯隆奖得主 马腾宇 等人的一篇论文,更是 揭开了思维链的无限潜能

透过现象看本质,从某种程度上看,思维链的本质就是2002年诺贝尔经济学奖得主卡尼曼在《思考快与慢》中提出的“系统2”,也就是 “慢思考”系统

所谓“系统2”或“慢思考”,是指复杂、有意识的推理,与之相对的是“系统1”或“快思考”,即简单无意识的直觉。

而o1的表现证明,这种适用于人类的“慢思考”理念,对大模型来说同样适用。

但应当注意的是,这两种系统在人脑中是同时存在、相互配合的, 在大模型当中也不应被割裂开来

周鸿祎认为,o1遵循的可能就是“ 双系统理论 (Dual Process Theory)”,其核心在于快慢两种系统的协同运作。

作为“百模大战”的选手,周鸿祎和360,也是“慢思考”以及“多系统协同”的思考者和先行者。

7月底的ISC.AI大会上,周鸿祎就宣布,要“打造慢思考系统,从而增强大模型的慢思考能力”。

基于“多系统协同”机制,360利用多个模型组成的智能体框架,实现了大模型从“快思考”到“慢思考”的转变,并打造出了两款明星AI产品—— 360AI搜索 360AI浏览器

让不同大模型“抱团取暖”

360AI搜索一共有简洁回答、标准回答和深入回答三种模式,其中一次深入回答会可能就要涉及 7-15次的大模型调用

比如可能会涉及1次意图识别模型调用,1次搜索词改写模型调用,5次搜索调用,1次网页排序调用,1次生成主回答调用,1次生成追问调用……

在多个模型的协同配合下,360AI搜索形成了这样的工作链路:

  • 首先利用意图分类模型,对用户的问题进行意图识别;

  • 接着用任务路由模型对问题进行拆解,不同的问题可以划分成“简单任务”、“多步任务”和“复杂任务”,对多个模型进行调度;

  • 最后构建AI工作流,使多个大模型协同运作。

比如面对一道古诗词中译英题目,路由模块就会调用起翻译、反思等多个模型,让这些模型分工配合、共同完成任务。

而且最新版本还在生成答案过程中进一步加强了多模型协作,将其作为了一种独立的回答模式。

三个不同模型分别扮演生成初步答案的 专家 、检查回答的 反思者 和最终给出答案的 总结者

例如在这个案例中,作为专家的 Kimi 提到了问题的关键,但表述不够鲜明,在反思模型 360智脑 的建议下, 豆包 进行了重新总结,形成了直击问题的解答。

这样的工作模式不仅将快慢思考协同和反思机制引入了AI应用,更通过不同模型的 交叉验证 ,进一步提高了整体表现。

在另一款AI产品——360AI浏览器当中, 16家厂商的54款大模型也已齐聚一堂 ,可以实现多种传统浏览器所不具备的能力。

AI浏览器可以 10秒钟总结上万字英文学术论文 ,针对其中的细节也可以尽情发问。

可以 沉浸式翻译pdf文档 ,原文和译文同步滚动、随时对照。

还能化身“AI省流侠”,分分钟帮忙 总结在线视频 内容并划出重点,还能根据视频架构绘制脑图,甚至分析创作风格……

不仅在线文档和视频可以解析,这一系列分析功能,对于 本地文件也同样适用

更为方便的是,360AI浏览器还有 移动端版本 ,在手机上也能随时利用AI辅助上网冲浪。

已经入驻360AI浏览器、同样基于CoE架构的 AI助手 (bot.360.com) ,则可根据任务类型和模型特长自动调度最合适的大模型。

无需切换平台,就能直接对话54款大模型,或者对话更加强大混合大模型,想选哪个就选哪个。

AI助手同样支持「多模型协作」,用户可以从54款模型中任选3款,分别做专家、反思者和总结者。

未来,360还会推出由五个甚至更多模型协作完成任务的版本。

还是在360AI浏览器中,AI助手还上线了 “模型竞技场” (bot.360.com), 支持54款大模型产品的“同台竞技”,最新版本中还上线了“组队较量”、“匿名比拼”、“随机对战”等功能。

总的来说,360AI搜索还是360AI浏览器虽然侧重点有所不同,但背后体现的还是那个核心理念——

在进行“慢思考”的同时,不卷单一模型的能力,而是让模型“抱团取暖”,博采众长,形成“众人拾柴火焰高”的局面。

当然,这样做的意义,也不仅仅是为用户带来了更好的AI体验, 对各大模型的开发者而言同样是一种激励

我们知道,大模型研发投入巨大,唯有足够多的用户才能够收回成本。

而依托360AI搜索、浏览器、安全卫士等入口,360将能够触达10亿用户的入口开放给了大模型开发者。

这也是阿里、腾讯、百度等大厂,以及大模型六小虎纷纷加入360AI架构的重要原因。

所以,360与这十多家厂商双向奔赴,实现了模型与AI应用相互促进、彼此发展的良性循环。

模型竞技场更是给国产大模型提供了一个在竞争中学习的平台,以及获得用户评价的绝佳机会,塑造了更加积极进取的氛围。

“消灭”Prompt工程

从技术层面上看,在理念与产品之间架起桥梁的,是360独创的CoE (Collaboration-of-Experts,专家协同) 架构。

CoE架构集合了数量更多的大模型和专家模型,通过思维链和“多系统协同”的方式实现了“快思考”和“慢思考”的有机结合。

在思路上,CoE与o1选择了相近的路线,但是在深度上走得更远——

o1无论再怎么融合,也无外乎是OpenAI的自家模型,CoE却是海纳百川,集合了数量更多的大模型和专家模型。

CoE架构原理图

而且,CoE架构中还接入了很多十亿甚至更小参数的专家模型,使得整个系统更加智能,在获得高质量回答的同时, 节约推理资源、提升响应速度

早在CoE架构刚发布的时候,基于CoE集各家所长的混合大模型能力就超过了(当时最强的)GPT-4o。

该混合大模型在翻译、写作等12项指标的测试中取得了80.49分的综合成绩,超越了GPT-4o的69.22分;而且除了代码以外,其余11项指标均优于GPT-4o。

而且CoE架构对所有模型都敞开怀抱,比OpenAI在开放协作的道路上走的更远……

另外,无论是OpenAI的o1,还是360的CoE,都将让大模型的发展走向一个新的趋势——

复杂的人工环节将实现自动化,具体到大模型当中,就是 “消灭”Prompt工程

乍一看有些反直觉,因为在我们使用大模型时,提示词的好坏对生成内容有着决定性的影响,其重要性不言而喻。

但仔细想想又并不矛盾——大模型等AI应用,归根结底是要为了人类而服务;

而提示工程却是让人类去适应模型的工作方式,简直“倒反天罡”。

所以, 提示工程固然重要,但不该成为普通用户使用大模型的“绊脚石”

解决的思路就是将提示词的设计工作,像其他任务一样,作为思维链中的一环,交给大模型来做。

这样的模式下,提示工程的灵魂依然被保留,但在用户的视野当中逐渐淡化,形成一种“消亡”的感观。

这种模式背后所反映的,也是360对AI未来发展的一点期许——

实现AI向着更多人的普惠 ,让大模型不再“高居庙堂”,而是成为万家灯火。

点这里 ???? 关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~



最新有关QbitAI量子位的文章

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: TI培训

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved