大白话讲讲现在的 AI 和一堆乱七八糟的东西都是啥
大家好,我是皮哥!转发一下闪客的文章,对AI的入门理解有一定的帮助。
人工智能发展太快了,几天就蹦出个新名词,今天用大白话讲讲 AI 的来龙去脉,和现在每天碰到的各种听说过很多遍但依然不知道是啥的东西。 放心不会说很深奥的理论和公式。
---
我们用一个例子来开头,想想看如何识别出一张图片是否是车呢?其中一种办法是告诉我一个规则,比如有轮子、有方向盘、能向前跑的就是车。 那让机器去做这件事也可以用同样的办法,只不过需要设定更多严格和明确的规则,让机器按照这个规则来准确识别出这是否是一辆车。这种人工智能的流派就是最开始的 符号主义 。
这不是啥深奥的东西,你高中证明那些数学题用的「因为所以存在任意包含属于」这些个符号来推导结论,还有你可能了解到的公理体系命题逻辑这些,用的就是符号主义的思想。只不过这个思想认为世界所有的东西都可以进行符号化,然后设定推导规则,这样用机器就能解释和运行一切原理了。
但现在这条路不太好走,那么严谨和有章可循的数学都没办法完美地形式化符号化,更别说人类本身还有纷繁复杂的世界了。就拿一个最简单的问题,明天股票是会涨还是会跌?你想想看这背后如果能严格形式化证明那有多难。
---
所以另一个流派慢慢起来了,就是 连接主义 。刚刚说如何识别一张图片是车,好了你不要告诉我什么规则了我也记不住,你就让我看 100 张车的图片,然后我自然就学会了什么是车,虽然我也不知道我是咋学会的,也不知道我是咋识别的。
这就是 神经网络 的雏形,和我们人学习一个东西就很像了。想想看一个小孩儿一开始是怎么学会认识物品的?绝对不是通过看有没有轮子有没有腿的,只是因为看多了,自然就学会了。我们自己可能都没意识到,人类模式识别的能力相当强,几乎扫一眼不需要经过任何思考过程,就知道眼前的物品都是什么,摆放关系是怎么样的,之后可能会发生什么事,但这对机器来说是相当相当相当困难的。
神经网络就是这么神奇,根本原理也很简单,输入是一堆参数,输出是一堆参数,中间一层一层又是一堆参数。然后通过一大堆数据不断调整参数的权重,数据多了慢慢就调出了一组神奇的参数权重,和人学习的过程很像,就好像机器学习到了这个知识一样。
上面是手写数字识别的神经网络模型,虽然最终调出来的参数能很有规律地识别数字,好像是有逻辑一样,但单独看里面的各个神经元就是一组毫无意义的小东西,微观层面的无规律在宏观层面却展示出惊人的能力。
---
从一开始的基于规则的机器学习(符号主义)到后来的基于神经网络(连接主义)的机器学习,后者慢慢变成了主流。
随着我们的硬件设备越来越牛逼,算力越来越强,基于神经网络的深度学习技术也越来越强(CNN、RNN、Transformer)。这里不是讲技术的就一笔带过了,总之就是硬件越来越牛逼,算法也越来越牛逼,参数也越来越多(原来只能算十几个数加减乘除,现在能算好几亿个数加减乘除)。
这时候 ChatGPT 就出现了!到了很多人第一次接触 AI 的名词。所以 ChatGPT 不是什么新鲜的技术,只是参数越来越多硬件越来越牛逼大力出奇迹之后量变引起质变的产物。
原来 AI 只能完成一些比较简单的任务,来个人脸识别和智能(ruozhi)客服牛了不得了,现在突然感觉和它对话有了思考!微观到宏观量变产生质变大力出了奇迹这就叫 涌现 ,其实之前有一个个小神经元组合训练出能识别数字的这种小功能也属于涌现。而由于模型里的参数特别特别多,所以大家就叫它们为 大模型 。
现在这些词就慢慢熟悉起来了吧,都是这几年刷屏的热词。
---
ChatGPT 出现以后,第一波问的最多的人就是这是个啥?大部分人因为不会搜索和网络问题没搞懂 ChatGPT 是啥东西,其实就是个聊天页面。这东西之所以这么出圈就是因为使用起来太简单了。
再之后各种媒体把这玩意吹得没边,造了一堆新词解释来解释去把人搞得晕头转向,我们现在来捋一捋。
第一个令人困惑的地方就是 ChatGPT 不能上网 ,所以不知道最近发生的事儿。我记得第一版 ChatGPT 的训练数据只到 2019 年。这个就是说模型训练完之后就是一堆带权重的参数,说白了就是一段特别特别复杂的程序算法,是写死的。做不到一个人和他交流一段时间之后让它变聪明或者掌握了新知识的能力。你想让它变聪明只能重新拿一批数据训练它或者重新把模型本身的代码改一改,光是使用它和它对话是没卵用的。
第二个令人困惑的就是 ChatGPT 后来又可以上网了,能知道最近发生的事儿了。这本质上就是有 联网工具 在回答你的问题前先去搜索引擎搜一下数据,然后把搜出来的数据和你的问题放一起再让 ChatGPT 回答。ChatGPT 能做的仍然只是根据一段文字然后输出给你另一段文字而已。
第三个点就是 私有化知识库 ,现在 ChatGPT 不是能和人愉快地文字沟通嘛,也能通过别的工具联网查东西再沟通。但提前告诉他一大堆你个性化的前置的知识,比如你公司的资料库,比如一本小说等,让它先了解这些资料后再和你沟通,这个不想点歪点子光靠 ChatGPT 自己做不到。
有几个办法可以实现这一点,第一种就是 增加上下文长度 ,就是每次对话前先把一整本小说输入进去作为你问题的上下文然后再问问题,但这一听就很有局限性。
第二种方法就很取巧了,我先把一本小说拆成一段一段的存到数据库里,然后每次问问题的时候先去数据库中查一下相关的部分拿出来,和你的问题拼一起作为上下文去问。这叫做 检索增强生成 RAG ,用的数据库一般是 向量数据库 ,存入和查询时使用的手段叫 embedding ,就是把文字图像视频等高维数据映射成低维向量。其实这他喵的就相当于把问题和答案都提前查好了告诉 ChatGPT 了然后让他回答,放在真人对话这就好比问「我叫xxx请问我是谁」一样。现在很多公司的知识库和一些市面上流行的知识库搭建工具就是玩的这一套。
第三种方式就是 微调 ,英文名叫 Fine-Tuning ,这个有一定技术门槛,你看到一些训练成某个明星和你对话的聊天模型,声音克隆技术等,都是基于预训练模型的微调。简单说像 GPT、BERT、LLaMA 这些都是预训练模型,就是已经经过大量数据训练的模型参数已经差不多了,这时你再用你的个人数据简单训练训练,就能学到你的知识了。完全没经过训练的模型就像刚出生的孩子,预训练模型就像已经学会了爸爸妈妈的孩子,这时你再教他什么是爷爷奶奶就更容易了。
当然你也可以从一个裸的没经过预训练的模型从头开始训练起,不过除非你财力雄厚。
---
前面都在聊 ChatGPT,不过现在放眼整个 AI 覆盖面,ChatGPT 其实只是 GPT 模型在对话领域的一个应用,GPT 模型也只是基于 Transformer 模型在文本-文本生成领域的一个预训练模型。
现在越玩越花样,人们平时看到听到的东西无非就是文字、声音、图像、视频,那么这几个东西排列组合一下就是大模型的 多模态 能力,说白了就是多种形态嘛,不再只是文字-文字了,而是文字-图像,文字-视频,图像-视频、图像-文字等等等等这些啰里巴嗦的转换。
每种转换又对应好多种不同的应用场景。比如文字-文字的不光有对话,还有翻译、写文章、写代码、解释代码等,文字和图片的就有 AI 绘图,AI 解释图片、AI 修图等,这些想象空间和应用场景就大了去了,也是为什么现在每天一大堆 AI 应用和名词出现的原因,同样几个基本的技术玩出花来了。
整理下比较流行的,文字-文字的刚说过了,都是基于 Tansformer 架构写的几个预训练模型家族,现在被 OpenAI 的 GPT 家族、谷歌的 BERT 家族还有 Meta 的 LLaMA 家族瓜分了市场。
文字-图像的也就是 AI 绘画领域,早期是用生成式对抗网络 GAN 模型来实现,现在被 扩散 模型 给秒杀了,也属于老早就有的领域突然质量好到人们拍手称赞的程度而火出圈。具有代表性的就是开源的 Stable Diffusion 和闭源的 Midjourney 还有 Dall·E 2 ,最先火出圈的就是这个 MJ,还记得朋友圈刷屏的一张图吧,就是 AI 突然画的太逼真了。
文字-视频领域现在似乎还没有什么突破,不像 ChatGPT 和 MJ 有大量真实的作品,文生视频还处于噱头阶段,OpenAI 的 Sora 喊了好久也没看到影子,字节的 豆包大模型 倒是进入了体验阶段效果也还挺炸了,但还需要更多时间验证。
文字-声音比较简单,之前生活中大家一直就在用了所以没那么炸裂,只是借着这次 AI 浪潮更上一层楼了,比如现在克隆一个人的声音达到几乎 100% 接近已经不是难事儿。抖音直接 5s 语音就能几乎完美克隆你的声音,一些开源项目如 GPT-Sovits 也能通过几分钟的声音训练在个人电脑上轻松克隆你的声音,而且这是咱国产的哟~
这一切的多模态玩法,虽然使用的是多种不同的底层模型,但都有 Tansformer 模型的加持,这一切为什么和之前有质的飞跃都要感谢这个东西。
---
聊完这些基本的东西,再看现在的一些偏应用的生态就容易理解了。
大模型逐渐进入了寻常百姓家,原来只有企业级算力才能完成的模型训练和推理,现在普通老百姓用一台破电脑也能运行了。那这里为了让模型在低性能电脑上也能运行就有 蒸馏 、 剪枝 、 量化 等,分别对应模型迁移、减少参数、减小精度等,目的都是为了让模型在更低性能的电脑上跑起来给普通人用,不然怎么好宣传和售卖呢?
另一方面人们不满足于单个 AI 应用的能力了,想要多个 AI 或者多个步骤组合起来形成更强大的功能,这就有了 智能体(agent) 和 工作流引擎(workflow) 这俩概念。
智能体最开始有个 autogpt 声称可以一句话自动完成自己查资料自己问问题自己写报告等任务组合火爆了,其实就是几个 ChatGPT 自己和自己对话不断推进任务的进行。但后来发现效果屁都不是就灭火了。
工作流引擎就是方便把一个个步骤组合起来形成所谓的智能体的工具,比如我想开发个智能体让它先去网页爬取文章,然后根据文章仿写一篇新的文章并生成一张图片,然后自动发送到某些博客平台薅羊毛,很多卖 AI 副业实现财富自由的教的就是这个破玩意。这就可以用一个工作流引擎把这些串起来,就是方便普通老百姓无代码开发而已。
AI 工作流引擎呀智能体呀这些概念并不神秘,好多工具你用一下就明白咋回事了,比如适合搞文字类的智能体开发工具 dify 还有字节的 coze ,比如稍复杂点的用于搞 AI 绘画的 ComfyUI ,还有现在好多的零代码开发 AI 应用,都是这回事儿。由于这稍稍有点技术门槛然后做出的东西也算有些差异化,所以很多人也售卖生成的作品或者出售技术教学服务。
再者对来发人员也越来越友好,比如方便人们本地构建和部署大模型的 ollama 工具,原来人们想用个大模型,要先去把大模型下载到本地,下载到哪了也不知道,怎么运行也不知道,一大堆模型文件稀里糊涂看不懂,现在只要 ollama run xxx 一下就能一键运行了,方便了而已。
更面向开发者的 LangChain 框架作用也是如此。所以其实大模型现在的很多新东西新概念,技术突破已经越来越少了,更多你听到的乱七八糟的名词,大概率都是为了一个共同的目标: 平民化 。让老百姓更方便使用 AI,创造 AI 应用,用更垃圾的电脑也能运行 AI,或者不用自己的电脑只要能上网就能部署自己的 AI 应用,你看现在的 GPU 租赁平台 和 云电脑 是不是越来越火爆了。
除了这些之外,其他的各种噪音就可以忽略了,现在天天有人喊着出来个东西改变世界,大概率只是应用玩出点花样或者多模态之间的配合发生了点化学反应。。
---
未来 AI 技术的发展, 模型本身的增强 到下一个令人惊叹的阶段可能短期达不到,你看 GPT-4 出现一年多了还是地表最强。大模型真正的突破到下一个涌现的点,可能要 GPT-10 或者最开头的符号主义有了什么突破改变 AI 格局吧。
多模态的发展 互相促进会有一些突破,比如现在的数字人、语音克隆、文章仿写以及未来的视频生成,人人都是导演的时代可能会到来。当然这也预示着 AI 伦理和法律方面一定变得很复杂,现在语音诈骗视频诈骗比以前多了不少,因为语音和视频从能听出是 AI 到听不出是 AI 这一点点小的提升马上使诈骗有了质的飞跃。你再看看各平台克隆声音克隆形象等都需要你先签署一份协议。所以这块可以关注。
对个人来说 AI 工具甚至 AI 开发越来越平民化,那必然越来越多的人会尝试把自己打造成 超级 AI 结合体 让 AI 辅助自己工作和生活,可能会 AI 的人真的和不会的差距会拉大。不过你不要觉得不是 AI 专业或者不是做技术的就不可能学会 AI,完全没关系。
好了,本文就是我的一些看法,希望可以解开你进入 AI 新时代的一些困惑。
下面公众号内回复「ai1」可加入 AI 交流群