关于LLMs的一些小思考

在我看来信息技术的发展一定往着「偷懒」的方向发展,一方面提升信息的利用率,一方面提升信息的传播效率。最终信息利用率和信息的传播的提升会改变人们的思考方式,从而影响到人的生活方式,最终通过消费者的腿影响到整个市场竞争格局。在早期是纸张,后来是印刷,再后来是电报电话,近些来是互联网。

那人工智能在信息技术的领域是否也起到了一种决定性的推动作用呢?

我们谈论的人工智能到底是什么?

为了回答上述问题,最核心的需要定义下什么是人工智能。我个人决定自作主张对这个定义进行一个浅薄的解释和定义。我认为人工智能就是人工 + 智能,人工是智能的产生方式,而智能则是代表其可以在一定条件下自动的端到端的完成某项内容。换而言之,人工智能在生产上提供了「高于人工效率」的某种自动化的解决方案,是从标准化的输入输出场景慢慢走向非标准化的输入输出场景适用范围逐步扩大的过程。

为了更好的解释我脑中的人工智能,我们需要回顾下深度学习的前世今生。除去本轮的基于 GPT 架构的浪潮,过去一共有三轮人工智能浪潮,每一轮都会有大体相似的未来畅想和破灭,也会有一定程度的工业/学术落地。

第一轮 萌芽阶段

首先,回看人工智能走入大家事业的时候还是「专家系统」,通过程序设置的机器人「深蓝」对战战胜了人类棋手。掀起了一轮人工智能热,但后来由于算力和应用场景的缺失导致 AI 渐渐消失,讨论人工智能,讨论专家系统在学术圈成为一种耻辱(我的导师因为研究人脸识别差点没博士毕业)。之所以这一轮算法没有落地是因为算法的构建需要大量的业务专家去撰写业务逻辑,而以此产生的系统的鲁棒性会非常差,稍稍和设想的场景偏移一点点就会导致系统不可用。这个问题在图像领域尤其的严重,想象下稍微光照不一样就会让人脸识别算法失效,我觉得任何人都会称之为人工智障。

但仔细可以看到第一轮的人工智能其实已经提出了一些后来被广为应用的网络结构,如多层感知机(后来各种神经网络的基础模块,也是学术概念吹逼的主要结构),各种图像的滤波器(本质后来的 Conv 层就是滤波器,只不过滤波器的构建是梯度下降算法学习的)。而且其已经一定程度上相比智之前只能人来做的工作,由专家抽象成了一些数学公式。只可惜当时并没有形成特别大的硬件上的突破,尤其是在大型矩阵运算上当时的机器完全无法负荷这么大的计算。感兴趣的朋友可以仔细认真研读 GPU 和 CPU 之间的硬件结构就会知道我在说什么了。

第二轮 CV

随着算力的进步,模拟人脑结构的多层感知机(MLP)结合由传统 CV 技术演变而来的卷积网络(ConvNet)组成 LeNet 初步在大数据下获得媲美普通传统图像算法的效果。但随着网络层数的加深(也可以理解为现在老说的 scall up),网络会出现梯度爆炸等问题无法继续扩大参数。随后,LeCun 的学生 AlexNet(现在的 OpenAI 的技术大拿和这个人是一批的),通过提出池化这个技术,继续加深网络。并在李飞飞主导的 ImageNet 上屠榜,遥遥领先其他算法模型。至此,深度学习技术重新唤起了下一波 AI 浪潮。而在 Scall up 的驱动下,InceptionNet 和 VGGNet 又触达了参数的上限,还是熟悉的配方梯度消失和梯度爆炸。于是何凯明提出了 ResNet 引入了残差结构,使得模型能够进一步扩大,于是 ResNet 12 层 18 层成了一些列图像算法的基础。至此,图像领域的技术就没有太进一步的领域革新了,似乎从此就陷入了僵局。

但即便如此,这一轮的技术推进显著解决了过去大量图像识别解决不了的任务,比如 ReID、人脸识别,目标检测分割(包含医疗CT上看片子等任务)等任务都在此轮得到了很好的落地。商业上也孕育而生了AI四小龙等冉冉升起的新星。值得一提的是,现在大火的图像生成也在这一轮有了雏形,代表的算法架构有,UNet,GAN 等。但由于其输入需要非常标准化,输出泛化性不强,且网络结构训练不稳定等特点导致没有大幅铺开应用。本轮的图像、视频生成的鼻祖可以反追溯到这个时代,本菜狗也曾在实习期间研究过相关工作。也正是在此轮,SVM / XGBoost 等第一轮的机器学习算法在推荐领域得到了广泛应用,千人千面的算法推荐流跑通了商业模式,至此 AI 算是在商业中存活了下来,然而大量的小的需要定制化的算法应用依旧是商业中难以跑通的存在。

第三轮 NLP + GPT

随着时间的快速推进,我们来到了里程碑式的 NLP 领域的突破。在过去,RNN、LSTM 还要有 HMM 是 NLP 领域的主流方向,但在 Scal up 的过程中遇到了些困难。而就在这时 Bengio 提出的 Transformers(Attention is all you need),这个架构一下子也解决了在 NLP 领域 Scall up 不起来的问题,并在 NLP 领域中提出了一种通用架构使得模型可以在海量的文本数据中无监督的进行训练。随后,分成了两个派系一个是 Google 为首的 Bert,另一个是 OpenAI 的 GPT。Bert 放弃了和人一样字符之间的顺序的信息,采用了一次性生成所有文本的方案,而 GPT 执拗于模仿人在结构上保留字符之间的顺序。而在 22 年往前的日子里 GPT1,GPT2 以及 GPT3 OpenAI 都被 Bert 系列的结构暴打。但得益于开源公益的理念,OpenAI 得以在更大的 Scall up 的情况下在 GPT3.5 震惊四座。在所有的 NLP 榜单大幅霸榜,掀起了本轮的潮流。整个社会又回到了过去对 AI 的畅想和追捧之中,尤其是其展现的 Coding 能力伴随着「西部世界」这种现象级的作品,让人们浮想联翩。

最重要的是其已经在商业上形成了一些可能成为「流量入口级」产品,如 ChatGPT,豆包等已经有了替代 Google 搜索的前兆。生产上虽然 AI 依旧没有灵魂,但已经在音视频洗稿等方面得到了史诗级的加强,不管认可还是不认可每个人都不可避免的卷入了这场浪潮。

现在人工智能的本质是什么?

段狗用通俗的话说就是,数据中找规律,但只学习共显关系。如果,数据中太阳下去月亮出来出现一百次,算法就知道太阳下去月亮一定出来。但你要问他原因他可能啥都不知道。

那为什么 GPT 看着好像很厉害的样子呢?那是私以为是因为 GPT 一直不愿意放弃的「字符顺序」起了效果,算法在运作的时候永远是通过已经出现的文字来预测下一个文字。而语言本身就是一个顺序的语音,顺序的本身代表了逻辑,先后是有意义的。那么其就能学会什么词大概率出现在什么词之后,最终的输出就会显得很有逻辑(也许,代表「知识」的因果逻辑也就存在了模型参数之中」)。

至此,所谓的智能就在这个找到的规律之中了。他可以体现在能能够分类图片,能够回答问题,能狗产生一些语音,能够生成图片。而经过精心的组合,就可以构成今天的 AI 应用。

那广义的人工智能是什么?我觉得是通过组合一系列基础任务的算法完成特定业务场景的算法系统。再具体点,就是构建和更新成本可接受的通过组合一系列基础任务的算法完成特定业务场景的算法系统。

我们现在在哪里,是信息革命的进行时吗?

是的,我会质疑其本身的「智能」,但我从技术革命的角度来看无疑答案是肯定的。这个角度是从系统构建成本和信息利用率和信息传播效率的角度出发的。因为如果成本是可接受的,社会会继续发展这个技术,反之在资本被痛打后会抛弃它。

是否成本更低了?

是的,之前构建一个专家系统需要一个资深专家写规则,图像需要图像算法专家,NLP 需要语言学家,这些人往往很稀缺且很贵。现在深度学习出现之后,一个傻子kuku往里怼数据也能远远超越过去的专家搞出的系统。现在,GPT 让对话系统的实现难度又下降了一个台阶,只是说成本上目前还不确定是否能 cover 住成本。我想 GPT 如果足够泛化,能够使用各种垂类场景的话,这个在近几年是可以看到的。

效率和传播效率是否变高了

是的,小红书文案,网文变短视频,不会的东西问 GPT,瞬间就会给你个看起来不错的答案。这相比过去的慢慢写文案,做调研其效率不言而喻的提高。

生活方式会在哪里发生改变?

我觉得顺着偷懒的角度来看就好,人是能躺着就不会站着,能动嘴皮子就不会动手,能不自己总结就会倾向于不自己总结。这是人性也是生物进化的必然趋势。

新的商业模式是否有出现?

我觉得在内容创作领域是显然会出现的重新洗牌的,但还是没有看到更好的新的商业模式,旧模式被打破新模式还未到来,这在当下 2025 年这个时间节点来看是正在进行时。而流量级入口产品的本身则势必走回算法推荐的老路,这基本上也是必然。

下一个变革点也许是战争,也许是冷战,也许是某些技术革命的升级,这个我无法得知,我能做的就只有去适应,从围观去抓去商业模式变动的拐点。

  • 本文作者: Author:DeamoV
  • Github:https://github.com/Duan-JM
  • Email:vincent.duan95@outlook.com
  • 本文链接: Artical: 关于LLMs的一些小思考
  • 版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 3.0 许可协议。转载请注明出处!
  • 版权声明: 原创文章如转载,请注明出处