纯阳书评第576期《纯阳子讲人工智能之三：大模型AI有多能？！》

Item: 大模型时代
Rating: 5
Author: 纯阳书评

2024-04-30 09:18:13 已编辑北京

在上一期中，我们讲到在算力、数据和算法三个方面共振式爆发的推动下，连接主义依靠对人脑神经网络的模拟，终于在人工神经网络参数量级阈值突破中证实了他们的直觉，等到了他们心心念念的能力涌现，得到了他们信仰中的智能。大模型AI的诞生如此神奇，简直不啻于一种奇迹，那么问题来了，这种看起来颇为神奇的大模型AI究竟有多能呢？本期回答这个问题，具体内容如下：

第一、大模型拥有强大的人类知识学习能力在这个问题上，存在一个意料之中，一个意料之外。

1、先看意料之中。大模型的智能来自于海量数据的训练，知识也就来自于海量数据，比如ChatGPT在预训练阶段就使用了来自Common Crawl、WebText2、维基百科等多种来源的大约45TB 的压缩文本数据，所以说通过这种训练，ChatGPT这种大模型掌握了数量极为庞大的知识，展现了强大的人类知识学习能力，这一点并不会令人感到意外。ChatGPT的逻辑如此，其他大模型的逻辑也是如此，训练的数据越多，掌握的知识也就越多。

2、再看意料之外。大模型的知识存储在哪里？或者说大模型的知识以什么形式存储的？很多人出于对PC文档存储的惯性理解，往往认为大模型的知识也是以知识文档存储的，当人们提出问题时，它们是以复制并粘贴现有文本来应付的。这种看法符合直觉，而且在实践中被大模型诞生之前的各种所谓智能助手和智能客服所广泛采用。但是大模型的知识逻辑并不如此，还拿ChatGPT为例，预训练数据45T，但是最终得到的ChatGPT模型不到一个T，可见上述那种基于文档存储的复制理论压根站不住脚，因为复制意味着45T的输入带来的理应是相同量级的存储，所以1个T的模型意味着大模型采用的另外一种逻辑，即一种模拟了人脑处理知识的逻辑。人脑的知识处理逻辑还有很多未解之谜，但是一个基本逻辑是清晰的，即特定概念或记忆的信息不是存储在单个神经元中，而是神经元通过突触相互连接，形成了一个极其复杂的神经元网络，然后通过这个网络来存储记忆、知识和技能。

类似地，大模型模拟了人脑的知识处理基本逻辑，也是通过神经网络来实现知识存储和处理。在训练过程中，大模型通过处理和分析大量的文本数据，从而学习到关于世界的各种知识，然后将这些知识以连接权重和节点偏置等神经网络参数的形式存储在神经网络模型中。所以大模型中的知识最终都表现为神经网络参数，而不是具体的知识，这一点和人脑中知识表现为神经元的复杂连接和交互模式而不是具体的知识殊途同归。

第二、大模型拥有强大的暗知识创造能力人们把人类创造的知识称为明知识，这类知识可解释，而把机器智能创造的、行之有效的但人们无法理解的知识称为暗知识。

1、暗知识的出现是一种必然为什么大模型会搞出暗知识？第一个原因来自于智能够着思维，当下取得突破的大模型，其使用的各种深度学习算法都是神经网络这一脉，而这一脉强调的就是模拟人脑通过神经元的链接产生思考、记忆，进而涌现智慧，而人脑目前就是一个黑盒，所以学的是黑盒，学出来的当然也是黑盒，这一点应该是必然结果，压根不应该意外。另一方面，人脑本身就是一个能力有限的思维容器，比如加上时间，最多能够想象到四维空间，正常人无法想明白什么是第五维。而基于数学的机器意味着大模型将必然有机会抓取到事物更多高维的抽象特征、复杂模式，这些高维度的特征和模式必然超越人的脑力，所以暗知识的出现也是几乎是题中应有之义。

2、暗知识需要一种实用主义暗知识还有一个不那么好听的称呼，叫“黑盒”，大模型的黑盒问题也是当下大模型被大为诟病的地方。理由也很简单，这种情况是人类历史上的第一次，在此之前所有的知识都是由人类创造的，所以知识基本上都是透明的，人类既可以解释也可以理解，但是现在大模型创造出了暗知识，看着管用，效果也很好，但就是难以理解，所以人们终归有点不那么踏实。不理解有多大问题？让我们再来看一下人脑，截至目前为止，人脑还有很多未解之谜，跑过来一只狗，我们可以很快意识到它是一只狗，而不是一只其他动物，但是我们无法准确说清楚我们的依据到底是什么。尽管如此，但是目前尚没有人因为大脑是个黑盒，而提出拒绝使用大脑。可见能理解、可解释是人类知识的一部分，不能理解，不可解释也是人类生活的一部分，对于某些特定的知识，至少在特定时期是这样的。对于这些知识，我们都务实地采取了一种实用主义，所以对大模型的黑盒，我们理应如此，至少我们可以验证，可以比对，可以以结果论英雄。人类从来就是实用主义的，关注的是结果，只要知识能够带来好的结果，那么我们即使真的不明白怎么回事儿，也会继续使用的，不会非得等到彻底搞明白了才会使用。人类如此，动物也是如此，飞鸟是实用主义，尽管它们不懂空气动力学，照样空中飞，鱼儿也是实用主义，尽管它们不懂流体动力学，照样水中游。所以对于AI，我们也应坚持这种以结果为目标的实用主义。3、大模型制造知识只是开始模拟人脑的逻辑，意味着大模型将会成为一个暗知识制造机，现在大模型的训练只是一个开始，所以大模型制造暗知识也只是一个开始。随着大模型训练算力的进一步升级，数据的规模、范围、性质的不断迭代，算法的持续优化，暗知识将层出不穷，不断涌现。大模型在制造暗知识的过程中，也可能与人共同努力找到一些方法帮助人们理解暗知识，从而完成暗知识的透明化，将其转化为明知识。所以无论如何，一个由大模型创造知识的时代业已到来。

第三、大模型拥有强大的内容生成能力生成内容是大模型最直接，也是最有价值的能力，下面从生成文字、图片和视频三个维度介绍一下大模型的生成能力。

1、大模型生成文字很多人对大模型的文字生成还是停留在传统AI的历史认知上，想当然认为大模型的内容生成还是基于模版和脚本，所生成的内容来自于对提前准备好内容的复制和粘贴。实际上大模型的文字生成，不是来自于现存文档的复制和拷贝，而是来自于自身的知识，即内嵌在模型中的参数和权值，对用户提问做出回应，生成过程中有三个亮点很值得点明。一是大模型真的理解了用户的问题。传统模型只是在词汇和语法层面解读用户的问题，而大模型可以在深度语义层面理解用户，所以能够为内容生成奠定基础。二是大型模型生成的文本在连贯性和自然性方面已经非常接近人类，生成的文本流畅、逻辑清晰且符合语言习惯，还可以模拟多种不同文体和语言风格。三是大模型已经表现出了创造力和想象力，能够生成诗歌、故事和剧本等创意性文本。至于很多人抱怨大模型生成的内容质量不高，不能满足自己的需要。这个是个真实情况，但是更加真实的情况是问题出在用户身上而不是大模型身上，用户如果不能把自己的背景、要求事先讲述明白，无论对方是大模型还是人都无法生成出令用户满意的内容。

2、大模型生成图片如果说文生文是低级生成的话，那么文生图至少是中级水平。文生图对大模型的要求拉高了一个段位，即大模型既要理解文字内容，又要理解图像内容，还要能够生成用户文字所描述的图像内容，难度系数很高，目前的文生图大模型已经达到了相当水平，具有了以下几个亮点：一是大模型能够生成高度逼真的图像，细节丰富。可以模拟现实世界的复杂场景，捕捉到物体的纹理、光影、颜色等细节，使得生成的图像看起来非常真实。二是大模型能够理解并模拟多种艺术风格。可以模拟现实主义、抽象、印象派等不同流派，可以根据用户喜好或需求，生成特定的艺术风格。三是大模型展现出了创造力和想象力。能够基于简单的提示或描述生成新颖、创意性的图像，将用户的想象转化为现实。四是大模型能够实时生成图像。这对于需要快速图像生成的场景非常有用，用户可以快速地得到所需的图像，提高工作效率。大模型打通了文字和图像，实现了两种模态数据的通读通解，既体现理解力，又展现创造力，但对相关图像设计领域人士可能既有助力，又是打击。

3、大模型生成视频如果说文生图是中级生成的话，那么文生视频绝对是高级水平。文生视频对大模型的要求再一次拉高了技术段位，即大模型既要理解文字内容，又要理解图像内容，也要理解图像内容，还要能够生成用户文字所描述的视频内容，难度系数极高，目前的文生视频大模型已经达到了一定水平，具有了以下几个亮点：一是能够根据文本描述生成连贯、逼真的视频内容，它不仅能够模拟物理世界中的运动和交互，还能够处理数字世界中的复杂场景。二是能够理解物体在三维空间中的运动规律和物理世界的基本法则，能够生成具有动态相机运动的视频，模拟数字世界中的游戏场景。三是具有高度的灵活性，可以将文字、图像、视频统一到一个模型中，保证视频中人物和背景的长期连贯性，处理好视频中元素在时间和空间上的一致性。这意味着大模型打通了文字、图像和视频多种模态的数据，如果说生成文字是对人类历史上知识的学习，那么生成图像就是对物理世界的理解和学习，能够产生对于物理规律的常识性展现，已经成为了一种物理世界的模拟器，堪称一种奇迹。

第四、大模型拥有极强的升级迭代能力人脑有三大瓶颈，分别是算力瓶颈，脑力自带天花板；有算法升级瓶颈，生物进化相当缓慢；有数据输入瓶颈，眼睛、耳朵等信息输入带宽有限。而大模型没有这些瓶颈，只要算力、算法、数据到位，那就是一马平川，可以一日千里。大模型的性能进步速度极快，不断超越人们的预期， OpenAI这家公司的大模型升级进步历程就可以充分表明这一点。GPT-3发布于 2020 年，拥有1750 亿个参数，在自然语言处理任务中表现出色，能够生成高质量的文本。其升级版GPT-3.5发布于两年后的 2022 年，理解和执行人类指令方面得到了显著提升。GPT-4发布于一年后的 2023 年，拥有约 1.8万亿个参数，在多个自然语言处理任务中取得进一步的突破。一年后的2024年，震撼世人的SORA就登场了，可根据提示创建最长60秒的逼真视频，该模型能理解物体在物理世界中的存在方式，深度模拟真实物理世界，被称为视频生成领域的“GPT-3时刻”，该模型再一次完成了人们认为的不可能。这些OpenAI大模型的突破，几乎每一次都是飞跃，几乎每一次都会拉高人们的预期，但是每一次又超过人们的预期，所以每一次都让人们在难以置信中兴奋不已。综上所述，大模型AI到底有多能呢？简单来说拥有四大能力，即强大的人类知识学习能力、暗知识创造能力，内容生成能力和升级迭代能力。但是目前的一切都只是开始，高潮还远未到来，大模型时代的序幕只是刚刚打开。大模型AI到底有多能，其实我们目前不只是讲不明白，而是尚想不明白！

有关键情节透露