作者自评——王婆卖瓜
身为本书的作者,我想在这里分享一下写这本书的初衷,同时介绍一下本书的特色和亮点。希望能为感兴趣的读者提供更多的信息(当然,更主要的目的是吸引更多的读者)。
写作初衷
这并不是我的第一本书。在2018年,我曾出版了一本名为《精通数据科学》的书。该书的主要特色在于将统计分析和机器学习这两个不断割裂的学科融合在一起,以帮助读者更好地建模和理解数据。然而,那本书虽然涉及了机器学习的经典模型,但对神经网络的介绍相对较少,这是一个较大的遗憾。近年来深度学习的迅猛发展似乎让传统的机器学习模型逐渐失去了辉煌,因为它们的解释性相对较弱,而在预测能力上也逊色于深度神经网络。尤其是自2023年起,以ChatGPT为代表的大语言模型“征服”了建模领域的最高峰:自然语言处理。这让神经网络这样一个相对小众的技术术语成为了大众讨论的焦点。因此,精通神经网络可能将成为未来技术人员(甚至所有人)的必备技能。在这样的背景下,我着手创作了这本书,旨在帮助读者深入了解神经网络的基本原理、常见架构、训练技巧,并探讨其在人工智能领域的广泛应用。
内容简介

本书延续了上一本书的特色,将技术视作一个整体来呈现。尽管目标是探讨大语言模型,但我们从最基础的线性回归和逻辑回归开始讲起。就像高端的食材往往只需要采用最朴素的烹饪方式,尖端的模型处理往 往也有一个简单直观的思想原型。简单模型并非只有教学用途,深入理解它们的原理对掌握复杂模型非常有帮助。
在基础章节后,我们将抛开具体模型细节,转向从工程的角度来探讨计算机如何解决最优化问题。这涉及神经网络领域最重要的两个算法——梯度下降和反向传播。尽管现有的开源工具(比如PyTorch)已经封装了它们,使用起来非常方便。但是也正因为如此,导致学习模型的同学很少有机会去深入了解这两个算法的实现细节。因此,本书通过重新实现的方式深入讲解这两个算法,以帮助读者从机械的角度理解神经网络模型。当然,深刻理解这两个算法是优化模型训练(这是深度神经网络非常重要的内容)的基础。
完成这些准备工作后,本书正式探讨大语言模型的具体结构和学习方式。讨论可分为两部分:一是数据基础,涉及如何组织数据以使模型能够利用数据进行训练,包括迁移学习和强化学习;另一部分是模型结构,包含多层感知器、卷积神经网络、循环神经网络以及大语言模型中最著名的注意力机制。在介绍模型结构的同时,本书还着重介绍了模型训练过程中的工程优化,这在实际工作中可能更为重要。
其他想说的话
我的偶像,天才数据家伽罗瓦曾言
一个作者对读者做的最大的恶就是隐藏难点
因此,本书的阅读难度并不小,因为它尽可能地详细讨论模型所涉及到的所有难点。当然,我个人认为这样的做法对读者也是最好的。因为
如果能让自己先沉浸于细节之中,直到这个主题的各部分都完全熟悉为止。然后有一天,我们便会看到各个部分都恰当地相互联系成一个整体。就如同先在迷雾中走遍一座山,直到每条小路、山峰和山谷都变得非常熟悉,然后再在阳光明媚的日子里,从远处来清晰地整个地观看这座山。
以上,感谢各位的时间!