神经网络的发展历程
本书首版于2018年。
原名:《The Deep Learning Revolution》
作者:特伦斯·谢诺夫斯基(Terrence Sejnowski),美国,1947-,神经网络的先驱,计算机神经科学。
译者:姜悦兵
本书是作者的准回忆录,探讨了神经网络的发展历程以及它如何受益于生物学领域的启发。
亮点
较多的案例。
讲述了生物学与深度学习之间存在的相得益彰的共生关系。
神经网络的3个主要发展阶段
神经网络的发展呈现出“理论突破→技术瓶颈→新突破”的循环模式,每个繁荣期持续约10-15年,低谷期约10-20年。这种规律受技术成熟度、计算资源、数据规模等多重因素共同作用。当前,神经网络正处于第3次繁荣期的持续发展阶段。
第1阶段:感知器时代(1950年代末-1969年)
1958年,弗兰克·罗森布拉特(Frank Rosenblatt,神经网络之父)发明了感知器,是第一个可实际训练的神经网络模型,能实现简单的线性分类。神经网络研究获得广泛关注。1969年,发现单层感知器无法解决非线性问题(例如:异或问题),导致研究资金锐减,神经网络进入第一次寒冬。
第2阶段:多层网络与反向传播(1980年代)
1986年,戴维·鲁梅尔哈特(David Rumelhart)、杰弗里·辛顿(Geoffrey Hinton,深度学习之父)等人提出并推广反向传播算法(BP算法),解决了多层神经网络的训练难题。这一时期还诞生了卷积神经网络(CNN)与循环神经网络(RNN)等架构。由于计算能力限制与数据规模不足,神经网络在1990年代中期再次遇冷,被支持向量机等算法取代。
第3阶段:深度学习时代(2012年至今)
2012年,由亚历克斯·克里热夫斯基(Alex Krizhevsky)、伊尔亚·苏茨克维(Ilya Sutskever)、杰弗里·辛顿(Geoffrey Hinton)提出的深度卷积神经网络AlexNet,在ImageNet竞赛(斯坦福大学李飞飞团队发起的年度计算机视觉竞赛)中以远超其他方法的准确率获胜,标志着深度学习的崛起。这种突破得益于3个关键因素:大规模数据集(例如:ImageNet)、GPU计算能力的提升,ReLU激活函数、Dropout等工程技术的成熟。此后,深度学习在计算机视觉、自然语言处理等领域取得突破性进展。
阅读笔记
序
人工智能系统(尤其是其训练过程)的强大之处,在于其计算模式(矩阵运算)与底层硬件架构(GPU/TPU)能够对海量数据样本、庞大模型参数、密集计算任务进行大规模并发处理。这种“用蛮力并行计算”的能力,是其解决复杂问题、性能随规模增长而提升的驱动力之一,也是区别于传统顺序编程范式的特点。
01
翻译软件最初的方法是搜索可以被一并翻译的词汇组合。深度学习会在整个句子中寻找词汇之间的依赖关系。
根据心理学的主流观点(卡特尔-霍恩-卡罗尔智力理论,CHC理论):流体智力能够将新条件中的推理与模式识别用于解决新问题,而不依赖于以前的知识;晶体智力依赖于先前的知识。流体智力遵循抛物线式发展轨迹,在成年早期达到高峰,并随着年龄的增长逐渐下降;晶体智力会随年龄的增长,缓慢渐进式的提高,直至暮年。
全人类平均的IQ分数每10年会上升3个点,这种趋势被称为“弗林效应”(Flynn effect)。这种趋势主要由环境因素驱动(例如:更充足的营养、更完善的医疗体系)而非基因突变。但近年来部分发达国家(例如:挪威、芬兰、美国)出现了反向弗林效应,即:智商分数下降或停滞。挪威研究发现,从1970年代开始,每代人的智商平均下降7分。这可能与认知懒惰(过度依赖搜索引擎与AI工具)、教育模式转向、数字技术导致注意力分散等因素有关。注:智商测试仅衡量抽象问题解决能力,无法反映创造力、社会情感等综合智力。智商分数的提升并不完全等同于智力的全面进步。
慕课(大规模开放在线课程,Massive Open Online Course ,MOOC)是通过互联网向全球学习者免费开放的在线教育模式。

02
计算机处理逻辑问题的能力比人类要强得多。逻辑思维是进化后期的产物,人类掌握逻辑思维需要接受从逻辑命题到得出严谨结论的长期训练。然而,解决大多数生存问题,只需从以往的经验中总结出解决方案即可,且在大部分时间都能发挥作用。
1984年,美国计算机科学家道格拉斯·莱纳特(Douglas Lenat)领导启动了Cyc项目,旨在通过手工编码数百万条常识知识以构建可推理的知识库,使计算机具备类似人类的推理能力。Cyc知识库已扩展至50万条术语与700万条断言,涵盖从“每棵树都是植物”“植物最终都会死亡”等基本常识。项目采用CycL知识表示语言(基于一阶关系的专有语言),核心知识库由术语(Terms)、断言(Assertions)组成,涵盖概念定义与逻辑关系。
03
基于深度神经网络(Deep Neural Networks, DNN)的深度学习(Deep Learning)是机器学习的重要分支,特指基于深层神经网络模型与方法的机器学习技术。它通过构建包含多个隐藏层的深度神经网络,使机器能从大量数据中自动学习。
深度学习的“深度”体现在其网络结构上——通常包含5-6层,甚至10多层以上的隐藏层。这种多层结构使模型能逐层提取数据的抽象特征:浅层学习低级特征(例如:边缘、颜色)与深层学习高级特征(例如:纹理、物体部件),最终完成分类和预测任务。与传统的浅层学习相比,深度学习的优势在于能够自动提取特征,无需人工设计特征工程。
感知器(深度学习网络的早期雏形)是能够将图像进行分类的简易学习算法。需要很多样本来训练感知器。
04

理解大脑,必须了解大自然如何通过进化解决了大量的问题,并将这些解决方案自下而上传递给进化链上的物种。我们大脑中的离子通道,在几十亿年前的细菌体内就存在。
05
大脑最擅长的工作之一是通过模式识别来解决问题。
视觉系统有巨大的计算复杂性,大自然经过数亿年的进化才解决了这个问题。视觉皮层的组织结构为深度学习网络提供了灵感。
人类的每个视网膜有100万个神经节细胞,在初级视觉皮层中有1亿个神经元——这仅是皮层视觉层级中的第一层。


06
通用信息最大化学习原理(general infomax learning principle)提高了通过网络传递的信息量。独立分量分析(Independent Component Analysis)解决了盲源分离问题。

自由意志与神经决定论之间的矛盾,这是当代神经科学与哲学面临的难题。问题的答案不仅关乎科学,更关乎道德责任、法律判断、我们对人类本质的理解等。
主观体验层面:每个人都能感受到自己是行为的发起者。当决定“现在要去做什么”时,这种“我做主”的感觉非常真实。我们相信,是“我”这个主体在主动选择,即:是“我”的意图导致了后续的行动。
神经科学层面:大脑扫描显示,在我们意识到自己做出决定之前,大脑的神经活动已经开始。神经元的放电、突触的传递、神经递质的释放等物理与生物化学过程,在意识层面感知到“我决定”之前就已经发生。即:大脑的物理状态似乎决定了我们的心理状态,而不是反过来。
目前科学界还没有定论。一些科学家认为,自由意志是幻觉,我们的行为完全由大脑的物理过程决定;另一些则认为,意识可能扮演着“否决权”的角色,虽然大部分决策由潜意识完成,但意识可以在最后关头阻止某些行为;还有一些人主张“相容论”,认为自由意志与决定论并不矛盾——即使行为由大脑决定,只要这个决定过程符合我们的价值观与意图,我们仍然是自由的。
07
当网络中单元的更新以顺序进行时,单元组彼此双向连接且权重相同的特殊对称网络,可解且最终能收敛。
1983年,杰弗里·辛顿、特伦斯·谢诺夫斯基提出了基于能量模型的随机神经网络训练方法——玻尔兹曼机学习算法(Boltzmann Machine Learning Algorithm),它通过对比散度算法调整网络权重,使模型能够学习数据的概率分布并生成新样本。它包含可见层与隐藏层,网络状态的概率分布遵循玻尔兹曼分布,能量越低的状态出现概率越高。该算法在图像识别、推荐系统、自然语言处理等领域有广泛应用。
08
根据Nature的调查数据,Web of Science数据库中约21%的论文从未被引用过,不同学科差异显著:生物医学领域仅4%未被引用,化学8%,物理学11%,而人文学科高达65%。
神经网络的学习过程:不断以微小的步伐优化自身的表现。这个过程非常缓慢,但如果有足够的训练样本且网络足够大,学习算法就可以找到能够泛化的表征方式,以适应新的输入。
在实践中,人们倾向于使用类比,从比较熟悉的领域推广到新的领域,但如果两个领域存在本质上的不同,这样的类比就是错误的。例如:将销售洗衣液的能力类比为销售房子的能力,就忽略了日用品与奢侈品在销售逻辑、客户群体、决策周期等方面的本质差异。要提高类比推理的可靠性,需要遵循3个原则:增加共同属性的数量、关注本质属性而非表面特征、确保共同属性与推出属性之间存在必然联系。如果两个领域在核心特征上存在根本差异,那么即使表面相似,类比也是无效的。
09
知识最终取决于大脑如何表达知识。 认知神经科学研究表明,知识并非是虚无缥缈的抽象存在,而是以具体的物质形式存储在大脑中,通过神经元之间的特定连接方式与神经化学相互作用来实现表征。
深度学习网络与生物视觉皮层的层级结构在统计特性上存在显著相似性,这种相似性源于卷积神经网络的架构设计直接受到大脑视觉皮层的生物学启发。
10
多巴胺神经元构成了大脑“动机系统”的核心,参与奖赏评估与动机驱动。当个体获得预期奖励时,多巴胺神经元会爆发性放电,释放多巴胺产生愉悦感并强化行为记忆。
11
数据量是机器学习成功的重要条件,但不是唯一条件。高质量的数据、合适的模型复杂度,以及充足的算力资源,共同决定了机器学习项目的成败。
赌博成瘾机制与大脑多巴胺的“奖励预测误差(Reward Prediction Error, RPE)”机制密切相关。大脑会对比预期奖励与实际奖励之间的差异。当实际奖励超过预期时,多巴胺神经元会爆发性释放,产生正性预测误差;当实际奖励低于预期时,多巴胺活动会被抑制。这种机制原本用于促进学习与适应性行为,但赌博巧妙的劫持了这套系统。赌博的“间歇性可变奖励”设计——不确定性与“差点赢”效应,会引发比稳定奖励更强烈的多巴胺释放。每次下注时,大脑都会为“可能到来的巨大奖励”进入高度兴奋状态,这种对“即将获胜”的强烈渴求让人欲罢不能。长期反复刺激下,大脑会产生耐受性,需要更大的赌注才能获得同等快感,同时前额叶皮层的理性控制功能会逐渐削弱,最终形成强迫性赌博行为。
12
2013年,美国启动大脑科学研究项目BRAIN计划(通过创新神经技术推动大脑研究计划),旨在通过开发新型神经技术工具,绘制人类大脑的详细图谱,揭示大脑工作机制,并推动神经疾病的治疗研究。预计到2026年,该计划的总投入超过50亿美元。
2021年,中国启动科技创新2030“脑科学与类脑研究”重大项目,聚焦脑认知功能解析、脑疾病诊治、类脑智能技术,当年国拨经费31.48亿元。
《学习之道》已由机械工业出版社2016年10月出版
第13章
20世纪,物理学主要依赖微分方程与连续变量来描述自然现象。从牛顿力学到量子力学,微分方程成为刻画物理世界的基本工具。牛顿第二定律、麦克斯韦方程组、薛定谔方程等物理定律都表现为微分方程形式,这些方程描述了物理量在时间与空间上的连续变化。
21世纪,技术发展的重心转向了算法与离散数学。计算机科学的数据结构、算法设计、人工智能,都建立在离散数学的基础上。图论、组合数学、数理逻辑等离散数学分支成为了计算机科学的数学语言。
这种范式的转变不是简单的替代关系,而是并存与融合——微分方程在物理学、工程学等领域仍然不可或缺,离散数学与算法在计算机科学、生物学等领域展现出独特优势。
现代科学计算经常需要将连续问题做离散化处理(例如:有限元法求解偏微分方程),这本身就是两种范式的结合。深度学习中的神经网络虽然基于离散数学,但其训练过程通常涉及连续优化问题,需要两种数学工具的协同作用。
算法是在执行计算或解决问题时,遵循一组包含离散步骤或规则的过程。
虽然人工神经网络模型在结构与复杂性上远不如生物大脑,但它为探索信息在大规模神经元中分布的一般原理提供了重要工具。
生命体的显著复杂性可以通过分子间化学相互作用在相对简化的空间中进行演化。这个过程涉及自组织、协同作用、相分离等多种机制。
14
人类大脑中有大约1000亿个神经元,每个神经元都与其他数千个神经元相连接,总计1000万亿个(1015)突触连接。大脑运转功耗大约是20瓦,占整个身体运转功率的20%,尽管大脑仅占身体质量的3%。相比之下,远不如大脑强大的千万亿次级超级计算机,功耗为5兆瓦,是大脑功耗的25万倍。因为神经元接收与发送信号的部分处于分子水平,神经元在三维空间上相互连接(微芯片表面的晶体管仅在二维平面上互连),这样就可以使所需空间最小化。
混合数字与神经形态设计借鉴了混合动力汽车的设计理念。混合数字与神经形态芯片采用“模拟计算+数字控制”的架构:模拟电路(通常工作在亚阈值区)负责高效模拟神经元与突触的生物物理特性,实现低功耗计算;数字电路负责控制逻辑、路由配置、数据通信,确保高精度与高带宽传输。这种设计在生物合理性、能效、工程可行性之间找到了平衡点。
16
当视觉与听觉信号到达大脑的时间差超过约100-200毫秒时,人们就不再认为声音与视觉事件同时发生,此时对应的距离约为30-40米。
17
我们不应该只停留在行为层面描述语言,而应该理解语言背后的生物学原理与潜在的生物学机制,以及智人的语言能力是如何演变的。
18
算法生物学使用算法语言来描述生物系统所使用的问题解决策略。
遗憾
部分内容已经过时。
一会讲计算机科学,一会儿讲生物学(尤其是脑科学),层次欠分明。
质疑
正文026:晶体智力是标准智商测试(即IQ测试)的对象。实际:大多数综合性标准智商测试(例如:韦氏智力量表、斯坦福-比奈量表)都旨在同时测量流体智力与晶体智力。
正文030:计算机科学家签署了不会将AI用于军事目的的承诺协议。实际:2015年,3722位人工智能与机器人研究人员共同签署了公开信,呼吁禁止使用自动武器。2018年,生命未来研究所(Future of Life Institute)发起了《致命性自主武器宣言》,包括马斯克、谷歌DeepMind三位联合创始人在内的2400多名AI专家、160多家AI相关企业共同签署了承诺书,宣誓不参与致命性自主武器系统的开发、制造、贸易、使用。2024年,OpenAI从其AI道德准则中删除了“禁止将技术用于武器开发与军事与战争”的措辞。2025年,谷歌删除了“避免将AI技术用于武器研发”的承诺条款。目前众多科技公司正在为军方研发AI武器系统。