机器需要注意力
《Attention Is All You Need》是2017年由Google机器翻译团队发表的一篇里程碑式论文,文中开创的并行处理式大语言模型Transformer就是GPT和BERT中的"T".
一、机器学习和深度学习的区别?
机器学习(ML)是人工智能(AI)的分支之一,深度学习(DL)是机器学习的方法之一,以ML和DL为主要技术的第三次AI热潮从2010年中期开始。
ML依靠大量数据进行回归预测,用于自动驾驶、交通管理、实时交易和广告推荐等;DL通过模仿人类神经网络以实现特征量的自主设定,用于图像识别和自然语言处理。
二、机器怎么学习?
在回归分析中,多使用正则化最小二乘法来抑制过度学习:一种是以回归系数绝对值之和为基准(Lasso回归),它能让不重要的回归系数归零,另一种则以回归系数的平方和为基准(Ridge回归),它的计算更简单、预测性能也更高。
Python中最受欢迎的机器学习库是scikit-learn,Google Colaboratory和Kaggle Kernel是可以免费使用的在线虚拟环境。
三、怎么深度学习?
在预训练中,用权重矩阵乘以输入数据并与偏置相加,得到输出值,输出值和正确答案之差就是损失函数,通过误差反向传播法计算该函数;
为找出最优权重和偏置,需要使损失函数最小化,通过链式法则对函数求导,这就是梯度下降法,其中ReLU函数(实现数据归一化的激活函数之一)可以避免Sigmoid函数中常出现的坡度消失问题。
Transformer是一种提示词自动补全机制,它依托自注意力机制(self-attention)来动态有偏地调整权重和偏置,它相较于递归性神经网络(RNN)更能减少对前端数据的遗忘。
最后来温故一下贝叶斯定理:
以上对于贝叶斯更新的使用,被称为贝叶斯定理,这是一种基于结果推理原因的方法。让我们举一个垃圾短信判别的案例。人们印象中垃圾短信的正文中经常会出现“免费”这个词,换言之,垃圾短信之所以被称为垃圾短信,就是因为“免费”这个词的大量出现而导致的。这时,我们就要去寻求包含“免费”这一词汇的短信是垃圾短信的概率(结果→原因)。根据以往的经验,正常短信一般占所有短信的75%,而垃圾短信一般会占所有短信的25%。再者,正常短信中包含“免费”这个词汇的概率为10%,而垃圾短信中包含“免费”的概率为80%。此时,包含“免费”这个词汇的短信被当作垃圾短信的概率为0.2/0.275=72.7%,这样就成功地通过结果来找到原因并且求出了其发生的概率。
0.275=正常短信中免费短信的占比+垃圾短信中免费短信的占比=0.75*0.1+0.25*0.8=0.075+0.2