用于图像处理的表征学习
图像表征学习是理解各种视觉数据(如照片、医学图像、文件扫描和视频流等)的语义的一个基本问题。通常情况下,图像处理中的图像表征学习的目标是弥合像素数据和图像语义之间的语义差距。图像表征学习已经成功解决了现实世界里的许多问题,包括但不限于图像搜索、面部识别、医学图像分析、照片处理和目标检测等。 近年来,我们见证了图像表征学习从手工特征工程到通过深度神经网络模型自动处理的快速发展过程。传统上,图像的模式是由人们基于先验知识借助手工特征提取的。例如,Huang et al (2000)从笔画中提取了字符的结构特征,然后用它们识别手写字符。Rui (2005) 采用形态学方法改善了字符的局部特征,然后使用PCA提取字符的特征。然而,所有这些方法都需要手动从图像中提取特征,因此相关的预测表现强烈依赖于先验知识。在计算机视觉领域,由于特征向量具有高维度,手动提取特征是非常烦琐和不切实际的。因此,能够从高维视觉数据中自动提取有意义的、隐藏的、复杂的模式,这样的图像表征学习是必要的。基于深度学习的图像表征学习是以端到端的方式学习的,只要训练数据的质量足够高、数量足够多,其在目标应用中的表现就比手动制作的特征要好得多。 用于图像处理的监督表征学习。在图像处理领域,监督学习算法,如卷积神经网络(Con- volution Neural Network,CNN) 和深度信念网络 (Deep Belief Network,DBN) ,被普遍应用于解决各种任务。最早的基于深度监督学习的成果之一是在2006年提出的(Hinton et al,2006),它专注于处理MNIST数字图像分类问题,其表现优于最先进的支持向量机 (Support Vector Machine,SVM) 。自此,深度卷积神经网络(ConvNets) 表现出惊人的性能,这在很大程度上取决于它们的平移不变性、权重共享和局部模式捕获等特性。为了提高网络模型的容量,人们开发了不同类型的网络架构,而且收集的数据集越来越大。包括AlexNet (Krizhevsky et al, 2012) 、VGG (Simonyan and Zisserman, 2014b) 、 GoogLeNet (Szegedy etal,2015) 、ResNet (He et al,2016a) 和DenseNet (Huang et al,2017a) 等在内的各种网络以及ImageNet、Openlmage等大规模数据集都可以用于训练深层的卷积神经网络。凭借复杂的架构和大规模数据集,卷积神经网络在各种计算机视觉任务中不断超越之前最先进的技术。 用于图像处理的无监督表征学习。在图像数据集和视频数据集中,大规模数据集的收集和标注都很耗时目昂贵。例如,ImageNet包含大约130万张有标签的图像,涵盖1 000个类别,每张图像都由人工标注了一个类别标签。为了减少大量的人工标注工作,人们提出了许多用于从大规模未标注的图像或视频中学习视觉特征的无监督方法,而无须任何人工标注。一种流行的解决方案是提出各种代理任务供模型解决,模型则通过学习代理任务的目标函数进行训练,并通过这个过程学习特征。针对无监督学习,人们提出了各种代理任务,包括灰度图像着色 (Zhang et al,2016d) 和图像修复(Pathak et al,2016) 。在无监督训练阶段,需要设计供模型解决的预定义的代理任务,代理任务的伪标签是根据数据的一些属性自动生成的,然后根据代理任务的目标函数训练模型。当使用代理任务进行训练时,深度神经网络模型的浅层部分侧重于低层次的一般特征,如角落、边缘和纹理等,而深层部分则侧重于高层次的特定任务特征,如物体、场景等。因此,用预先定义的代理任务训练的模型可以通过学习内核来捕捉低层次和高层次的特征,这些特征对其他下游任务是有帮助的。在无监督训练结束后,这种在预训练模型中学习到的视觉特征便可以进一步迁移到下游任务中(特别是在只有相对较少的数据时) ,以提高表现并克服过拟合。 用于图像处理的迁移学习。在现实世界的应用中,由于人工标注的成本很高,可能并非总是可以获得足够的属于相同特征空间或测试数据分布的训练数据。迁移学习通过模仿人类视觉系统,在给定领域(即目标领域)执行新任务时,利用了其他相关领域(即源领域)的足够数量的先验知识。在迁移学习中,针对目标领域和源领域,训练集和测试集都可以起作用。大多数情况下,一个迁移学习任务只有一个目标领域,但可以存在一个或多个源领域。用于图像处理的迁移学习技术分为特征表征知识迁移和基于分类器的知识迁移两种。具体来说,特征表征知识迁移利用一组提取的特征将目标领域映射到源领域,这样可以显著减少目标领域和源领域之间的数据差异,从而提高目标领域的任务性能。基于分类器的知识迁移则通常有一个共同的特点,也就是将学到的源领域模型作为先验知识,用于与训练样本一起学习目标模型。基于分类器的知识迁移不是通过提高实例的表征来最小化跨领域的不相似性,而是通过提供的两个领域的训练集和学习的模型来学习另一个新的模型,进而使目标领域的泛化误差最小。 用于图像处理的其他表征学习技术。其他类型的表征学习技术也被经常用于图像处理,如强化学习和半监督学习。例如,可以尝试在一些任务中使用强化学习,如图像描述 (Liu et al,2018a; Ren et al,2017)以及图像编辑 (Kosugi and Yamasaki,2020),其中的学习过程可被形式化为基于策略网络的一系列行动。 引自 1.2.1 用于图像处理的表征学习 3
434人阅读
异步图书对本书的所有笔记 · · · · · ·
-
推荐序
图神经网络(Graph Neural Network,GNN)是近年来在传统深层神经网络基础上发展起来的一个新领...
-
用于图像处理的表征学习
> 查看全部2篇
说明 · · · · · ·
表示其中内容是对原文的摘抄