分布式机器学习:算法、理论与实践 (18) 更多

  • 第181页 ADMM
    ADMM引入一个辅助变量z来控制各个工作节点上模型的差异,使他们都比较接近。 每次计算复杂,实际收敛速度并不快,但是通信代价小,并行效率很高。 MA与ADMM,前者没有全局一致的拉格朗日正则项,因此,从本地优化...
  • 第180页 BMUF
    MA往往比较稳定,所以调高学习率。 在单机模型做SGD更新的时候,常常会加入冲量以有效地利用历史更新信息来减小随机梯度下降中的梯度噪音的影响。那么类似的,我们也可以考虑在MA中对每次全局变量的更新采用冲量...
  • 第179页 MA
    根据通信间隔的不同可以分成最终进行模型交换平均,中间多步以应对非凸问题
  • 第175页 分布式机器学习同步算法
    同步SGD类 同步SGD相当于一个批量大小增大K倍的minibatch,批量增加K倍后,算法的收敛速度满了K开方,吞吐增加了K倍,所以增加了K倍的速度。但是这并没有包括通讯。 如果每个小批量训练的计算量很大,而模型规模...
  • 第140页 基于数据流的通信拓扑
    并不把边设置成通讯而是数据依赖的表示很不错 这种通信拓扑是基于DAG。出现在图中的工作节点不仅包含计算本身,而是一个融合了解包,计算,打包,通信控制等多个功能的逻辑单元,这样各个工作节点才可以相互配合...
  • 第138页 参数服务器的通信拓扑
    因为IMR和MPI同步通信中的短板效应 worker对server的访问有push与pull 非常灵活 CMU的Parameter Server和Petuum谷歌的DistBelief和微软的DMTK/Multiverso
  • 第137页 通信拓扑
    总结一下现在各大的使用到了的MPI模式的框架 Caffe2中的gloo通信库实现了自定制的AllReuce功能,百度的DeepSpeech系统采用了环状的AllReduce功能,Nvidia提供的集合通讯库NCCL中有AllReduce的原语
  • 第135页 通信的拓扑结构
    MPI特点是同步吗?把通讯抽象成图的边不合理,通讯的体量和计算的体量差别大小 暑假看的07年的通信拓扑的总结性理论paper要标星星了
  • 第133页 通信内容
    对模型参数更新进行通信,往往有利于提高分布式机器学习的效率,因为在很多机器学习任务中,参数以及参数的更新任务往往是稀疏的。同时随着模型趋于收敛,参数的更新也会越来越小,另外可以使用量化或者过滤的方...
  • 第108页 数据与模型并行
    1.计算并行模式:所有工作节点共享一块内存,对数据有完全的访问权限。 2.数据并行模式:数据样本划分的全局有放回随机抽样或者置乱划分基于维度 3.模型并行模式:线性模型对应不同数据维度的模型参数划分到不同...
  • 单机优化之确定性算法
    常见的非随机优化算法罗列。
  • 第54页 分布式机器学习框架
    1.平台灵活角度:MapReduce最低,需要遵循执行流程,PS最高,数据流由于DAG的形式居中 2.算法效率:同步逻辑的MapReduce最差,后两者因为异步较好 3.处理的任务:Spark MLlib浅层模型,TF提供了很多算子与优化器
  • 第53页 分布式机器学习框架
    机器学习分布式理论的问题: 收敛性:不同方法的收敛速度和性质,每个模块对整体的收敛速度产生怎么样的影响,按照优化目标,本地优化算法,并行模式,通信和聚合方式进行归纳 加速比:除了与算法的收敛速度有关...
  • 第52页 分布式机器学习框架
    聚合的问题 1.简单平均 2.寻求一个一致的优化问题的解:ADMM或者BMUF 凸问题的保证,但是非凸的时候,局部凸函数使得聚合结果劣于局部的。 3.模型集成 通过保留参数来提高精度,但是会模型爆炸。 另外一个问题是...
  • 第51页 分布式机器学习框架
    通信的频率是一个大问题 1.通信频繁对模型收敛的效果有保障,但是代价很大。 是处理完mini-batch之后开始通信还是全部本地数据处理完之后通信?通信的收发频率是否需要一致?不同的频率对模型的收敛是否有影响?...
  • 第49页 分布式机器学习框架
    1.同步 早期盛行是由于MapReduce并且同步的方式在逻辑上清晰明了,但是有短板效应和系统宕机的时候 2.异步 有锁:保证写入的完整性,但是影响了吞吐量 无锁:不能保证全局的完整性 步调差异会导致的问题,会导致...
  • 第47页 分布式机器学习框架
    数据并行的框架下,通讯内容可以是子模型,或者非常重要的的样本(SVM中可以使用SV)。 模型并行就是中间的计算结果,可以用计算图和数据流来表示,传输量比较大可以考虑对信息进行压缩。 MapReduce通信的拓扑结...
  • 第43页 分布式机器学习框架
    数据划分: 通过全局随机采样或者shuffle来进行划分时,前者问题是全局采样代价比较高,并且低频的数据难以被选择出来,后者问题是置乱切割,把全局数据shuffle之后分配到各个节点上,但是问题是乱序操作等价于或...

探讨别集 (1)

  • 第16页 珂勒律治之花
    世界是因果体系的前提下 时间即因果的话 那么因果倒置就是无限循环 但是需要假设因果倒置是存在的