草庐IT

discrete_distribution

全部标签

论文阅读:Zeno: Distributed Stochastic Gradient Descent with Suspicion-based Fault-tolerance

论文链接:http://proceedings.mlr.press/v97/xie19b/xie19b.pdf基于怀疑容错的分布式SGDAbstactzeno优势在于只需要假设系统中存在一个正常节点。核心思想:怀疑有潜在缺陷的worker。可能会怀疑错误,因此加入了使用排名的偏好机制Introduction使用stochasticzero-orderoracle计算分数,这个分数代表在迭代中该节点的可信度。然后取分数最高(最值得信任)的节点的均值。论文贡献点:系统中仅需存在一个正常节点收敛速度与分布式同步SGD相同适用于不相同分布的数据集ModelFailureModel最坏的情况即错误梯度将

论文阅读:Zeno: Distributed Stochastic Gradient Descent with Suspicion-based Fault-tolerance

论文链接:http://proceedings.mlr.press/v97/xie19b/xie19b.pdf基于怀疑容错的分布式SGDAbstactzeno优势在于只需要假设系统中存在一个正常节点。核心思想:怀疑有潜在缺陷的worker。可能会怀疑错误,因此加入了使用排名的偏好机制Introduction使用stochasticzero-orderoracle计算分数,这个分数代表在迭代中该节点的可信度。然后取分数最高(最值得信任)的节点的均值。论文贡献点:系统中仅需存在一个正常节点收敛速度与分布式同步SGD相同适用于不相同分布的数据集ModelFailureModel最坏的情况即错误梯度将

cdh4.6.0升级测试2-distribute cache bug fix

distributecachepurge阻塞task的bug测试。cdh4.2.0:测试方法:local.cache.size=650因为cachedirsize和count是存在内存中的HashMap中的,把local.cache.size值设置的足够小,在每次job运行时都会触发deletedistributecache的操作。又因为是private的,是同步删除,会造成task阻塞。使用dd来构造1M个的小文件至某一个cachedir目录。观察阻塞时间,bug可以重现。#!/bin/bashdir=`foriin{1..11};dofind/home/xxx/hard_disk/${i}

cdh4.6.0升级测试2-distribute cache bug fix

distributecachepurge阻塞task的bug测试。cdh4.2.0:测试方法:local.cache.size=650因为cachedirsize和count是存在内存中的HashMap中的,把local.cache.size值设置的足够小,在每次job运行时都会触发deletedistributecache的操作。又因为是private的,是同步删除,会造成task阻塞。使用dd来构造1M个的小文件至某一个cachedir目录。观察阻塞时间,bug可以重现。#!/bin/bashdir=`foriin{1..11};dofind/home/xxx/hard_disk/${i}