performance - 分布式局部聚类系数算法(MapReduce/Hadoop)

coder 2024-01-05 原文

我已经实现了基于 MapReduce 范例的 local clustering coefficient algorithm .但是，对于更大的数据集或特定的数据集(节点的平均度数高)，我遇到了严重的麻烦。我试图调整我的 hadoop 平台和代码，但结果并不令人满意(至少可以这么说)。不，我已经将注意力转移到实际更改/改进算法上。下面是我目前的算法(伪代码)

foreach(Node in Graph) {
  //Job1
  /* Transform edge-based input dataset to node-based dataset */

  //Job2
  map() {
   emit(this.Node, this.Node.neighbours) //emit myself data to all my neighbours
   emit(this.Node, this.Node) //emit myself to myself
  }

  reduce() {
    NodeNeighbourhood nodeNeighbourhood;
    while(values.hasNext) {
      if(myself)
        this.nodeNeighbourhood.setCentralNode(values.next) //store myself data
      else
        this.nodeNeighbourhood.addNeighbour(values.next)  //store neighbour data
    }

    emit(null, this.nodeNeighbourhood)
  }

  //Job3
  map() {
    float lcc = calculateLocalCC(this.nodeNeighbourhood)
    emit(0, lcc) //emit all lcc to specific key, combiners are used
  }

  reduce() {
    float combinedLCC;
    int numberOfNodes;
    while(values.hasNext) {
      combinedLCC += values.next;
    }

    emit(null, combinedLCC/numberOfNodes); // store graph average local clustering coefficient
  }
}

关于代码的更多细节。对于有向图，邻居数据仅限于节点 ID 和 OUT 边目标 ID(以减小数据大小)，对于无向图，它的节点 ID 和边目标 ID 也是如此。排序和合并缓冲区增加到 1.5 Gb，合并流 80。

可以明显看出Job2是整个算法的实际问题。它会生成大量需要排序/复制/合并的数据。这基本上会破坏某些数据集的算法性能。有人可以指导我如何改进算法(我正在考虑创建一个迭代 Job2 [在每次迭代中“处理”只有 N 个节点中的 M 个节点，直到每个节点都被“处理”]，但我现在已经放弃了这个想法) .在我看来，Job2 映射输出应该减少，以避免代价高昂的排序/合并过程，这会降低性能。

我也为 Giraph 平台实现了相同的算法(同样是 3 个作业，相同的“通信”模式，还有“Job2”问题)。然而，Giraph 是一个内存平台，针对相同“有问题”的数据集的算法会导致 OutOfMemoryException。

对于任何评论、评论、指南，我将不胜感激。

更新

我将“彻底”改变算法。我找到了这篇文章 Counting Triangles .

代码实现后，我将在这里发表我的意见和更详细的代码(如果这种方法会成功的话)。

UPDATE_2

最后，我根据自己的需要“修改”了 NodeIterator++ 算法(Yahoo 论文可通过文章中的链接获得)。不幸的是，虽然我可以看到性能有所提高，但最终结果并不像我希望的那样好。我得出的结论是，我可用的集群太小，无法使 LCC 计算对这些特定数据集可行。所以问题仍然存在，或者更确切地说，它在演变。有谁知道一种有效的分布式/顺序算法来计算可用资源有限的 LCC 或三角形？ (我绝不是说 NodeIterator++ 算法不好，我只是说我可用的资源还不够)。

最佳答案

在论文“用于大规模图算法的 MPI 中的 MapReduce”中，作者很好地描述了三角计数的 MapReduce 实现。该论文可在此处获得:http://www.sciencedirect.com/science/article/pii/S0167819111000172但您可能需要一个帐户才能访问该论文。 (我使用的是付费订阅的大学系统，所以我永远不知道我只能访问什么，因为他们已经付费了。)作者可能会在个人网站上发布论文草稿。

还有另一种计算三角形的方法——除非您的图形相当密集，否则效率可能要低得多。首先，构建图形的邻接矩阵 A。然后计算 A^3(您可以很容易地并行执行矩阵乘法)。然后，将 A^3 的 (i,i) 个条目相加并将答案除以 6。这将为您提供三角形的数量，因为 A^k 的 i,j 条目计算从 i 走的长度 k 的数量到 j 并且因为我们只看长度为 3 的步行，任何从 i 开始并在 3 步后以 i 结束的步行都是三角形......多算了 6 倍。这主要是效率较低，因为矩阵的大小如果您的图形是稀疏的，则与边缘列表的大小相比将非常大。

关于performance - 分布式局部聚类系数算法(MapReduce/Hadoop)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10968084/

performance MapReduce 的 section nodeNeighbourhood algorithm graph hadoop

有关performance - 分布式局部聚类系数算法(MapReduce/Hadoop)的更多相关文章

ruby - 分布式事务和队列，ruby，erlang，scala - 2
我有一个涉及多台机器、消息队列和事务的问题。因此，例如用户点击网页，点击将消息发送到另一台机器，该机器将付款添加到用户的帐户。每秒可能有数千次点击。事务的所有方面都应该是容错的。我以前从未遇到过这样的事情，但一些阅读表明这是一个众所周知的问题。所以我的问题。我假设安全的方法是使用两阶段提交，但协议(protocol)是阻塞的，所以我不会获得所需的性能，我是否正确？我通常写Ruby，但似乎Redis之类的数据库和Rescue、RabbitMQ等消息队列系统对我的帮助不大——即使我实现某种两阶段提交，如果Redis崩溃，数据也会丢失，因为它本质上只是内存。所有这些让我开始关注erlang和
区块链之加解密算法&数字证书 - 2
目录一.加解密算法数字签名对称加密DES(DataEncryptionStandard)3DES(TripleDES)AES(AdvancedEncryptionStandard)RSA加密法DSA(DigitalSignatureAlgorithm)ECC(EllipticCurvesCryptography)非对称加密签名与加密过程非对称加密的应用对称加密与非对称加密的结合二.数字证书图解一.加解密算法加密简单而言就是通过一种算法将明文信息转换成密文信息，信息的的接收方能够通过密钥对密文信息进行解密获得明文信息的过程。根据加解密的密钥是否相同，算法可以分为对称加密、非对称加密、对称加密和非
hadoop安装之保姆级教程（二）之YARN的配置 - 2
1.1.1 YARN的介绍为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的，针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜，提出了全新的资源管理框架YARN. ApacheYARN（YetanotherResourceNegotiator的缩写）是Hadoop集群的资源管理系统，负责为计算程序提供服务器计算资源，相当于⼀个分布式的操作系统平台，⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现，但是因为具有⾜够的通⽤性，同样可以⽀持其他的分布式计算模
ruby - 解释为局部变量会覆盖方法名称吗？ - 2
如thisquestion，当在其自己的赋值中使用未定义的局部变量时，它的计算结果为nil。x=x#=>nil但是当局部变量的名称与现有的方法名称冲突时，就比较棘手了。为什么下面的最后一个示例返回nil？{}.instance_eval{a=keys}#=>[]{}.instance_eval{keys=self.keys}#=>[]{}.instance_eval{keys=keys}#=>nil 最佳答案在Ruby中，因为可以在没有显式接收器和括号的情况下调用方法，所以在局部变量引用和无接收器无参数方法调用之间存在语法歧义:f
ruby-on-rails - Resque - 类的未定义方法 'perform' - 2
我目前对后台队列不太满意。我正在尝试让Resque工作。我已经安装了redis和Resquegem。Redis正在运行。一个worker正在运行(rakeresque:workQUEUE=simple)。使用Web界面，我可以看到工作人员正在运行并等待工作。当我运行“rakeget_updates”时，作业已排队但失败了。我已经用defself.perform和defperform试过了。发条.raketask:get_updates=>:environmentdoResque.enqueue(GetUpdates)end类文件(app/workers/get_updates.rb)c
ruby-on-rails - 未定义的局部变量或方法 "articles_path" - 2
我正在尝试完成本教程:http://guides.rubyonrails.org/getting_started.html#say-hello-rails但是我遇到了一个错误:我有下一个错误:undefinedlocalvariableormethod`articles_path'for#:0x4661d30>Extractedsource(aroundline#1):rake路线:PrefixVerbURIPatternController#Actionwelcome_indexGET/welcome/index(.:format)welcome#indexarticles_newG
ruby - ruby 类的局部变量 - 2
这个问题在这里已经有了答案:Inrubyhowtouseclasslevellocalvariable?(arubynewbie'squestion)(4个答案)关闭6年前。我注意到以下代码在语法上是正确的:classFoobar=3end现在，我知道实例变量由@访问，类变量由@@访问，但我不知道在哪里bar存储在这种情况下或如何访问它。如何找到bar的范围？
100个python算法超详细讲解：画直线 - 2
1．问题描述使用Python的turtle（海龟绘图）模块提供的函数绘制直线。2．问题分析一幅复杂的图形通常都可以由点、直线、三角形、矩形、平行四边形、圆、椭圆和圆弧等基本图形组成。其中的三角形、矩形、平行四边形又可以由直线组成，而直线又是由两个点确定的。我们使用Python的turtle模块所提供的函数来绘制直线。在使用之前我们先介绍一下turtle模块的相关知识点。turtle模块提供面向对象和面向过程两种形式的海龟绘图基本组件。面向对象的接口类如下：1）TurtleScreen类：定义图形窗口作为绘图海龟的运动场。它的构造器需要一个tkinter.Canvas或ScrolledCanva
Ruby，我如何访问 do - end 循环之外的局部变量 - 2
我有一个循环，我在远程机器上执行一系列命令:ssh.exec('cd/vmfs/volumes/4c6d95d2-b1923d5d-4dd7-f4ce46baaadc/ghettoVCB;./ghettoVCB.sh-fvms_to_backup-ddryrun')do|ch,stream,data|if#{stream}=~/vmupgrade/putsvalue_hosts+"is"+dataputs#{stream}putsdataendend我想在do-end循环之外访问#{stream}和数据如果有任何帮助，我将不胜感激。谢谢，嗨，约格，我实现了您的建议，但现在出现错误:Wr
ruby - 在 Ruby 中实现 Luhn 算法 - 2
我一直在尝试用Ruby实现Luhn算法。我一直在执行以下步骤:该公式根据其包含的校验位验证数字，该校验位通常附加到部分帐号以生成完整帐号。此帐号必须通过以下测试:从最右边的校验位开始向左移动，每第二个数字的值加倍。将乘积的数字(例如，10=1+0=1、14=1+4=5)与原始数字的未加倍数字相加。如果总模10等于0(如果总和以零结尾)，则根据Luhn公式该数字有效；否则无效。http://en.wikipedia.org/wiki/Luhn_algorithm这是我想出的:defvalidCreditCard(cardNumber)sum=0nums=cardNumber.to_s.s

performance - 分布式局部聚类系数算法(MapReduce/Hadoop)

有关performance - 分布式局部聚类系数算法(MapReduce/Hadoop)的更多相关文章

随机推荐