草庐IT

algorithm

全部标签

algorithm - gzip 文件如何存储在 HDFS 中

HDFS存储支持压缩格式来存储压缩文件。我知道gzip压缩不支持夹板。假设现在该文件是一个gzip压缩文件,其压缩大小为1GB。现在我的问题是:此文件将如何存储在HDFS中(block大小为64MB)从这里link我开始知道gzip格式使用DEFLATE来存储压缩数据,DEFLATE将数据存储为一系列压缩block。但我无法完全理解并寻找广泛的解释。更多来自gzip压缩文件的疑惑:这个1GB的gzip压缩文件将有多少block。它会在多个数据节点上运行吗?如何将复制因子应用于此文件(Hadoop集群复制因子为3。)什么是DEFLATE算法?读取gzip压缩文件时采用了哪种算法?我在这里

algorithm - 使用 Map Reduce 的深度优先搜索

我已经在HadoopMapReduce(BreathFirstSearch)中成功实现了最短路径算法。但是我有一个问题:是否可以使用Hadoopmapreduce进行图形遍历“深度优先搜索”?任何链接..? 最佳答案 深度优先搜索的性质使其不适用于mapreduce作业。因为在进入另一条路径之前,您只遵循一条严格的路径。这导致您无法正确使用hadoop提供的可伸缩性。我不知道有什么好的工作实现,而且我很确定您不会找到一个以良好方式使用MapReduce范例的实现。如果您尝试自己在hadoop中实现图形算法,您可能想看看一些有用的框架

java - Hadoop 上次 map 作业卡住 - 需要帮助

我正在使用hadoopmap-reduce作业进行一些文本处理。我的工作已完成99.2%,并停留在上一个map工作上。map输出的最后几行如下所示。上次发生此问题时,我尝试打印出从map发出的键值,并注意到其中一个键具有大量与之关联的值,我认为它在对这些值进行排序时似乎卡住了。然后,我停止从map作业中发出该键,它工作正常。我想,同样的问题又发生了,打印出键值对是一项乏味的工作,因为这项工作很费时间。有更好的选择吗?如果他们在排序上花费太多时间,就像配置hadoop忘记几个键一样。有没有这样的。2010-10-2014:43:32,274INFOorg.apache.hadoop.ma

python - 我有兴趣反驳 python 中的一些图论猜想,最有效的库/服务器设置是什么?

我有兴趣实现和运行一些繁重的图论算法,目的是(希望)为某些猜想找到反例。您会推荐哪些最高效的库和服务器设置?我正在考虑使用Python的图形API。为了运行算法,我一直在考虑使用Hadoop,但研究Hadoop我觉得它更适合分析数据库而不是枚举问题。如果我对Hadoop的想法是正确的,那么您推荐运行此类进程的最佳服务器设置是什么?任何关于如何在不需要大量代码重写或花费大量金钱的远程分布式环境中运行算法的线索都会有所帮助。非常感谢! 最佳答案 如果它是高度计算任务,您可以将CUDA视为另一种选择。

Basic formal verification algorithms 形式验证基本算法 第2章

本章将将介绍形式验证工具中使用的算法类型的一般概念,以及一些术语的介绍。形式验证提供了完整的行为覆盖,而无需进行详尽的仿真。一、验证过程中的形式验证(FV)验证的三个中心任务是激励设计,检查设计是否根据其规格产生结果,以及衡量设计的可执行空间有多少已被仿真和检查(覆盖率)。在制造器件之前,验证通常通过运行寄存器传输级(RTL)模型的仿真来完成。即使对于比较简单的设计,可能的不同输入激励序列的数量似乎是无限的,实际上是可能输入的大小、启动状态和运行时间的指数函数,但出于实际目的,这似乎是无限的。有了仿真等硬件支持,仿真可以大大加快,但对所有可能情况进行商业设计所需的时间仍将远超过产品的使用寿命。

algorithm - 图上的 Hadoop 作业结构

我有一个算法必须在可以并行化的图形上执行大量计算,虽然我可以使用Hadoop将这些计算分配给映射器,然后在缩减器上恢复结果,但我正在努力并开始认为也许我正在使用Hadoop来做一些我不应该使用Hadoop的事情(你知道,当你有一把锤子时,一切看起来都像钉子)。您可以在https://gist.github.com/brenes/79d980708aae463079b8查看该算法的ruby​​版本但是,在某种程度上,它是这样的:我们有一个图表。我们得到一个配置(节点和边的列表)来帮助我们控制整个图。我们摆脱了这种配置的一个(随机)节点,并获得了一系列替代配置。然后我们得到这些配置之一(随

algorithm - 用于从图中删除循环的 Map Reduce 算法

这question对于检测有向图中的循环有一个很好的答案。不幸的是,制作它的MapReduce版本似乎并不容易。具体来说,我对用于从有向图中删除循环的MapReduce算法感兴趣。我已经使用广度优先搜索(BFS)算法进行了评估,但我看到的一个问题是可能会同时删除两个不同的边以切断一个循环。这种情况的影响是可以删除太多边。重要的是删除循环,同时尽量减少删除的边数。有证明的方案优先!谢谢。 最佳答案 您需要一个迭代mapreduce来实现这个算法。参见http://www.iterativemapreduce.org/对于以迭代mapr

algorithm - 优化 O(n^2) 算法所需的建议

我正在寻求优化目前相当简单的算法O(n2)。我有一个记录文件,其中每个人都需要在同一个文件中相互比较。如果两者是'same'(比较器函数相当复杂),匹配的记录输出。请注意,可能有多个记录匹配彼此,并且没有顺序感-仅当匹配为True或False时。伪代码:For(outRecinsourceFile){GetnewfilePointerfortargetFile//startingfromthetopofthefileforinnerloopFor(inRecintargetFile){if(compare(outRec,inRec)==TRUE){writeoutRecwriteinR

performance - 分布式局部聚类系数算法(MapReduce/Hadoop)

我已经实现了基于MapReduce范例的localclusteringcoefficientalgorithm.但是,对于更大的数据集或特定的数据集(节点的平均度数高),我遇到了严重的麻烦。我试图调整我的hadoop平台和代码,但结果并不令人满意(至少可以这么说)。不,我已经将注意力转移到实际更改/改进算法上。下面是我目前的算法(伪代码)foreach(NodeinGraph){//Job1/*Transformedge-basedinputdatasettonode-baseddataset*///Job2map(){emit(this.Node,this.Node.neighbou

php - 对数标度 - PHP 排名

我目前正在构建一个系统,该系统需要根据内部操作/分数进行排名。分数本身的范围可以是0到20000之间的任何值。我需要我创建的函数来对用户进行排名以返回1-100之间的值。如果这是不可能的,那么将任何超过100的结果集返回为100就好了。我目前在确保创建用于确定分数的对数算法方面遇到了困难。我试过以下功能:echo1+sqrt(500+2000*$score)/50;然而,此返回的结果对于较低的值变化不大,而对于较高的值呈指数增长。量表低端/平均端的示例输入分数是:0.151712规模高端的示例输入236.4121117899.70如有任何帮助,我们将不胜感激。现在已经坚持了几天。上面的