heaps-algorithm

java.lang.OutOfMemoryError : Java heap space at java. util.Arrays.copyOf(Arrays.java:3236)

我在映射器类中遇到此错误。我正在使用将解压缩的ZipFileInputFormat读取大zip文件，并使用ZipFileRecordReader我正在将其转换为文件名和文件内容作为值的键。我必须使用我的分隔符拆分内容并将其插入到HBase表中。zip文件的大小非常大且不可拆分。我的代码适用于较小的zip文件，但是当我为巨大的zip文件运行它时，它会抛出此错误。这就是问题发生的地方。//ReadthefilecontentsByteArrayOutputStreambos=newByteArrayOutputStream();byte[]temp=newbyte[8192];while(

java Arrays section 射器 bytesRead hadoop mapreduce hbase hadoop-yarn

algorithm - 动态聚合集群？平面上的点

问题:我有数百万(10+)个标记，每个标记都有不同的字段:1.lat2.lng3.area(double)4.size(int)5.tolerance(double)6.lags(boolean)7.channel(boolean)...(more)现在，我希望每个集群都具有以下聚合数据:1.numberofmarkers2.minarea3.maxarea4.avgarea5.minsize6.maxsize7.avgsize8.tolerancedistribution(howmanywhereoftolerance=X=Y集群是根据标记的纬度、经度(距离方面)和缩放级别(整数)创

面上 algorithm section code clusters hadoop machine-learning cluster-analysis computational-geometry

java - PIG 聚合函数 - OutOfMemory : Java Heap Space

以下失败:data=FOREACHrawDataGENERATE(int)col;aggregate=FOREACHdataGENERATEMIN(col);有什么方法可以让它正常工作吗？我试过这个:data=FOREACHrawDataGENERATE1dummy,(int)col;grouped=GROUPdataBYdummy;aggregate=FOREACHgroupedGENERATEMIN(data.col)现在我得到一个:java.lang.Exception:java.lang.OutOfMemoryError:Javaheapspace实际上有11行整数(1..11

OutOfMemory Space code section GENERATE java hadoop apache-pig

hadoop - java.lang.IllegalArgumentException : Can't find HmacSHA1 algorithm 异常

通过brewinstallhadoop安装hadoop后，我想启动hadoop，在mac上运行hadoop2.7.2/start-all.sh时出错，日志:SwingHu19:53:4516/08/1919:50:25INFOnamenode.FSNamesystem:fsOwner=swinghu(auth:SIMPLE)16/08/1919:50:25INFOnamenode.FSNamesystem:supergroup=supergroup16/08/1919:50:25INFOnamenode.FSNamesystem:isPermissionEnabled=true16/0

IllegalArgumentException algorithm FSNamesystem namenode hadoop

vector - java.lang.OutOfMemoryError : Java heap space error while running seq2sparse in mahout 错误

我正在尝试在mahout中使用k-means对一些手工制作的日期进行聚类。我创建了6个文件，每个文件中几乎没有1或2个单词的文本。使用./mahoutseqdirectory从它们中创建一个序列文件。在尝试使用./mahoutseq2sparse命令将序列文件转换为向量时，出现java.lang.OutOfMemoryError:Javaheapspace错误。序列文件大小为0.215KB。命令:./mahoutseq2sparse-imokha/output-omokha/vector-ow错误日志:SLF4J:ClasspathcontainsmultipleSLF4Jbindin

OutOfMemoryError seq2sparse apache hadoop org vector mahout

hadoop - Mahout - 异常 : Java Heap space

我正在尝试使用以下方法将一些文本转换为mahout序列文件:mahoutseqdirectory-iLastfm-ArtistTags2007-oseqdirectory但我得到的只是一个OutOfMemoryError，如下所示:Runningonhadoop,using/usr/bin/hadoopandHADOOP_CONF_DIR=MAHOUT-JOB:/opt/mahout/mahout-examples-0.9-job.jar14/04/0716:44:34INFOcommon.AbstractJob:Commandlinearguments:{--charset=[UTF

hadoop Mahout java mapred

algorithm - 当 k 个元素不适合内存时，mapreduce 中的 top-k

当k太大而无法在内存中容纳k个元素时，从数据集中查找前k个元素的有效MapReduce算法是什么？我说的是数百万个元素的数据集，例如k。其中3/4。想象一下，每个元素都有一个值，我们想要找到具有最高值的k个元素。例如数据形式:e1:5e2:10e3:7e4:8然后，前2个是e4和e2(不关心它们的相关顺序)。我看过thesolutiontotheproblem,whenkissmallenough,但它不缩放。显然，使用单个reducer同样不切实际(内存不足错误)。最佳答案我想我找到了我要找的东西。在这里找到了答案:http:

algorithm mapreduce hadoop noreferrer noopener sorting

algorithm - 集群作业调度算法

我正在寻找适用于以下问题的算法:有多台电脑(具体数目未知)。每台计算机从某个中央队列中提取作业，完成作业，然后提取下一个。工作是由一些用户组产生的。有些用户提交了很多工作，有些则提交了一点。作业消耗相等的CPU时间(不是真的，只是近似值)。中央队列在调度作业时应该是公平的。此外，提交大量作业的用户应该拥有一些最小的资源份额。我正在为这个调度寻找一个好的算法。考虑了两个候选人:类似Hadoop的公平调度程序。这里的问题是:当我的集群大小未知时，我在哪里可以获得最小份额？将一些惩罚与每个用户相关联。安排用户的工作时增加惩罚。使用将作业调度给用户的概率作为1-(归一化惩罚)。这有点像步幅调度

algorithm 集群的 section li hadoop scheduling scheduler distributed-computing

algorithm - Hadoop 适合哪种类型的并行算法？

我完全不是Hadoop专家，但我的理解是Hadoop非常适合并行算法，其中并行性表现为map-reduce形式或任何其他类型的分而治之。还有其他类型的算法技术也很适合吗？最佳答案 Hadoop适用于令人尴尬的并行工作负载(并行任务之间没有依赖性)。进程之间没有消息传递机制。Map和Reduce进程遵循基于IO的通信模式，这本身就是一个很大的开销。MapReduce不适合编写迭代算法(例如KMeans、PageRank)，因为每次迭代都是一个单独的mapreduce应用程序，并且由于巨大的IO开销，算法的性能会下降。对于迭代算法，您

algorithm 种类 section Hadoop 适合 parallel-processing

algorithm - 为什么我们说 map-reduce 比传统方法更好地解决了 "Paper reference"问题？

据说当我们希望对论文引用进行统计时，map-reduce可以比传统方式做得更好，因为传统方式涉及大量内存/磁盘切换。我不太明白为什么传统方法不好。假设我只在一台机器上运行map-reduce(没有集群)，它是否仍然比传统方式更好地解决了一些问题？或者换句话说，“map-reduce”这种算法范式本身，从算法的角度来说，在解决问题上是否有一些优势？谢谢。最佳答案 AtbestM/R允许重新应用与高级统计包相同的算法。但更典型的是，在使用的算法中会做出一些牺牲——以允许以分布式方式运行。Map/Reduce在交叉采样(或任何其他采样方

map-reduce algorithm section reduce hadoop dictionary statistics

41 42 434445 46 47