heaps-algorithm

algorithm - 通过仅知道开始和结束的集合来估计当前进度

在只知道第一个和最后一个项目而不是项目数量的情况下，如何估算迭代遍历集合的进度？AAAAAAA............?........ZZZZZZZZZZZZ第一项和最后一项保证是整个集合的字典序最小值和最大值。可以假定项目值的分布接近均匀。您收到元素的顺序是未知的，可能无法预测，也可能是有序的。项目保证是唯一的。只要随着时间的推移，估计值通常会接近99.999%，即使它出现波动也没关系。这让我想起了Germantankproblem除了没有(据我所知)一种方法来减去或获取字典顺序中项目之间的距离。例如，我正在考虑获取尚未收到的最大项目并将其与最后一项进行比较，但我不知道如何获得任意

algorithm 通过 section noreferrer lexicographic-rank-of-a-string hadoop mapreduce statistics probability

java - 运行 mapreduce 程序时出现 "Java Heap space Out Of Memory Error"

我在运行mapreduce程序时遇到内存不足错误。如果我将260个文件保存在一个文件夹中并作为mapreduce程序的输入，它会显示Java堆空间内存不足错误。如果我只提供100文件作为mapreduce的输入，它运行良好。那么我如何限制mapreduce程序一次只处理100个文件(~50MB)。任何人都可以就这个问题提出建议......Nooffiles:318,Noofblocks:1(blocksize:128MB),Hadoop运行在32位系统上MyStackTrace:==============15/05/0511:52:47INFOinput.FileInputForma

时出 amp 05 mapred mapreduce java hadoop

java - 错误 : java heap space on Google Data-Proc Cluster

我在Googledataproc集群上从一个表运行Hive插入覆盖查询13783531记录到另一个分区表，不做任何转换。失败并出现错误DiagnosticMessagesforthisTask:Error:JavaheapspaceFAILED:ExecutionError,returncode2fromorg.apache.hadoop.hive.ql.exec.mr.MapRedTaskMapReduceJobsLaunched:Stage-Stage-1:Map:34CumulativeCPU:1416.18secHDFSRead:6633737937HDFSWrite:0FAI

java Data-Proc code section pre hadoop hive google-cloud-platform google-cloud-dataproc

java - Hadoop 错误 : Java heap space when using big dataset

我正在尝试在大型文本数据集(~3.1Tb)上运行Hadoop程序。我一直收到这个错误，而且我看不到任何日志:15/04/2913:31:30INFOmapreduce.Job:map86%reduce3%15/04/2913:33:33INFOmapreduce.Job:map87%reduce3%15/04/2913:35:34INFOmapreduce.Job:map88%reduce3%15/04/2913:37:34INFOmapreduce.Job:map89%reduce3%15/04/2913:39:33INFOmapreduce.Job:map90%reduce3%15

dataset Hadoop mapreduce gt lt java

java - 当我试图将整个文件夹作为 Mapreduce 程序的输入时，我正面临 "Java heap space error"

当我尝试通过将整个文件夹作为MR作业的输入来运行mapreduce程序时，我遇到了“Java堆空间错误”。当我将单个文件作为MR作业的输入时，我没有遇到任何错误。作业已成功运行。ChangesItriedinhadoop-env.shfile:=====================================Ihadincreasedthememorysizefrom1024to2048MBexportHADOOP_CLIENT_OPTS="-Xmx2048m$HADOOP_CLIENT_OPTS"Changesinmapred-site.xml:===============

入时 Mapreduce section code mapred java hadoop

algorithm - 对于相似图像有什么好的最近邻算法吗？

我正在寻找一种可以在大型集合中搜索相似图像的算法。我目前正在使用SURFimplementation在OpenCL中。一开始我用的是KNN搜索算法将每个图像的兴趣点与集合的其余部分进行比较，但测试表明它不能很好地扩展。我还尝试了KNN-Join的Hadoop实现这在HDFS中确实占用了大量临时空间，与输入数据量相比太多了。事实上，由于我的输入向量(64)的维度，成对距离方法并不合适。我听说过LocallySensitiveHashing，想知道是否有任何免费的实现，或者是否值得实现它，也许还有另一种我不知道的算法？最佳答案 IIR

algorithm 对于 section noreferrer noopener hadoop hash surf knn

java - 关于 EMR 错误 : Java heap space 的 Mahout

我在EMR上运行了集群作业。数据集很大。一切正常，直到:2012-09-2910:50:58,063INFOorg.apache.hadoop.mapred.JobClient(main):map100%reduce23%2012-09-2910:51:31,157INFOorg.apache.hadoop.mapred.JobClient(main):map100%reduce24%2012-09-2910:51:50,197INFOorg.apache.hadoop.mapred.JobClient(main):map100%reduce25%2012-09-2910:52:17,

Mahout space hadoop JobClient mapred java amazon-web-services emr

algorithm - 从 mapreduce 中的 n 个元素中选择 k

假设输入x记录，其中n具有所需的属性(例如，它们的值为正)并且所有x具有唯一键。我想做的是，在MapReduce中使用仅限map的作业，恰好发出这些n记录中的k。例如，假设这是我的输入:(a,10)(g,-3)(c,-2)(f,4)(s,2)并且我想发射2个具有正值的元素。在这个例子中，x是5，n是3，k是2。我知道x(我认为不需要)，k和n在作业开始之前。问题是具有正值的记录可以由不同的映射器处理。我想到的是，在每个映射器中使用大小为n的哈希表，并使用键的哈希值将具有正值的元素放入该哈希表中。然后，哈希表的前k位置的元素将被发出。但是，如果两个记录落在同一个哈希桶中，这将不起作用。还

中选 algorithm code section 射器 hadoop hash parallel-processing mapreduce

Hadoop:为什么我在 Namenode Information Web 中收到 "Max Non Heap Memory is -1 B."消息？这是什么意思？

我有一个使用VirtualBox制作的Hadoop2.6.5集群(一个主节点用作名称节点和数据节点，两个从节点)(easch节点安装了Xubuntu16.04)。先验，安装是正确的，因为我运行了一个wordcount示例并且没问题。在master:50070(我看到名称节点信息的地方)，我得到这个:"MaxNonHeapMemoryis-1B."你知道这是什么意思吗？我找不到答案，我想检查一下，因为在运行wordcount之后我尝试运行我自己的程序但它没有成功，尽管它在我的Hadoop单节点安装中运行正常。我希望清楚，如果您需要更多信息，请告诉我。谢谢! 最

Information amp section Hadoop 中运 virtualbox cluster-computing heap-memory namenode

android - 将 Apache Pig 导入 Android 项目导致 "Unable to execute dex: Java heap space"错误

我试图在我的Android应用程序中序列化一个TreeMap，这样我就可以将它保存到一个SharedPreferences，如thisStackOverflowQ&A中所建议的那样.它用于ArrayList，但我还是捕获了机会。重点是使用ApachePig项目中的ObjectSerializer类将TreeMap序列化为String并将其保存在共享首选项中的该数据类型中。然而，当我在不使用Hadoop的情况下导入.jar后，我就开始遇到很多错误。当我在模拟器中运行我的应用程序时(我使用的是Eclipse)，我的IDE底部的状态栏永远不会超过消息“正在启动[应用程序名称]100%...”

amp android section code stackoverflow serialization hadoop sharedpreferences apache-pig

42 43 444546 47 48