草庐IT

heaps-algorithm

全部标签

algorithm - 通过仅知道开始和结束的集合来估计当前进度

在只知道第一个和最后一个项目而不是项目数量的情况下,如何估算迭代遍历集合的进度?AAAAAAA............?........ZZZZZZZZZZZZ第一项和最后一项保证是整个集合的字典序最小值和最大值。可以假定项目值的分布接近均匀。您收到元素的顺序是未知的,可能无法预测,也可能是有序的。项目保证是唯一的。只要随着时间的推移,估计值通常会接近99.999%,即使它出现波动也没关系。这让我想起了Germantankproblem除了没有(据我所知)一种方法来减去或获取字典顺序中项目之间的距离。例如,我正在考虑获取尚未收到的最大项目并将其与最后一项进行比较,但我不知道如何获得任意

java - 运行 mapreduce 程序时出现 "Java Heap space Out Of Memory Error"

我在运行mapreduce程序时遇到内存不足错误。如果我将260个文件保存在一个文件夹中并作为mapreduce程序的输入,它会显示Java堆空间内存不足错误。如果我只提供100文件作为mapreduce的输入,它运行良好。那么我如何限制mapreduce程序一次只处理100个文件(~50MB)。任何人都可以就这个问题提出建议......Nooffiles:318,Noofblocks:1(blocksize:128MB),Hadoop运行在32位系统上MyStackTrace:==============15/05/0511:52:47INFOinput.FileInputForma

java - 错误 : java heap space on Google Data-Proc Cluster

我在Googledataproc集群上从一个表运行Hive插入覆盖查询13783531记录到另一个分区表,不做任何转换。失败并出现错误DiagnosticMessagesforthisTask:Error:JavaheapspaceFAILED:ExecutionError,returncode2fromorg.apache.hadoop.hive.ql.exec.mr.MapRedTaskMapReduceJobsLaunched:Stage-Stage-1:Map:34CumulativeCPU:1416.18secHDFSRead:6633737937HDFSWrite:0FAI

java - Hadoop 错误 : Java heap space when using big dataset

我正在尝试在大型文本数据集(~3.1Tb)上运行Hadoop程序。我一直收到这个错误,而且我看不到任何日志:15/04/2913:31:30INFOmapreduce.Job:map86%reduce3%15/04/2913:33:33INFOmapreduce.Job:map87%reduce3%15/04/2913:35:34INFOmapreduce.Job:map88%reduce3%15/04/2913:37:34INFOmapreduce.Job:map89%reduce3%15/04/2913:39:33INFOmapreduce.Job:map90%reduce3%15

java - 当我试图将整个文件夹作为 Mapreduce 程序的输入时,我正面临 "Java heap space error"

当我尝试通过将整个文件夹作为MR作业的输入来运行mapreduce程序时,我遇到了“Java堆空间错误”。当我将单个文件作为MR作业的输入时,我没有遇到任何错误。作业已成功运行。ChangesItriedinhadoop-env.shfile:=====================================Ihadincreasedthememorysizefrom1024to2048MBexportHADOOP_CLIENT_OPTS="-Xmx2048m$HADOOP_CLIENT_OPTS"Changesinmapred-site.xml:===============

algorithm - 对于相似图像有什么好的最近邻算法吗?

我正在寻找一种可以在大型集合中搜索相似图像的算法。我目前正在使用SURFimplementation在OpenCL中。一开始我用的是KNN搜索算法将每个图像的兴趣点与集合的其余部分进行比较,但测试表明它不能很好地扩展。我还尝试了KNN-Join的Hadoop实现这在HDFS中确实占用了大量临时空间,与输入数据量相比太多了。事实上,由于我的输入向量(64)的维度,成对距离方法并不合适。我听说过LocallySensitiveHashing,想知道是否有任何免费的实现,或者是否值得实现它,也许还有另一种我不知道的算法? 最佳答案 IIR

java - 关于 EMR 错误 : Java heap space 的 Mahout

我在EMR上运行了集群作业。数据集很大。一切正常,直到:2012-09-2910:50:58,063INFOorg.apache.hadoop.mapred.JobClient(main):map100%reduce23%2012-09-2910:51:31,157INFOorg.apache.hadoop.mapred.JobClient(main):map100%reduce24%2012-09-2910:51:50,197INFOorg.apache.hadoop.mapred.JobClient(main):map100%reduce25%2012-09-2910:52:17,

algorithm - 从 mapreduce 中的 n 个元素中选择 k

假设输入x记录,其中n具有所需的属性(例如,它们的值为正)并且所有x具有唯一键。我想做的是,在MapReduce中使用仅限map的作业,恰好发出这些n记录中的k。例如,假设这是我的输入:(a,10)(g,-3)(c,-2)(f,4)(s,2)并且我想发射2个具有正值的元素。在这个例子中,x是5,n是3,k是2。我知道x(我认为不需要),k和n在作业开始之前。问题是具有正值的记录可以由不同的映射器处理。我想到的是,在每个映射器中使用大小为n的哈希表,并使用键的哈希值将具有正值的元素放入该哈希表中。然后,哈希表的前k位置的元素将被发出。但是,如果两个记录落在同一个哈希桶中,这将不起作用。还

Hadoop:为什么我在 Namenode Information Web 中收到 "Max Non Heap Memory is -1 B."消息?这是什么意思?

我有一个使用VirtualBox制作的Hadoop2.6.5集群(一个主节点用作名称节点和数据节点,两个从节点)(easch节点安装了Xubuntu16.04)。先验,安装是正确的,因为我运行了一个wordcount示例并且没问题。在master:50070(我看到名称节点信息的地方),我得到这个:"MaxNonHeapMemoryis-1B."你知道这是什么意思吗?我找不到答案,我想检查一下,因为在运行wordcount之后我尝试运行我自己的程序但它没有成功,尽管它在我的Hadoop单节点安装中运行正常。我希望清楚,如果您需要更多信息,请告诉我。谢谢! 最

android - 将 Apache Pig 导入 Android 项目导致 "Unable to execute dex: Java heap space"错误

我试图在我的Android应用程序中序列化一个TreeMap,这样我就可以将它保存到一个SharedPreferences,如thisStackOverflowQ&A中所建议的那样.它用于ArrayList,但我还是捕获了机会。重点是使用ApachePig项目中的ObjectSerializer类将TreeMap序列化为String并将其保存在共享首选项中的该数据类型中。然而,当我在不使用Hadoop的情况下导入.jar后,我就开始遇到很多错误。当我在模拟器中运行我的应用程序时(我使用的是Eclipse),我的IDE底部的状态栏永远不会超过消息“正在启动[应用程序名称]100%...”