some_memory_草庐IT

python - Spark : pyspark crash for some datasets - ubuntu

我正在使用Ubuntu和本地Spark安装(spark-2.0.2)。我的数据集很小，我的代码运行在我有一个小数据。如果我用更多行增加数据集(txt文件)，则会发生错误。我在安装了Hadoop的ClouderaVM上尝试了完全相同的代码，并且运行良好。所以，这一定是我的Ubuntu机器上的一些内存问题或限制。还有一些其他类似的问题，例如:ApacheSpark:pysparkcrashforlargedataset但在我的情况下它没有帮助。我没有Hadoop集群，只有Spark、python2.7和java1.8。它工作正常，只是当有一些更复杂的计算或数据集更大时它崩溃了。有什么线索吗

java - Hadoop MapReduce : Strange Result when Storing Previous Value in Memory in a Reduce Class (Java)

如果我希望存储迭代器的当前值以与Reduce方法中迭代器的下一个值进行比较，Hadoop要求我克隆它而不是简单地将其引用分配给临时变量。我要将代码发布到我的reducer。你会看到两部分:Eclipse中测试的主要方法在Hadoop中执行的reduce方法你会注意到这两行代码是相同的，除了以下几点:main方法从我硬编码到其中的ArrayList获取Iterator，而reduce方法从mapper方法获取Iterator。main方法当然不会执行context.write。这是两者几乎共享的代码:MMIcurrentMMI=null;MMIpreviousMMI=null;Ultra

MapReduce Previous currentMMI previousMMI println java hadoop object-reference reducers

memory - Hadoop 名称节点内存使用情况

我对hadoopnamenode内存问题感到困惑。当namenode内存使用率高于一定百分比(比如75%)时，通过hadoopapi读写hdfs文件会失败(比如调用一些open()会抛出异常)，请问是什么原因？有没有人有同样的事情？PS.这次namenode的diskio不高，CPU比较空闲。什么决定了namenode的QPS(每秒查询数)？非常感谢! 最佳答案因为名称节点基本上只是一个管理HashMap的RPC服务器对于这些block，您有两个主要的内存问题:JavaHashMap成本很高，它的冲突解决(单独的链接算法)也很昂贵

memory Hadoop namenode code section distributed-computing

Hadoop:为什么我在 Namenode Information Web 中收到 "Max Non Heap Memory is -1 B."消息？这是什么意思？

我有一个使用VirtualBox制作的Hadoop2.6.5集群(一个主节点用作名称节点和数据节点，两个从节点)(easch节点安装了Xubuntu16.04)。先验，安装是正确的，因为我运行了一个wordcount示例并且没问题。在master:50070(我看到名称节点信息的地方)，我得到这个:"MaxNonHeapMemoryis-1B."你知道这是什么意思吗？我找不到答案，我想检查一下，因为在运行wordcount之后我尝试运行我自己的程序但它没有成功，尽管它在我的Hadoop单节点安装中运行正常。我希望清楚，如果您需要更多信息，请告诉我。谢谢! 最

Information amp section Hadoop 中运 virtualbox cluster-computing heap-memory namenode

shell - 将目录传递给 hadoop streaming : some help needed

上下文是我正在尝试在AmazonEMR(WebUI)上使用我运行的bash脚本运行流式作业:-inputs3://emrdata/test_data/input-outputs3://emrdata/test_data/output-mappers3://emrdata/test_data/scripts/mapperScript.sh-reducerNONE输入目录中有子目录，这些子目录中有gzip数据文件。mapperScript.sh失败的相关部分是:forfilenamein"$input"/*;dodir_name=`dirname$filename`fname=`basen

streaming 传递子目子目录 section shell hadoop amazon emr

memory - 如何更改 EMR hadoop 流作业中的内存

我正在尝试克服EMR上的hadoop流作业中的以下错误。Container[pid=30356,containerID=container_1391517294402_0148_01_000021]isrunningbeyondphysicalmemorylimits我尝试搜索答案，但我找到的那个没有用。我的工作启动如下所示。hadoopjar../.versions/2.2.0/share/hadoop/tools/lib/hadoop-streaming-2.2.0.jar\-inputdeterminations/part-00000\-outputdeterminations/

memory hadoop section code streaming emr

memory-management - HBase MemStore 和垃圾收集

我是HBase的新手，但我已经设置好HBase和Hadoop并了解一些相关知识。当我研究HBaseMemStore时，我对MemStore的全部了解是“MemStore是HBase放置必须写入或读取的数据的内存位置”。所以，这就是为什么我们想在何时何地阅读有关memstore的内容时，我们也会看到有关垃圾收集的讨论。现在我的问题是，memstore的唯一目的是在内存中保存可读和可写的数据吗？我们可以调整该内存的大小以获得hbase的快速回复吗？垃圾收集配置(收集器配置)会影响内存库吗？我认为应该是的。:) 最佳答案关于HbaseM

memory-management management section HBase memstore hadoop

Hadoop java.io.IOException : Mkdirs failed to create/some/path 异常

当我尝试运行我的作业时，出现以下异常:Exceptioninthread"main"java.io.IOException:Mkdirsfailedtocreate/some/pathatorg.apache.hadoop.util.RunJar.ensureDirectory(RunJar.java:106)atorg.apache.hadoop.util.RunJar.main(RunJar.java:150)其中/some/path是hadoop.tmp.dir。但是，当我在/some/path上发出dfs-lscmd时，我可以看到它存在并且数据集文件存在(在午餐工作之前复制)。

IOException Hadoop section code hdfs

apache - Apache Hadoop YARN 中的 'mapreduce.map.memory.mb' 和 'mapred.map.child.java.opts' 是什么关系？

我想知道mapreduce.map.memory.mb和mapred.map.child.java.opts参数之间的关系。mapreduce.map.memory.mb>mapred.map.child.java.opts? 最佳答案 mapreduce.map.memory.mb是Hadoop允许分配给映射器的内存上限，以兆字节为单位。默认值为512。如果超过此限制，Hadoop将终止映射器并显示如下错误:Container[pid=container_1406552545451_0009_01_000002,contain

amp 39 Hadoop section 射器 apache configuration hadoop-yarn heap-size

memory-management - memory_get_peak_usage 与实际 php 进程内存使用量的区别

为什么phpmemory_get_peak_usage的结果与在Linux中使用“top”或“ps”命令时显示为分配给进程的内存大小差异如此之大？我在php.ini中设置了2Mb的memory_limit我的单字符串php脚本echomemory_get_peak_usage(true);说它正在使用786432字节(768Kb)如果我尝试向系统询问当前的php进程echoshell_exec('ps-p'.getmypid().'-Fl');它给了我FSUIDPIDPPIDCPRINIADDRSZWCHANRSSPSRSTIMETTYTIMECMD5Swww-data14599145

memory 使用量 section memory_get_peak_usage code memory-management php