草庐IT

space_available_mb

全部标签

hadoop - 计算大于 100MB 的 hdfs 压缩文件

有人可以帮我构建命令来计算HDFS中根目录中大于100MB的.snappy压缩文件的数量吗?我使用此命令从根目录中获取.snappy文件的数量:hdfsfsck/-files|grep".snappy"|wc-l现在我需要统计大于100MB的压缩文件。 最佳答案 使用hdfs和awk命令应该可以做到这一点。这是片段hdfsdfs-ls-R/path_to_dir/|awk'{if($5>104857600&&$8~/\.snappy/)print$8}' 关于hadoop-计算大于100

java - 阶段 13.0 (TID 13) 中的任务 0.0 异常 java.lang.OutOfMemoryError : Java heap space

当我们使用“mahoutspark-rowsimilarity”操作时,我们正在试验问题。我们有一个包含100k行和100个项目的输入矩阵,进程抛出一个关于“Exceptionintask0.0instage13.0(TID13)java.lang.OutOfMemoryError:Javaheapspace”,我们尝试增加JAVAHEAPMEMORY、MAHOUTHEAPMEMORY和spark.driver.memory。环境版本:驯象师:0.11.1星火:1.6.0。Mahout命令行:/opt/mahout/bin/mahoutspark-rowsimilarity-i50k_

hadoop - 当 rolloverSize 设置为 150 MB 时,每隔几秒就会刷新一次 Flume 消息

我创建了一个flume管道,使用flume将数据从Kafka移动到HDFS。我已将rolloverSize设置为150MB,它可以正确滚动。但是我希望将消息频繁写入HDFS文件,而不是将所有消息一次性写入,即目前消息保存在缓冲区中,并在达到150MB大小时刷新。基本上,我想以近乎实时的方式将消息写入HDFS,并在达到150MB时翻转文件。我尝试设置batchSize属性,但没有太大帮助。上面的需求是否可以在flume中实现? 最佳答案 hdfs.rollInterval是你应该在你的flumeconf中设置的。此参数使Flume每隔

configuration - Hadoop 配置 - 映射器/组合器是否受 io.sort.factor 和 io.sort.mb 影响?

如果我修改io.sort.factor和io.sort.mb,在map端发生的本地排序是否使用这些变量,或者它们是否仅由在reducer端完成的排序使用? 最佳答案 是的,它们也用在map端(不管你有没有组合器):MapTask.javaio.sort.factor-第1695行io.sort.mb-第932-944行 关于configuration-Hadoop配置-映射器/组合器是否受io.sort.factor和io.sort.mb影响?,我们在StackOverflow上找到一个

Hadoop2.4.0 创建 39063 映射任务以在具有无效 Inputsplit 配置的本地模式下处理 10MB 文件

我正在使用hadoop-2.4.0,所有默认配置如下:FileInputFormat.setInputPaths(job,newPath("in"));//10mbfile;justonefile.FileOutputFormat.setOutputPath(job,newPath("out"));job.getConfiguration().set("mapred.max.split.size","64");job.getConfiguration().set("mapred.min.split.size","128");PS:我设置的maxsplitsize小于min(一开始我设置

Hadoop 参数 mapreduce.map.memory.mb 和 mapreduce.map.java.opts

想知道这两个参数(mapreduce.map.memory.mb和mapreduce.map.java.opts)之间的关系是什么,有时我看到人们将mapreduce.map.memory.mb设置为2048和mapreduce.map.java.opts为-Xmx4G-Xms4G-server,想知道这种情况下的上限是多少?谢谢。问候,林 最佳答案 mapreduce.map.memory.mb是map的资源限制。mapreduce.map.java.opts是映射子jvms的堆大小。Hadoop设置更像是一种资源实现/控制,而J

java.lang.OutOfMemoryError : Java heap space at java. util.Arrays.copyOf(Arrays.java:3236)

我在映射器类中遇到此错误。我正在使用将解压缩的ZipFileInputFormat读取大zip文件,并使用ZipFileRecordReader我正在将其转换为文件名和文件内容作为值的键。我必须使用我的分隔符拆分内容并将其插入到HBase表中。zip文件的大小非常大且不可拆分。我的代码适用于较小的zip文件,但是当我为巨大的zip文件运行它时,它会抛出此错误。这就是问题发生的地方。//ReadthefilecontentsByteArrayOutputStreambos=newByteArrayOutputStream();byte[]temp=newbyte[8192];while(

hadoop - setsockopt IPV6_TCLASS 16 : Protocol not available, Cygwin64

我正在尝试在Win8.1上使用Cygwin64安装Hadoop1.0.3。完成配置后,启动SSHD服务,我运行sshcyg_server@localhost并得到这些:cyg_server@localhost'spassword:setsockoptIPV6_TCLASS16:Protocolnotavailable:我是Cygwin64和Hadoop的新手,在此先感谢您的帮助。 最佳答案 从客户端,只需添加-oAddressFamily=inet给传递给ssh的参数,或者加上AddressFamilyinet到~/.ssh/con

hadoop - 这不正常吧?所需的 AM 内存 (471859200+47185920 MB) 高于最大阈值 (2048 MB)

我已经阅读了很多有关通过设置yarn.scheduler.maximum-allocation-mb来解决此类问题的内容,我已将其设置为2gb,因为我当前正在运行selectcount(*)from我想这不是一个繁重的计算。但是什么是RequiredAMmemory(471859200+47185920MB)应该是什么意思其他问题说关于(1024+2048)问题或类似的东西。我在一台机器上设置,即我的桌面有4-gbram和2个内核。将Spark作为Hive执行引擎运行的规范是否非常低?目前我正在从java运行这项工作,我的设置是Connectionconnect=DriverManag

java - PIG 聚合函数 - OutOfMemory : Java Heap Space

以下失败:data=FOREACHrawDataGENERATE(int)col;aggregate=FOREACHdataGENERATEMIN(col);有什么方法可以让它正常工作吗?我试过这个:data=FOREACHrawDataGENERATE1dummy,(int)col;grouped=GROUPdataBYdummy;aggregate=FOREACHgroupedGENERATEMIN(data.col)现在我得到一个:java.lang.Exception:java.lang.OutOfMemoryError:Javaheapspace实际上有11行整数(1..11