草庐IT

reported_by

全部标签

apache - Hadoop/map-reduce : Total time spent by all maps in occupied slots vs. 所有 map task 花费的总时间

背景:我正在分析AWSHadoop作业在各种集群配置上的性能,一些Hadoop计数器令人困惑。问题:“所有map在占用槽中花费的总时间”和“所有maptask花费的总时间”有什么区别?(减少相同的问题)。为简单起见,我们称这些计数器为mapO、mapT、redO和redT。这是我在三种不同的配置中看到的(每种配置都有不同数量的核心/从节点):1)对于AWS/EMR作业(Hadoop2.4.0-amzn-3),mapO/mapT的比率始终为6.0,redO/redT的比率始终为12.0。2)对于使用实例存储的手动安装的Hadoop(Hadoop2.4.0.2.1.5.0-695),map

java - spring-xd如何使用source :file read line one by one

我有一个流,用于监视目录中多个文件的输出、处理数据并将其放入HDFS。这是我的流创建命令:streamcreate--namefileHdfs--definition"file--dir=/var/log/supervisor/--pattern=tracker.out-*.log--outputType=text/plain|logHdfsTransformer|hdfs--fsUri=hdfs://192.168.1.115:8020--directory=/data/log/appsync--fileName=log--partitionPath=path(dateFormat(

java - pig : Group by ranges/binning data

我有一组整数值,我想将它们分组到一堆容器中。示例:假设我有1到1000之间的一千个点,我想做20个bin。有没有办法将它们分组到一个bin/array中?此外,我不会提前知道范围有多宽,因此我无法硬编码任何特定值。 最佳答案 如果您有最小值和最大值,则可以将范围除以bin的数量。例如,--foo.pigids=load'$INPUT'as(id:int);ids_with_key=foreachidsgenerate(id-$MIN)*$BIN_COUNT/($MAX-$MIN+1)asbin_id,id;group_by_id=g

hadoop - HDFS 容量 : how to read "dfsadmin report"

我正在使用Hadoop2.6.0。当我运行“hdfsdfsadmin-report”时,我得到了这样的东西(简化):ConfiguredCapacity:3TBPresentCapacity:400GBDFSRemaining:300GBDFSUsed:100GB我想知道“配置容量”是什么,“当前容量”是什么。看起来“PresentCapacity”是有效的。我怎样才能增加这个? 最佳答案 配置容量是用于数据目录的磁盘/卷的总可用容量。例如:我在/Hadoop/sdb1、/Hadoop/sdc1、/Hadoop/sdd1上安装了三个

Group By分组后选取每组最新的一条数据

GroupBy分组后选取每组最新的一条数据问题groupby语句只会展示一条数据,而且很多时候并不会展示我们想要的数据,如何解决呢首先我们先建一张表temp,如下我们先试一下分组查询,看看结果SELECT*FROM`temp`GROUPBYaddress结果如下:它默认是取的id最小的那一条数据,如果想要取最新的一条呢,我们试试先排序再分组SELECT *FROM (SELECT*FROM`temp`ORDERBY`create_time`desc)AStGROUPBY t.`address`看看结果:发现结果没变,就像排序好像没生效一样,下面有两种解决方法方法一:加limit关键字SELEC

hadoop - HDFS 占用空间 : "hdfs dfs -du/" vs "hdfs dfsadmin -report"

哪种工具最适合测量HDFS空间消耗?当我总结“hdfsdfs-du/”的输出时,与“hdfsdfsadmin-report”(“DFSUsed”行)相比,我总是消耗更少的空间。是否有du没有考虑的数据? 最佳答案 Hadoop文件系统通过将数据副本放置到多个节点来提供重新标记存储。副本数是复制因子,通常大于一。命令hdfsdfs-du/显示空间在没有复制的情况下消耗了您的数据。命令hdfsdfsadmin-report(使用DFS行)显示实际磁盘使用情况,同时考虑了数据复制。所以当从dfs-ud命令获取数字时,它应该大几倍。

java - Hadoop 作业 : Task fail to report status for 601 seconds

在伪节点上运行hadoop作业时,任务失败并被杀死。错误:任务尝试_未能报告状态601秒但相同的程序正在通过Eclipse运行(本地作业)。任务:大约有25K个关键字,输出将是所有可能的组合(一次两个),即大约25K*25K个整体可能是什么问题? 最佳答案 由于某种原因,任务在您的伪节点上执行时没有进行。您可以增加mapred-site.xml中的设置“mapred.task.timeout”。mapred-default.xml中相同的默认值为:mapred.task.timeout600000Thenumberofmillise

java - 由于 Task attempt failed to report status 600 秒,reduce 失败。杀戮!解决方案?

作业的reduce阶段失败并显示:失败的Reduce任务超出了允许的限制。每个任务失败的原因是:任务attempt_201301251556_1637_r_000005_0未能报告状态达600秒。杀!问题详情:Map阶段接收格式为:time,rid,data的每条记录。数据的格式为:数据元素及其计数。例如:a,1b,4c,7对应一条记录的数据。映射器为每个数据元素输出每条记录的数据。例如:key:(time,a,),val:(rid,data)键:(时间,b,),val:(删除,数据)key:(time,c,),val:(rid,data)每一个reduce从所有的记录中接收同一个ke

hadoop - 如何在配置单元查询中编写 case 和 group by

这是我的hive表:coursedeptsubjectstatusbtechcsejavapassbtechcsehadoopfailbtechcsecgdetainedbtechcseccpassbtechitdaapassbtechitwtpassbtechitcnnpassmbahrhrlawpassmbahrhrguidabsentmtechcsjavapassmtechcscdpassmtechcscpdetained我想通过以下方式查询此表以检索数据:coursedeptstatusbtechcsefailbtechitpassmbahrabsentmtechcsfail首

sql - distinct vs group by 哪个更好

对于我们都提到的最简单的情况:selectidfrommytblgroupbyid和selectdistinctidfrommytbl正如我们所知,它们生成相同的查询计划,这在一些项目中被反复提及,如Whichisbetter:DistinctorGroupBy而在hive中,前者只有一个reduce任务,而后者有多个。根据实验,我发现GROUPBY比DISTINCT快10倍。它们是不同的。所以我学到的是:GROUP-BY无论如何都不比DISTINCT差,而且有时会更好。我想知道:1。如果这个结论成立。2。如果为真,我将考虑将DISTINCT作为一种逻辑上方便的方法,但为什么DISTI