草庐IT

mm_shuffle_epi

全部标签

hadoop - 将配置单元中的数据从一个表插入到另一个表,以便将 mm/dd/yyyy 转换为配置单元时间戳

我必须将数据填充到一个以时间戳为数据类型的Hive表中。引用这里的其他答案,我理解了创建一个数据类型为字符串的新表然后转换为yyyy-mm-dd的方法,因为我的格式是mm/dd/yyyy.CREATETABLEtbl_t(t_idvarchar(50),c_datetimestamp,namevarchar(25))ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t';CREATETABLEtbl_s(t_idvarchar(50),c_datestring,namevarchar(25))ROWFORMATDELIMITEDFIELDSTERMINATED

hadoop - 为什么 Hadoop shuffle 没有按预期工作

我有这个hadoopmapreduce代码,它适用于图形数据(以邻接列表形式)并且有点类似于邻接列表到邻接列表转换算法。MapReduceTask的主要代码如下:publicclassTestTaskextendsConfiguredimplementsTool{publicstaticclassTTMapperextendsMapReduceBaseimplementsMapper{@Overridepublicvoidmap(Textkey,TextArrayWritablevalue,OutputCollectoroutput,Reporterreporter)throwsIOE

java - Hadoop MapReduce : size of data processed in shuffle and reduce phase

我在包含多个AWS实例的集群上运行HadoopMapReduceJava应用程序。我想知道是否有可能在混洗阶段知道数据集的大小,即总共有多少数据被混洗。另外,是否可以知道每个reducer任务处理了多少数据? 最佳答案 您应该能够从JobTrackerWebUI中找到此信息。有一个名为“Reduceshufflebytes”的计数器详细说明了被打乱的总字节数-参见https://issues.apache.org/jira/browse/HADOOP-4845以及原始链接票证以获取更多信息。对于每个reducer计数,深入到已完成的

scala - Spark : Would a dataframe repartitioned to one node experience a shuffle when a groupBy is called on it?

假设我有一些数据都在同一个分区上(我之前在数据帧上执行了.coalesce(1))。我现在想对数据进行分组并对其进行聚合。如果我在数据框上使用.groupBy,这些组会被放置到不同的节点上吗?如果这是真的,我想避免这种情况,因为我想对这些组执行这些计算而不需要过多改组。 最佳答案 首先,coalesce(1)并不能保证你的所有数据都在一个节点中,要确保你必须使用repartition(1),这将迫使您将所有数据统一在一个节点中。coalesce仅对同一节点中的分区进行分组,因此如果您的数据分布在5个节点中(每个节点中有多个分区),它

sql - 如何找到 hh :mm:ss in hive 的平均值

假设我有一个包含列script_name、start_time、end_time、duration的配置单元表。开始时间、结束时间和持续时间的格式为hh:mm:ss。我的要求是找到这些列最近7天的平均时间并放入文件中。 最佳答案 转换为unix_timestamp,求和,除以3,转换为bigint并转换回HH:mm:ss:withdataas--Dataexample.Useyourtableinstead(select'12:10:30'start_time,'01:10:00'end_time,'02:10:00'duratio

Hadoop reducer 错误 : "Shuffle Error: Exceeded the abort failure limit; bailing-out"

我有一个hadoop0.20map/reduce作业,过去运行得很好。最近几天卡在reduce阶段16.66%,我在jobtracker查看reduce任务时看到如下错误;ShuffleError:Exceededtheabortfailurelimit;bailing-out.谁能告诉我这是什么意思,也许能给我指出正确的方向,这样我就能弄清楚如何解决这个问题? 最佳答案 此错误对应于reducer在报告它并映射到属性mapreduce.reduce.shuffle.maxfetchfailures之前尝试获取映射输出的最大次数。您

hadoop - 能否自定义 Hadoop 的 Shuffle/Sort(或分区)阶段来执行图形遍历?

我还在学习MapReduce框架,具体由Hadoop实现,我想知道是否可以修改它来执行以下任务:Map()函数将发出(key,value)对,其键是大小为2的数组,比如int[2]。我希望将包含两个共同整数中的任何一个的每一对映射到同一个reducer。例如,如果Map()发出:([2,3],4),([2,4],5),([6,5],2),([5,7],1),那么Reduce1应该接收前两对,Reduce2接收后两对(前两对共享2,后两对共享5)。这可以看作是一个连通分量问题,其中顶点是int[]中的整数,边在同一int[]中的任意两个整数之间共享。 最佳答案

hadoop - Mapper Combiner patitioner shuffle/sort 顺序

我在DefiniteGuide:Hadoopinpg206中有以下文字。在写入磁盘之前,线程首先将数据划分为对应的分区到他们最终将被发送到的reducer。在每个分区内,后台线程按键执行内存中排序,如果有组合器功能,它在排序的输出上运行。运行combiner函数可以得到更多紧凑的map输出,因此写入本地磁盘和传输到的数据较少reducer。那么有了这个理解,我可以排序为Mapper,partitioner,shuffle/sort,Combiner的顺序吗? 最佳答案 我写了一篇关于此的好文章:http://0x0fff.com/h

hadoop - 为什么 Spark 选择在 shuffle 阶段通过网络发送数据而不是写入 HDFS 上的某个位置?

据我所知,spark尝试通过网络将数据发送到另一个节点的内存缓冲区,如果它不适合内存则溢出到磁盘,为什么spark不能从任何节点可以写入的地方写入HDFS读? 最佳答案 将其写入磁盘的传输速度要慢得多。最重要的是,您保证会产生在感兴趣的节点之间同步磁盘访问的开销。 关于hadoop-为什么Spark选择在shuffle阶段通过网络发送数据而不是写入HDFS上的某个位置?,我们在StackOverflow上找到一个类似的问题: https://stackover

hadoop - 在 Hive 中将 YYYY-MM-DD 日期转换为 YYYY-DD-MM

我有一个配置单元表,其数据的字符串格式为2015-03-0910:00:00。我想用我的Select语句查看它作为2015-09-0310:00:00我能知道我该怎么做吗? 最佳答案 您可以使用内置udfs中的日期,例如:selectFROM_UNIXTIME(unix_timestamp('2016-03-2800:00:00','yyyy-MM-dd'),'yyyy-dd-MM');此查询的输出为:2016-28-03 关于hadoop-在Hive中将YYYY-MM-DD日期转换为Y