草庐IT

groups_shuffled

全部标签

hadoop - 为什么 Hadoop shuffle 没有按预期工作

我有这个hadoopmapreduce代码,它适用于图形数据(以邻接列表形式)并且有点类似于邻接列表到邻接列表转换算法。MapReduceTask的主要代码如下:publicclassTestTaskextendsConfiguredimplementsTool{publicstaticclassTTMapperextendsMapReduceBaseimplementsMapper{@Overridepublicvoidmap(Textkey,TextArrayWritablevalue,OutputCollectoroutput,Reporterreporter)throwsIOE

java - Hadoop MapReduce : size of data processed in shuffle and reduce phase

我在包含多个AWS实例的集群上运行HadoopMapReduceJava应用程序。我想知道是否有可能在混洗阶段知道数据集的大小,即总共有多少数据被混洗。另外,是否可以知道每个reducer任务处理了多少数据? 最佳答案 您应该能够从JobTrackerWebUI中找到此信息。有一个名为“Reduceshufflebytes”的计数器详细说明了被打乱的总字节数-参见https://issues.apache.org/jira/browse/HADOOP-4845以及原始链接票证以获取更多信息。对于每个reducer计数,深入到已完成的

SQL 查询 : How to select multiple instances of a single item without collapsing into a group?

我正在尝试在Impala中执行SQL查询。我有一个数据表,其中(除其他外)有两列,其值相交多次。例如,假设我们有一个表,其中包含两列相关的姓名和电话号码:姓名电话号码约翰·史密斯(123)456-7890罗伯·约翰逊(123)456-7890格雷格·jackson(123)456-7890汤姆格林(123)456-7890jack·马西斯(123)456-7890约翰·史密斯(234)567-8901罗伯·约翰逊(234)567-8901乔·沃尔夫(234)567-8901迈克·托马斯(234)567-8901吉姆·摩尔(234)567-8901约翰·史密斯(345)678-9012罗

hadoop - 如何执行 Group by 然后在 pig 的其他列上使用 DISTINCT

我刚刚开始学习PIG,需要一些帮助解决以下问题。提前致谢!例如:我有这样的输入:职业类别名称ActressActingMarionCotillardActorActingLiamNelsonTennisPlyrAthleticsRogerFedererFootballPlyrAthleticsNeymarActorActingTomHanksActressActingElizabethBanksUSSenatorPoliticsElizabethWarrenFootballPlyrAthleticsMesutOzil我想知道单个类别中有多少种类型。例如:-表演有两种类型,一种是女Act

hadoop - 统计 GROUP BY 中 PIG 查询和 MySql 查询结果的差异

我的PIG查询如下所示emp=LOAD'hdfs://master:9000/hrms/DimEmployee'AS(EmployeeID,OrganizationID,EmploymentType);grouped=groupempby(OrganizationID,EmploymentType);AggEmploymentType=FOREACHgroupedGENERATEgroup.OrganizationID,group.EmploymentType,COUNT(emp.EmployeeID)ascnt;DUMPAggEmploymentType;下面给出了上述pig查询的逐

hadoop - pig : Slow Group By operator

在对Hive和Pig进行基准测试后,我发现Pig中的GroupBy运算符比Hive的要慢得多。我想知道是否有人有过同样的经历?人们是否有任何改进此操作性能的技巧?(按照此处早期帖子的建议添加DISTINCT没有帮助。我目前正在重新运行启用LZO压缩的基准测试)。 最佳答案 看来你看错了方向。GroupBy只是以某种方式对数据进行分组,之后的操作非常重要。在Pig中尝试分析性能时,您应该牢记以下几点:1)几条语句可以合并成一个MR作业,所以不要看语句,看生成的MR作业的性能。2)性能上的巨大差异应该是有原因的。这可能是:2.1不同的输

java - 如何在 Hive 嵌入式模式下运行包含 "select count(*)"和 "group by"子句的 Hive Sql 查询?

如何在Hive嵌入式模式下运行此查询(1)selectproduct,count(*)ascntfromhive_bigpetstore_etlgroupbyproduct在Maven控制台中,我得到一个InvocationTargetException异常在我找到的Hive日志文件中java.lang.Exception:java.lang.NullPointerExceptionatorg.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:354)Causedby:java.lang.NullPointe

hadoop - Hive QL 中的条件 GROUP BY 子句

我正在尝试在HiveQL脚本中参数化GROUPBY子句。SELECTCOUNT(*)ASsales,country,state,cityFROMtestdb.dataWHEREPRICE>5GROUPBYIF(TRUE,(country,state,city),(country,state))如何实现这样的查询? 最佳答案 我曾尝试在GROUPBY及其作品中使用CASE语句。不过,您可能想要验证查询结果。如果您可以将您的条件转换为case语句,则此查询可以工作。SELECT*FROMtestdb.dataWHEREprice>5GR

python - 如何使用 Group_Map 使用 Python 3 修复 Spark.SQL 中的 "Cannot use null as map key!"错误

我正在使用Spark.SQL并尝试使用MAP语句创建一个数据透视表,以便将一列的值作为不同的列。我用这个查询准备了第一个表:spark.sql("""CREATETABLETABLE_01STOREDASPARQUETASselectROWS,COLUMNS,count(*)asNUM_ROWSfromTABLE_00groupbyROWS,COLUMNSorderbyROWS,COLUMNS""")想法是将其转换为:ROWSCOLUMNSNUM_ROWSVALUE1COL22VALUE1COL350VALUE2COL120VALUE2COL21VALUE2COL330进入这个:COL

scala - Spark : Would a dataframe repartitioned to one node experience a shuffle when a groupBy is called on it?

假设我有一些数据都在同一个分区上(我之前在数据帧上执行了.coalesce(1))。我现在想对数据进行分组并对其进行聚合。如果我在数据框上使用.groupBy,这些组会被放置到不同的节点上吗?如果这是真的,我想避免这种情况,因为我想对这些组执行这些计算而不需要过多改组。 最佳答案 首先,coalesce(1)并不能保证你的所有数据都在一个节点中,要确保你必须使用repartition(1),这将迫使您将所有数据统一在一个节点中。coalesce仅对同一节点中的分区进行分组,因此如果您的数据分布在5个节点中(每个节点中有多个分区),它