草庐IT

mr_collection

全部标签

hadoop - hadoop MR2 的包图

我开始学习hadoopMR,我相信如果有可用的包/类图,我会很容易浏览和理解框架提供的类。如果您有MR2的封装图,谁能分享一下。PS:我找到了MR1的UML包和类图,但找不到MR2。非常感谢对此的任何帮助。MR1-MR1UML> 最佳答案 为了学习MR,您无需深入研究内部结构。但是如果你想这样做,我建议你先检查YARNarticles从Hortonworks看大局。您还可以阅读架构designdocyarn。然后我会看看javadoc还会检查this博客剖析了Hadoop堆栈的几个组件,包括YARN。您还需要查看Hadoopsour

hadoop - 带有 MR1 的 CDH5.2 中的 distcp2

当distcp从s3到本地集群时,我们需要限制映射器带宽。所以我从https://repository.cloudera.com下载了hadoop-distcp-2.5.0-cdh5.2.0-20141009.063640-188.jar这是链接:https://repository.cloudera.com/artifactory/public/org/apache/hadoop/hadoop-distcp/2.5.0-cdh5.2.0-SNAPSHOT/hadoop-distcp-2.5.0-cdh5.2.0-20141009.063640-188.jar然后按照distcp命令运

java - 输入输出同一个目录,MR会不会覆盖记录?

我想在MR运行期间过滤掉过时的记录并添加新记录。我计划编写一个映射器,它将从临时目录(新输入)和存储库目录(以前的结果)中读取记录。当映射器运行时,它将新旧一起摄取。如果映射器只写出时间戳小于30天的记录,并且我也使用存储库目录进行输出,那么新结果是否会覆盖旧结果,从而有效地添加新内容并删除过时的内容?我在Java1.7中使用Apache库。 最佳答案 它会抛出一个错误。Hadoop不会输出到现有目录。它总是创建目录。因此,输出目录一定不存在。如果是这样,它会抛出一个错误。我假设您使用的是标准FileOutputFormat或其某些

hadoop - 如果我只想将 HCatalog 与 Pig 和 MR 一起使用,是否需要安装 Hive?

想要使用HDP2.2发行版,但计划仅将Pig+MR用于我的ETL作业。希望使用HCatalog记录模式,但希望避免必须设置Hive。我需要它来拥有HCatalog吗? 最佳答案 由于HCatalog是Hive的一部分,是的,您需要安装Hive才能使用HCatalog。(引用https://hive.apache.org/javadocs/r1.0.0/api/hcatalog/core/index.html) 关于hadoop-如果我只想将HCatalog与Pig和MR一起使用,是否需要

hadoop - 通过 Pig 转储中间 MR 作业数据

我对Pig的正常行为有疑问。假设我正在编写如下Pig脚本:A=LOADsomeInput;B=FILTERABY`somecondition1`;C=FILTERABY`somecondition2`;D=GROUPBBY`somecolumn1`;E=GROUPCBY`somecolumn1`;storeD;storeE;现在在这里,当Pig实际传递数据时,假设Pig创建了2个作业来执行此脚本:Job1:FiltersByCondition1andCondition2Job2:PerformstheGroupByOperation.因此Job1的输出数据被Job2用作输入;Pig是将

hadoop - 如何每天将增量记录从 Oracle 加载到 HDFS,我们可以使用 Sqoop 或 MR Jobs。哪个是首选方法

如何每天从Oracle加载增量记录到HDFS?我们可以使用Sqoop或MRJobs吗? 最佳答案 Sqoop正是为此目的而设计的,并且会导致MR作业完成复制数据的工作。有多种方法可以确定Oracle表中的新内容,例如使用表的ID,或者可能使用日期修改字段(如果有的话)。与Hadoop中的大多数东西相比,Sqoop相当简单。这是文档的链接——搜索“增量”或从第7.2.9节开始了解更多信息。http://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html仅供引用一旦您使其正常工作,请查看设计用

Hadoop 独立实例在执行 MR 作业期间退出,日志中出现 ExpiredTokenRemover 错误(在少数作业成功执行后)

Hadoop/HDFS进程退出(所有jps守护程序),并且当它运行MR作业时,在少数作业成功完成后,用户被从终端抛出。错误:2016-07-2317:56:16,258错误org.apache.hadoop.security.token.delegation.AbstractDelegationTokenSecretManager:ExpiredTokenRemover收到java.lang.InterruptedException:sleep中断日志文件:/usr/local/hadoop/logs/yarn-hduser-resourcemanager-KMUbLptp.log20

database - Hive 中 collect_list(column) 的最大值

我在Hive中使用以下命令。并得到正确的结果。selectacct_id,collect_list(expr_dt)fromexperiences>groupbyacct_id;输出:900["2015-03-31"]707["2015-03-31","2014-12-10"]903["2015-03-31"]-435["2015-03-31"]718["2015-03-31","2014-06-03"]我想获取每个帐户的最大日期。当我尝试执行以下查询时出现错误。selectacct_id,max(collect_list(expr_dt))fromexperiences>groupb

mysql - 执行 concat_ws 和 collect_list 后,Hive Coalesce 函数未返回预期结果

我需要在表服务中转换列服务名称,然后合并值。services:useridservicename1A2B2C3B1C45C我正在尝试的查询是SELECTuserid,COALESCE(a,b,c)ASservicenameFROM(SELECTuserid,concat_ws('',a)ASa,concat_ws('',b)ASb,concat_ws('',c)AScFROM(SELECTuserid,collect_list(a.group_map['A'])ASa,collect_list(a.group_map['B'])ASb,collect_list(a.group_map[

在 PySpark 中使用 collect_list 时 Java 内存不足

我目前正在使用PySpark并在包含大约6亿条记录的表上运行查询。该表本身约为300gb。我的查询看起来像这样:selectf1,collect_list(struct(f2,f3))asfdatafromtablegroupby1目前,我收到此错误:#java.lang.OutOfMemoryError:Javaheapspace#-XX:OnOutOfMemoryError="kill-9%p"#Executing/bin/sh-c"kill-91010"...Killed另一件事是(f2,f3)元组的分布不均匀。一些f1可能有100k个这样的元组,而其他一些f1可能只有5个。我怀