作业队

hadoop - gcloud 控制台指示作业正在运行，而 hadoop 应用程序管理器指示作业已完成

我提交给spark集群的作业没有完成。我看到它永远悬而未决，但是日志显示即使是sparkjetty连接器也已关闭:17/05/2311:53:39INFOorg.spark_project.jetty.server.ServerConnector:StoppedServerConnector@4f67e3df{HTTP/1.1}{0.0.0.0:4041}我在yarn上运行最新的clouddataprocv1.1(spark2.0.2)。我通过gcloudapi提交spark作业:gclouddataprocjobssubmitspark--projectstage--clusterd

java - Oozie 作业失败 Mapr 6.x

我正尝试在yarn-client模式下向oozie提交一个spark作业。当我在oozie之外运行spark作业时，它运行良好。但是当我提交oozie作业时，它一直失败并出现以下错误:Exceptioninthread"main"java.lang.IllegalStateException:basedirjob.jar/libdoesnotexist.atorg.apache.tools.ant.DirectoryScanner.scan(DirectoryScanner.java:871)atorg.apache.spark.classpath.ClasspathFilter$$a

Oozie java scala ClasspathFilter apache apache-spark hadoop

hadoop - Hector 的批处理 Mutation 与使用 Hadoop 作业将数据加载到 Cassandra 中？

有人可以强调Hector的批处理变异和使用Hadoop作业将数据加载到Cassandra的优缺点吗？我知道在Hector中您可以执行以下操作:mutator.addInsertion(...);mutator.execute();在Hadoop中，您可以使用MR作业将数据加载到Cassandra。我正在寻找使用或不使用它们的原因。谢谢! 最佳答案如果数据源当前不在hadoop(或hbase)中，我建议只使用如上所述的Mutator的多线程加载器来减少移动部件的数量。这个要点是过时的，但方法是相似的:https://gist.git

Cassandra Mutation section https hadoop hector

performance - 平衡 HDFS -> HBase mapreduce 作业的想法

对于客户，我一直在研究在AWSEC2上运行Cloudera风格的hadoop集群的短期可行性。在大多数情况下，结果是预期的，逻辑卷的性能大多不可靠，也就是说尽我所能让集群在这种情况下运行得相当好。昨晚我对他们的导入程序脚本进行了全面测试，以从指定的HDFS路径中提取数据并将其推送到Hbase。他们的数据有些不同寻常，因为记录小于1KB，并且被压缩到9MB的gzipblock中。总共有大约50万条文本记录从gzip中提取出来，经过完整性检查，然后推送到reducer阶段。作业在环境的预期范围内运行(溢出记录的数量是我预料到的)但是一个非常奇怪的问题是当作业运行时，它使用8个reducer

performance mapreduce reducer section 的 configuration hadoop hbase

graph - 将多个顺序 HBase 查询的结果传递给 Mapreduce 作业

我有一个HBase数据库，它存储有向图的邻接表，每个方向的边存储在一对列族中，其中每一行表示一个顶点。我正在编写一个mapreduce作业，它将所有节点作为其输入，这些节点也具有从相同顶点指向的边，因为具有指向其他顶点(指定为查询的主题)的边。这有点难以解释，但在下图中，当查询顶点“A”时，作为输入的节点集将是{A，B，C}，因为它们都具有来自顶点的边'1':为了在HBase中执行此查询，我首先在产生{1}的反向边列族中查找边为“A”的顶点，然后，对于该集合中的每个元素，从该元素中查找边为“A”的顶点该集合的前向边缘列族。这应该会产生一组键值对:{1:{A,B,C}}。现在，我想获取这

Mapreduce 传递射器 section 的 graph hadoop hbase

hadoop - 如何更改每个作业的 io.sort.mb？

我想知道是否可以更改每个作业的io.sort.mb值？我知道您可以在mapred-site.xml中为参数设置一个值，但我想以编程方式在不同的作业中使用不同的值。我尝试了conf.setInt("io.sort.mb",someValue)但它似乎不起作用。JVM设置有足够的内存(如2.25GB)并且没有其他作业在运行。最佳答案可以，提交前在Configuration(早期版本为JobConf)中设置即可。它确实有效；我在Mahout中使用它。确保在设置值之后和提交之前将conf设置到您的Job上。确保您也设置了正确的conf!

hadoop sort section code 中设 mapreduce

hadoop - 如何限制在 map reduce 作业中发送到 reducer 的记录数？

我有一个超过300000行的文件，它是mapreduce作业的输入，我希望该作业仅处理该文件的前1000行。有什么好的方法可以限制发送到reducer的记录数吗？我只需要一个简单的identityreducer就可以写出我的输出。目前，reducer写出的行数与输入中的行数一样多。最佳答案首先，确保您的mapreduce程序设置为仅使用一个reducer。它必须明确设置，否则Hadoop可能会选择其他一些数字，然后就没有好的方法来协调reduce任务以确保它们发出的总数不超过1000。然后，您可以简单地在Reducer类中维护一

送到 reducer section 的 hadoop mapreduce

hadoop - 将 map reduce 作业的输出记录到文本文件

我一直在使用这个jobclient.monitorandprintjob()方法将mapreduce作业的输出打印到控制台。我的用法是这样的:job_client.monitorAndPrintJob(job_conf,job_client.getJob(j.getAssignedJobID()))输出结果如下(打印在控制台):13/03/0407:20:00INFOmapred.JobClient:Runningjob:job_201302211725_1013913/03/0407:20:01INFOmapred.JobClient:map0%reduce0%13/03/0407:

本文 hadoop JobClient mapred INFO mapreduce

java - 链接多个 hadoop 作业并无需等待即可提交

我正在尝试弄清楚如何链接多个hadoop作业，将一步的输出提供给下一步的输入。我通过谷歌搜索发现的很多东西都说我应该从单个线程一次调用一个并等待完成，或者我应该使用Job.addDependingJob()然后提交它们。我选择了后者，但我似乎无法在前一个作业完成后执行后续作业。这是我的代码:Listjobs=newArrayList();for(inti=0;i所有作业同时运行，我得到如下输出:未设置作业jar文件。可能找不到用户类别。参见JobConf(Class)或JobConf#setJar(String)。要处理的总输入路径:1使用GenericOptionsParser来解析

hadoop java JobConf section li mapreduce hdfs

hadoop - 将所有映射器中遇到的最大键作为参数传递给下一个作业

我有一个Map/Reduce作业链:Job1将带有时间戳的数据作为键，将一些数据作为值进行转换。对于Job2，我需要将出现在Job1中所有映射器中的最大时间戳作为参数传递。(我知道如何将参数传递给Mappers/Reducers)我可以跟踪Job1的每个映射器中的最大时间戳，但是我怎样才能获得所有映射器中的最大值并将其作为参数传递给Job2？我想避免仅仅为了确定最大时间戳而运行Map/Reduce作业，因为我的数据集的大小在TB以上。有没有办法使用Hadoop或Zookeeper来完成此任务？最佳答案 2个map无法相互通信。因此

大键射器 section 传递 hadoop

186 187 188189190 191 192