作业队

hadoop - 如何将级联作业的输出合并到特定大小

我有一个输出30个25MB文件的级联作业。无论如何我可以将它减少到每个256mb文件。我试过-Dmapreduce.job.reduces=1。它似乎没有工作。任何指导都会有所帮助最佳答案 Totalmemory=30*25=750,requiredoutputfiles=750/256=3,您可以在您的作业中再添加一个map-reduce任务。在最终输出管道上放置groupby或unique或您可以为其设置reducer数量并将reducer数量设置为3或4的任何操作，这样您将获得数字输出文件的数量作为reducer的数量。

hadoop 如何 section reducer stackoverflow cascading

hadoop - 为什么 Hadoop 作业在云中(使用多节点集群)比在普通 PC 上慢？

我将CloudDataproc用作我的研究的云服务。在此平台(云)上运行Hadoop和spark作业比在较低容量的虚拟机上运行相同的作业要慢一些。我在云上的3节点集群(每个集群有7.5GBRAM和50GB磁盘)上运行我的Hadoop作业需要4分钟49秒，而同样的作业在具有3GBRAM和27GB磁盘的单节点虚拟机(我的电脑)上需要3分钟20秒.为什么在多节点集群的云中结果比在普通pc上慢？最佳答案首先:在不知道完整配置和您正在运行的作业类型的情况下不容易回答。可能的原因是:配置错误http://HOSTNAME:8080打开res

hadoop section li apache-spark cloud virtual-machine google-cloud-dataproc

java - 在 hadoop : Type Mismatch 中链接作业

我想映射->缩减->映射->缩减这是我想做的:我有这个输入tsv文件:122123324243在我的第一个map/reduce工作之后，我有这个102-13-142在我的第2个map/reduce作业之后，我得到了这个(输出文件)21-1201除了我的代码编译但是对于第二个作业，我有这个错误Error:java.io.IOException:Typemismatchinvaluefrommap:expectedorg.apache.hadoop.io.IntWritable,receivedorg.apache.hadoop.io.Text我不明白，因为我没有将值文本发送给我的第二份工

Mismatch hadoop IntWritable code Text java mapreduce

postgresql - Sqoop - 在保存的作业中使用模式

当我在shell上运行这个命令时工作正常:sqoopimport--incrementalappend--check-columnid_civilstatus--last-value-1--connectjdbc:postgresql://somehost/somedb--usernamesomeuser--password-filefile:///passfile.txt--tablesometable--direct-m3--target-dir/jobs/somedir----schemasomeschema但是当我尝试将其保存为作业时:sqoopjob--createmyjob

postgresql Sqoop section code hadoop hdfs database-schema

hadoop - 如何增加 Sqoop 作业中的映射器数量

我正在尝试使用Sqoop将数据从S3加载到RDS。我在70个不同的文件中有大约35GB的gzip文件。这是我运行的命令sqoopexport--connectjdbc:mysql://a205067-pppp-ec2rds.abcd.us-east-1.rds.amazonaws.com/tprdb--usernameuser--passwordpassword--tableDnB_WB_UniverseMaster--export-dirs3://pppp-sukesh/FullFiles/--fields-terminated-by'|'--num-mappers500--dire

射器 hadoop code section sqoop amazon-emr sqoop2

java - 如何在 Cloudera 中安排/触发 Spark 作业？

目前我们的项目在MR上，我们使用Oozie来编排我们的MR作业。现在我们正在转向Spark，并且想知道在CDH集群上调度/触发Spark作业的推荐方法。请注意，CDHOozie不支持Spark2作业。所以请为此提供一个替代方案。最佳答案我上次查看时，Hue在Worlflow编辑器中有一个Spark选项。如果Cloudera不支持它，我不确定它为什么会在那里......虽然CDHOozie确实支持纯shell脚本，但您需要确保所有NodeManager都将在本地服务器上提供可用的spark-submit命令。如果这不起作用，它还支

中安何在 section Spark stackoverflow java scala apache-spark hadoop cloudera

performance - Informatica BDE 摄取作业运行 10 多个小时，终止并重新运行后 3 小时内完成

关于我的个人资料-我正在为集群上运行的一些BDEInformatica摄取作业提供L3支持。我们的目标是帮助应用程序团队满足SLA。我们支持在Hadoop层(Hive)之上运行的作业流。问题陈述-我们观察到，在某些日子里，BDEInformatica摄取作业运行得非常缓慢，而在其他日子里，它们会在3小时内完成其周期。如果作业花费了太多时间，我们通常会终止并重新运行这对我们有帮助，但这并不能帮助我们解决根本原因。我们个人资料的局限性-不幸的是，我没有应用程序代码或Informatica工具，但我必须联系开发团队并询问相关问题，以便我们缩小根本原因的范围。后续步骤-什么样的情况会导致这种延

摄取 performance strong section Informatica hadoop hive trouble-tickets

hadoop - 如何找到 oozie (hadoop) 作业运行的 hadoop 应用程序

我们知道，首先oozie运行一个hadoop作业，然后使用该作业运行其他hadoop应用程序。所以我想找到由oozie(hadoop)作业运行的那些hadoop应用程序(例如application_231232133)的列表。目前没有这样的api或命令。最佳答案如果您使用的是Oozie5.0或更高版本，那么这些作业的应用程序类型是“OozieLauncher”，而不是“MapReduce”，因此它们很容易被过滤掉。关于hadoop-如何找到oozie(hadoop)作业运行的had

hadoop oozie section stackoverflow hadoop-yarn oozie-coordinator oozie-workflow

hadoop - Flink Prometheus Push Gateway Reporter - 在作业关闭时删除指标

我已经按照文档指标部分中的说明设置了PrometheusPushGatewayReporter。我可以看到来自推送网关UI中公开的flinkjobmanager和taskmanagers的指标，以及它们已被Prometheus集群正确抓取。问题是，即使我明确设置了deleteOnJobShutdown配置选项，当通过flinkcli工具取消作业时，也只会删除jobmanager的指标。有没有办法同时删除陈旧的任务管理器指标？我的配置如下:metrics.reporter.promgateway.class:org.apache.flink.metrics.prometheus.Prom

Prometheus Reporter promgateway section metrics hadoop apache-flink hadoop-yarn prometheus-pushgateway

hadoop - 如何确定执行配置单元查询所需的作业总数

有没有办法确定执行查询所需的作业总数。例如，在下面的2个查询中，连接和子查询的数量相同，但一个查询需要2个作业，而其他查询需要3个selectt1.item_dim_keyhive,t2.item_dim_keyasmonetfromext_dist_it_dim_keyt1leftouterjoin(selectdistinctitem_dim_keyfromPO_ITEM_DIM)t2ont1.item_dim_key=t2.item_dim_keywheret2.item_dim_keyisnull;WARNING:Hive-on-MRisdeprecatedinHive2and

配置单 hadoop item_dim_key item section hive mapreduce hiveql explain

145 146 147148149 150 151