作业队

hadoop - MapReduce 作业停止执行

我想在Hadoop集群上运行基于TeraSort的基准测试。脚本正在运行，首先它处于运行状态，但几分钟后它停留在Accepted状态和FinalStatus未定义。我想，这可能是一个资源问题，所以我像上面那样修改了yarn-site.xml。yarn.nodemanager.resource.memory-mb8192Amountofphysicalmemory,inMB,thatcanbeallocatedforcontainers.yarn.scheduler.minimum-allocation-mb2048同样的问题。您还可以在上面看到有关此过程的一些图表。当作业的进度条处于~

java - 如何通过 Yarn、Hadoop 提交 Spark scala 作业

我是Spark的新手，我正在尝试在伪分布式Hadoop系统上运行Scala作业。Hadoop2.6+Yarn+Spark1.6.1+scala2.10.6+JVM8，一切从头开始安装。我的Scala应用程序是简单的WordCount示例，我不知道错误是什么。/usr/local/sparkapps/WordCount/src/main/scala/com/mydomain/spark/wordcount/WordCount.scalapackagecom.mydomain.spark.wordcountimportorg.apache.spark.{SparkConf,SparkCon

Hadoop Spark SparkSubmit apache java scala apache-spark hadoop2

mysql - 我如何查看 sqoop 作业中的增量更新值？

下面是我创建的sqoop作业sqoopjob--createsqoop_incremental_job--import--connectjdbc:mysql://quickstart.cloudera:3306/retail_db--usernameretail_dba--passwordcloudera--tablecategories--target-dir/user/cloudera/sqoop_incremental_job_categories--incrementalappend--check-columncategory_id--last-value10-m1例如:最后一

mysql sqoop incremental section hadoop hdfs

hadoop - 使用 jar 文件在 oozie 中运行 hadoop 作业

我有一个jar文件，它有sqoop作业来读取数据并将数据写入mysql。我想使用oozie工作流运行jar，下面是运行jar的命令。yarnjaraa-datalake.jarrootrootOrdersavroaa-dl-rawzone为此我需要使用哪个操作？最佳答案在您的Sqoop作业上创建一个额外的java包装器可能不是最好的主意。您可以通过使用Sqoopaction直接从Oozie使用Sqoop.您可以在您的Java应用程序中设置您正在使用的相同参数。如果您仍想使用包装器，可以使用Javaaction为了这。但我个人认为

中运 hadoop section noreferrer jar workflow hadoop-yarn sqoop oozie

hadoop - 将作业提交到 YARN 集群的正确方法，其中作业依赖于外部 jar？

我试图了解将MR(就此而言，基于Java的Spark)作业提交到YARN集群的正确方法是什么。考虑以下情况:使用客户端机器开发代码(MR或Spark)作业，并说代码使用第3方jar。现在，当开发人员必须将作业提交到YARN集群时，将作业提交到集群的正确方法是什么，这样就不会出现未找到类的运行时异常。由于作业是作为jar文件提交的，开发人员如何“放置”第3方jar？我很难理解这一点，谁能帮助我理解这一点？最佳答案您必须使用Gradle或Maven简单地构建一个“fatjar子”，它不仅包含您编译的代码，还包含所有传递依赖项。您可以

交到 hadoop section noreferrer apache-spark hadoop-yarn hadoop2

java - Hadoop 作业制定，将 ArrayList<String> 传递给 Mapper()

尝试制定一个不同于普通字数统计示例的Hadoop作业。我的输入数据是以下形式:makePush,1964makePush,459makePush,357opAdd,2151opAdd,257opStop,135我想将它们传递给Mapper()，然后传递给Reducer()函数，但我在规范方面遇到了问题，即Mapper那么，例如，opAdd将是一个KEYIN，而257将是一个VALUEIN。随后，所有opAdd的总和将是一个KEYOUT，相关数字的总和将是VALUEOUT，这很合理，不是吗？但是，如何以编程方式实现呢？在我看来，它在理论上与字数统计示例并没有太大不同。

ArrayList amp code section opAdd java hadoop mapper

hadoop - Hadoop 作业 ID 是什么意思？

创建Hadoop作业时，会为其分配唯一ID。例如，我刚刚运行了一个ID为job_201709221002_0046的作业。似乎第一部分是某种时间戳，但它不是提交作业的日期。下划线后面的部分似乎是连续的。这个日期是什么意思？编辑:我看的这份工作是一周前的。我刚刚在2017年10月20日星期五12:22:03PDT提交了一个新的，它被分配了工作IDjob_201709221002_0047。最佳答案表示JobTracker启动的时间。在您的情况下job_201709221002_0047它是在201709221002开始的jobtr

hadoop section jobtracker 201709221002

hadoop - Yarn 上的 Spark 作业 |性能调整和优化

优化部署在基于Yarn的集群上的Spark作业的最佳方法是什么？.根据配置而不是代码级别查找更改。我的问题是典型的设计级问题，应该使用什么方法来优化在SparkStreaming或SparkSQL上开发的作业。最佳答案有一个神话，认为大数据是神奇的，一旦部署到大数据集群，您的代码就会像梦一样工作。每个新手都有相同的信念:)还有一种误解，认为网络博客上的给定配置可以很好地解决所有问题。如果不深入了解您的集群，就没有通过Hadoop优化或调整作业的捷径。但考虑到以下方法，我确信您将能够在几个小时内优化您的工作。我更喜欢应用纯科学方法

hadoop Spark section 的 apache-spark apache-spark-sql spark-streaming

hadoop - 作业运行期间可以更改 HDFS block 大小吗？自定义拆分和变体大小

我正在使用hadoop1.0.3。是否可以根据某些约束在运行时更改(增加/减少)输入拆分/block。是否有一个类可以重写以实现这种机制，如FileSplit/InputTextFormat？我们能否根据一项作业中的逻辑约束在HDFS中使用不同大小的block？最佳答案您不仅限于TextInputFormat...这完全可以根据您正在阅读的数据源进行配置。大多数示例都是以行分隔的明文，但这显然不适用于XML，例如。不，block边界在运行时不能改变，因为你的数据应该已经在磁盘上，并准备好读取。但是InputSplit依赖于给定作

自定变体 section block 同大 hadoop mapreduce hdfs

hadoop - 查找从 Oozie 协调器启动的工作流作业的堆栈跟踪

我有一个符合此规范的基本Oozie协调器:${timeout}${workflow}它在计划的标称开始时间附近启动了工作流作业。但后来，日志显示工作流作业进入了失败状态。为了检索工作信息，我运行了:ooziejob-info0000909-190113225141152-oozie-oozi-W它提供了有用的信息，包括以下异常跟踪:]Launcherexception:org.apache.spark.SparkException:Applicationapplication_1547448533998_26676finishedwithfailedstatusorg.apache.o

协调器 hadoop apache java SparkSubmit oozie oozie-coordinator oozie-workflow

149 150 151152153 154 155