草庐IT

作业队

全部标签

hadoop - MapReduce 作业停止执行

我想在Hadoop集群上运行基于TeraSort的基准测试。脚本正在运行,首先它处于运行状态,但几分钟后它停留在Accepted状态和FinalStatus未定义。我想,这可能是一个资源问题,所以我像上面那样修改了yarn-site.xml。yarn.nodemanager.resource.memory-mb8192Amountofphysicalmemory,inMB,thatcanbeallocatedforcontainers.yarn.scheduler.minimum-allocation-mb2048同样的问题。您还可以在上面看到有关此过程的一些图表。当作业的进度条处于~

java - 如何通过 Yarn、Hadoop 提交 Spark scala 作业

我是Spark的新手,我正在尝试在伪分布式Hadoop系统上运行Scala作业。Hadoop2.6+Yarn+Spark1.6.1+scala2.10.6+JVM8,一切从头开始安装。我的Scala应用程序是简单的WordCount示例,我不知道错误是什么。/usr/local/sparkapps/WordCount/src/main/scala/com/mydomain/spark/wordcount/WordCount.scalapackagecom.mydomain.spark.wordcountimportorg.apache.spark.{SparkConf,SparkCon

mysql - 我如何查看 sqoop 作业中的增量更新值?

下面是我创建的sqoop作业sqoopjob--createsqoop_incremental_job--import--connectjdbc:mysql://quickstart.cloudera:3306/retail_db--usernameretail_dba--passwordcloudera--tablecategories--target-dir/user/cloudera/sqoop_incremental_job_categories--incrementalappend--check-columncategory_id--last-value10-m1例如:最后一

hadoop - 使用 jar 文件在 oozie 中运行 hadoop 作业

我有一个jar文件,它有sqoop作业来读取数据并将数据写入mysql。我想使用oozie工作流运行jar,下面是运行jar的命令。yarnjaraa-datalake.jarrootrootOrdersavroaa-dl-rawzone为此我需要使用哪个操作? 最佳答案 在您的Sqoop作业上创建一个额外的java包装器可能不是最好的主意。您可以通过使用Sqoopaction直接从Oozie使用Sqoop.您可以在您的Java应用程序中设置您正在使用的相同参数。如果您仍想使用包装器,可以使用Javaaction为了这。但我个人认为

hadoop - 将作业提交到 YARN 集群的正确方法,其中作业依赖于外部 jar?

我试图了解将MR(就此而言,基于Java的Spark)作业提交到YARN集群的正确方法是什么。考虑以下情况:使用客户端机器开发代码(MR或Spark)作业,并说代码使用第3方jar。现在,当开发人员必须将作业提交到YARN集群时,将作业提交到集群的正确方法是什么,这样就不会出现未找到类的运行时异常。由于作业是作为jar文件提交的,开发人员如何“放置”第3方jar?我很难理解这一点,谁能帮助我理解这一点? 最佳答案 您必须使用Gradle或Maven简单地构建一个“fatjar子”,它不仅包含您编译的代码,还包含所有传递依赖项。您可以

java - Hadoop 作业制定,将 ArrayList<String> 传递给 Mapper()

尝试制定一个不同于普通字数统计示例的Hadoop作业。我的输入数据是以下形式:makePush,1964makePush,459makePush,357opAdd,2151opAdd,257opStop,135我想将它们传递给Mapper(),然后传递给Reducer()函数,但我在规范方面遇到了问题,即Mapper那么,例如,opAdd将是一个KEYIN,而257将是一个VALUEIN。随后,所有opAdd的总和将是一个KEYOUT,相关数字的总和将是VALUEOUT,这很合理,不是吗?但是,如何以编程方式实现呢?在我看来,它在理论上与字数统计示例并没有太大不同。

hadoop - Hadoop 作业 ID 是什么意思?

创建Hadoop作业时,会为其分配唯一ID。例如,我刚刚运行了一个ID为job_201709221002_0046的作业。似乎第一部分是某种时间戳,但它不是提交作业的日期。下划线后面的部分似乎是连续的。这个日期是什么意思?编辑:我看的这份工作是一周前的。我刚刚在2017年10月20日星期五12:22:03PDT提交了一个新的,它被分配了工作IDjob_201709221002_0047。 最佳答案 表示JobTracker启动的时间。在您的情况下job_201709221002_0047它是在201709221002开始的jobtr

hadoop - Yarn 上的 Spark 作业 |性能调整和优化

优化部署在基于Yarn的集群上的Spark作业的最佳方法是什么?.根据配置而不是代码级别查找更改。我的问题是典型的设计级问题,应该使用什么方法来优化在SparkStreaming或SparkSQL上开发的作业。 最佳答案 有一个神话,认为大数据是神奇的,一旦部署到大数据集群,您的代码就会像梦一样工作。每个新手都有相同的信念:)还有一种误解,认为网络博客上的给定配置可以很好地解决所有问题。如果不深入了解您的集群,就没有通过Hadoop优化或调整作业的捷径。但考虑到以下方法,我确信您将能够在几个小时内优化您的工作。我更喜欢应用纯科学方法

hadoop - 作业运行期间可以更改 HDFS block 大小吗?自定义拆分和变体大小

我正在使用hadoop1.0.3。是否可以根据某些约束在运行时更改(增加/减少)输入拆分/block。是否有一个类可以重写以实现这种机制,如FileSplit/InputTextFormat?我们能否根据一项作业中的逻辑约束在HDFS中使用不同大小的block? 最佳答案 您不仅限于TextInputFormat...这完全可以根据您正在阅读的数据源进行配置。大多数示例都是以行分隔的明文,但这显然不适用于XML,例如。不,block边界在运行时不能改变,因为你的数据应该已经在磁盘上,并准备好读取。但是InputSplit依赖于给定作

hadoop - 查找从 Oozie 协调器启动的工作流作业的堆栈跟踪

我有一个符合此规范的基本Oozie协调器:${timeout}${workflow}它在计划的标称开始时间附近启动了工作流作业。但后来,日志显示工作流作业进入了失败状态。为了检索工作信息,我运行了:ooziejob-info0000909-190113225141152-oozie-oozi-W它提供了有用的信息,包括以下异常跟踪:]Launcherexception:org.apache.spark.SparkException:Applicationapplication_1547448533998_26676finishedwithfailedstatusorg.apache.o