草庐IT

scala - Google dataproc spark 作业失败并显示 "Node was restarted while executing a job."消息

我正在为各种Spark流作业运行多个数据处理集群。所有集群都配置为单节点。最近(大约10天前)我开始在所有集群上遇到作业失败。每个作业运行大约。3天后失败并显示相同的消息:===========CloudDataprocAgentError===========com.google.cloud.hadoop.services.agent.AgentException:Nodewasrestartedwhileexecutingajob.Thiscouldbeuser-initiatedorcausedbyComputeEnginemaintenanceevent.(TASK_FAILE

hadoop - 无法在 oozie 中运行 "sqoop job --exec"

需要一些建议我正在尝试在oozie中运行sqoop作业,但它突然被杀死并且oozie-error.log中有这个警告2018-01-2117:30:12,473WARNSqoopActionExecutor:523-SERVER[edge01.domain.com]USER[linknet]GROUP[-]TOKEN[]APP[sqoop-wf]JOB[0000006-180121122345026-oozie-link-W]ACTION[0000006-180121122345026-oozie-link-W@sqoop-node]LauncherERROR,reason:Mainc

apache-spark - 在 rapidminer : error occurred during submitting or starting the spark job 上运行 Spark

我正在使用rapidminer从大型数据集中提取规则。Radoop是hadoop生态系统的扩展,而sparkRM运算符允许进行fp-growth,从从hive检索数据到探索分析。我正在尝试:-Windows8.1-hadoop6.2-Spark1.5-hive2.1我已将spark-default-conf配置如下:#spark.masteryarn#spark.eventLog.enabledtrue#spark.eventLog.dirhdfs://namenode:8021/directory#spark.serializerorg.apache.spark.serializer

hadoop - org.apache.kylin.job.exception.ExecuteException : java. lang.NoClassDefFoundError: org/apache/hadoop/hive/serde2/typeinfo/TypeInfo 问题

我在https://issues.apache.org/jira/browse/KYLIN-2511上发现了类似的错误环境:hadoop-2.7.1hbase-1.3.2apache-hive-2.1.1-binapache-kylin-1.6.0-hbase1.x-bin我已经尝试将所有的hive库复制到kylin,但是又出现了另一个错误。org.apache.hadoop.mapred.YarnChild:Errorrunningchild:java.lang.NoClassDefFoundError:org/apache/hadoop/hive/serde2/typeinfo/T

java - (Hadoop) : reduce method is not getting executed/called while running mapreduce job

我在执行我的mapreduce作业时遇到问题。作为我的mapreduce任务的一部分,我正在使用mapreduce连接,其中包括多个map方法和单个reducer方法。我的两个map方法都被执行了,但是我的reducer没有被我的驱动程序类执行/调用。因此,最终输出只有在我的map阶段收集的数据。我是否在reduce阶段使用了错误的输入和输出值?map和reduce阶段是否存在输入输出不匹配?在这方面帮助我。这是我的代码..publicclassCompareInputTestextendsConfiguredimplementsTool{publicstaticclassFirstF

hadoop - 在哪里设置配置mapreduce.job.jvm.numtasks?

我在一本书(ProfessionalHadoopSolutions)中读到,可以通过指定作业配置mapreduce.job.jvm.numtasks来启用JVM重用。我的问题是我们需要在Driver类中设置它吗?我尝试在mapreduce.Job对象中查找此配置,但没有找到。这个API可以在我使用的Hadoop版本的其他地方被替换吗?还是我没有找对地方?我使用的是Hadoop版本1.0.3。我还尝试寻找旧属性mapred.job.reuse.jvm.num.tasks,但我找不到。谢谢! 最佳答案 您的来源指的是更新的Hadoop2

hadoop - MapReduce Job 中的排序在哪里完成?

当我们编写程序时,HadoopMapreduceJobs中的排序在哪里完成?我发现在我的计划中前进有困难。 最佳答案 排序由HadoopMapReduce框架完成。映射器输出传递给缩减器的中间(键,值)对。每个reducer都按排序顺序获取所有键。插图:假设使用了2个映射器:--mapper1outputkey_a,value_a1key_b,value_b2key_c,value_c1key_d,value_d2--mapper2outputkey_a,value_a2key_b,value_b1key_d,value_d1key

hadoop - map() 函数的调用次数与 MR Job 发出的 map 任务数之间的关系

我写了一个MR程序来估计PI(3.141592.........)如下,但是我遇到了一个问题:框架发出的map任务数是11,下面是输出(总共35行)。但我预计输出是11行。有什么我想念的吗?圆圈78534096围圈78539304圈子78540871围圈78537925圈子78537161圈子78544419围圈78537045圈子78534861圈子78545779圆圈78528890围圈78540007围圈78542686圈子78534539圈子78538255圈子78543392圈子78543191围圈78540938圈子78534882围圈78536155圈子78545739围

hadoop - Mapreduce 配置 : mapreduce. job.split.metainfo.maxsize

我想了解属性mapreduce.job.split.metainfo.maxsize及其效果。描述说:Themaximumpermissiblesizeofthesplitmetainfofile.TheJobTrackerwon'tattempttoreadsplitmetainfofilesbiggerthantheconfiguredvalue.Nolimitsifsetto-1.“拆分元信息文件”包含什么?我读过它将存储有关输入拆分的元信息。输入拆分是对block的逻辑包装以创建完整记录,对吗?拆分元信息是否包含可能在多个block中可用的实际记录的block地址?

macos - 使用 hadoop-0.19.1 在我的 osx 上运行示例应用程序时出现 java.io.IOException : Job failed!

bash-3.2$echo$JAVA_HOME/System/Library/Frameworks/JavaVM.framework/Versions/1.6/Homebash-3.2$bin/hadoopdfs-copyFromLocalconf/user/yokkom/input2bash-3.2$bin/hadoopjarhadoop-*-examples.jargrepinput2output'dfs[a-z.]+'09/04/1710:09:32INFOmapred.FileInputFormat:Totalinputpathstoprocess:1009/04/1710:0