Job_草庐IT

performance - Mapreduce Job - 完成时间太长

我们已经编写了一个mapreduce作业来处理日志文件。到目前为止，我们有大约52GB的输入文件，但处理数据大约需要一个小时。它默认只创建一个reducer作业。我们经常会看到reduce任务中出现超时错误，然后它会重新启动并完成.以下是成功完成工作的统计数据。请告诉我们如何改进性能。FileSystemCountersFILE:Numberofbytesread=876100387FILE:Numberofbyteswritten=1767603407FILE:Numberofreadoperations=0FILE:Numberoflargereadoperations=0FILE

hadoop - 在 spark 上执行 hive 查询 - java.lang.NoClassDefFoundError org/apache/hive/spark/client/Job

我试图让HiveonSpark正常工作，但它似乎没有加载hive-exec-2.0.1.jar。我可以让Hiveonmr工作得很好。我正在使用Hive2.0.1和Spark1.6.1。遵循了HiveonSpark教程。我在hive-site.xml上设置了所有必要的属性，将sparkassemblyjar链接到hivelib文件夹中，我已经设置了所有环境变量(SPARK_HOME等)。我启动了Sparkmaster和worker。还以DEBUG级别启动了hiveserver2。尝试运行一个简单的查询“selectcount(*)...”，据我在配置单元日志中看到的那样，它执行带有所有必

spark NoClassDefFoundError java URLClassLoader ClassLoader hadoop apache-spark hive

hadoop - java IOException : Write end dead during a hadoop job 异常

我有一个map-onlyhadoop作业，它在工作期间抛出几个IO异常:1)java.io.IOException:写结束2)java.io.IOException:管道关闭它设法完成了它的工作，但有异常(exception)让我担心。我做错了什么吗？几乎相同的工作每天都在另一个小20倍的数据集上工作，并且没有抛出任何异常。作业由Googledataproc运行。我正在使用的配置文件:#!/bin/bashhadoopjar/usr/lib/hadoop-mapreduce/hadoop-streaming.jar\-Dmapreduce.output.fileoutputformat

hadoop IOException java at google-cloud-dataproc

hadoop - Ended Job = job_local644049657_0014 with errors Error during job, 获取调试信息

如何找到日志文件请指导我已经检查了资源管理器的url。但是我没有找到任何日志文件这是完整的错误QueryID=hadoop_20170325120040_d54d136a-1904-4af9-8f8d-4167343db072Totaljobs=1LaunchingJob1outof1Numberofreducetasksissetto0sincethere'snoreduceoperatorJobrunningin-process(localHadoop)2017-03-2512:00:42,954Stage-0map=0%,reduce=0%EndedJob=job_local64

644049657 job_local section gt lt hadoop mapreduce hadoop2

scala - Google dataproc spark 作业失败并显示 "Node was restarted while executing a job."消息

我正在为各种Spark流作业运行多个数据处理集群。所有集群都配置为单节点。最近(大约10天前)我开始在所有集群上遇到作业失败。每个作业运行大约。3天后失败并显示相同的消息:===========CloudDataprocAgentError===========com.google.cloud.hadoop.services.agent.AgentException:Nodewasrestartedwhileexecutingajob.Thiscouldbeuser-initiatedorcausedbyComputeEnginemaintenanceevent.(TASK_FAILE

amp restarted google java com scala hadoop apache-spark spark-streaming google-cloud-dataproc

hadoop - 无法在 oozie 中运行 "sqoop job --exec"

需要一些建议我正在尝试在oozie中运行sqoop作业，但它突然被杀死并且oozie-error.log中有这个警告2018-01-2117:30:12,473WARNSqoopActionExecutor:523-SERVER[edge01.domain.com]USER[linknet]GROUP[-]TOKEN[]APP[sqoop-wf]JOB[0000006-180121122345026-oozie-link-W]ACTION[0000006-180121122345026-oozie-link-W@sqoop-node]LauncherERROR,reason:Mainc

中运 amp sqoop oozie gt hadoop

apache-spark - 在 rapidminer : error occurred during submitting or starting the spark job 上运行 Spark

我正在使用rapidminer从大型数据集中提取规则。Radoop是hadoop生态系统的扩展，而sparkRM运算符允许进行fp-growth，从从hive检索数据到探索分析。我正在尝试:-Windows8.1-hadoop6.2-Spark1.5-hive2.1我已将spark-default-conf配置如下:#spark.masteryarn#spark.eventLog.enabledtrue#spark.eventLog.dirhdfs://namenode:8021/directory#spark.serializerorg.apache.spark.serializer

spark apache-spark gt lt property hadoop hadoop-yarn rapidminer resourcemanager

hadoop - org.apache.kylin.job.exception.ExecuteException : java. lang.NoClassDefFoundError: org/apache/hadoop/hive/serde2/typeinfo/TypeInfo 问题

我在https://issues.apache.org/jira/browse/KYLIN-2511上发现了类似的错误环境:hadoop-2.7.1hbase-1.3.2apache-hive-2.1.1-binapache-kylin-1.6.0-hbase1.x-bin我已经尝试将所有的hive库复制到kylin，但是又出现了另一个错误。org.apache.hadoop.mapred.YarnChild:Errorrunningchild:java.lang.NoClassDefFoundError:org/apache/hadoop/hive/serde2/typeinfo/T

hadoop apache section hive kylin

java - (Hadoop) : reduce method is not getting executed/called while running mapreduce job

我在执行我的mapreduce作业时遇到问题。作为我的mapreduce任务的一部分，我正在使用mapreduce连接，其中包括多个map方法和单个reducer方法。我的两个map方法都被执行了，但是我的reducer没有被我的驱动程序类执行/调用。因此，最终输出只有在我的map阶段收集的数据。我是否在reduce阶段使用了错误的输入和输出值？map和reduce阶段是否存在输入输出不匹配？在这方面帮助我。这是我的代码..publicclassCompareInputTestextendsConfiguredimplementsTool{publicstaticclassFirstF

mapreduce executed Text class public java hadoop reduce

hadoop - 在哪里设置配置mapreduce.job.jvm.numtasks？

我在一本书(ProfessionalHadoopSolutions)中读到，可以通过指定作业配置mapreduce.job.jvm.numtasks来启用JVM重用。我的问题是我们需要在Driver类中设置它吗？我尝试在mapreduce.Job对象中查找此配置，但没有找到。这个API可以在我使用的Hadoop版本的其他地方被替换吗？还是我没有找对地方？我使用的是Hadoop版本1.0.3。我还尝试寻找旧属性mapred.job.reuse.jvm.num.tasks，但我找不到。谢谢! 最佳答案您的来源指的是更新的Hadoop2

mapreduce numtasks code section hadoop