草庐IT

Elastic-Job

全部标签

hadoop - Pig 如何从第一个 Job 和它的下一个 Job 传递数据

众所周知,ApachePig是一种数据流语言。如果我编写了一个Pig脚本并且Pig决定拆分并运行两个或多个作业来执行手头的任务,那么Pig如何存储它从作业1传递到作业2的数据???!!我读了Pig文档,上面写着:-“Pig分配固定数量的内存来存储包,并在达到内存限制时立即溢出到磁盘。这与Hadoop决定何时溢出组合器累积的数据的方式非常相似。"(网址:http://pig.apache.org/docs/r0.9.1/perf.html#memory-management)那么Pig是否有一个写入器,它将中间作业的输出存储在内存/RAM中以获得更好的性能(如果需要,则溢出到磁盘)然后如

java - Hadoop mapreduce-java.io.IOException : Job failed

我在尝试执行hadoopmapreduce程序时遇到以下异常。java.io.IOException:Jobfailed!atorg.apache.hadoop.mapred.JobClient.runJob(JobClient.java:865)atcom.vasa.books.BookDriver.main(BookDriver.java:37)BookDriver.javapackagecom.vasa.books;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.ap

java - Hadoop MapReduce 错误 : Mkdirs failed to create file; job failed

我正在尝试在Hadoop上执行C4.5算法。但是,我遇到了问题并且陷入了以下错误。我拥有所有权限。谁能帮帮我?Java.lang.Exception:java.io.IOException:Mkdirsfailedtocreatefile:/usr/local/hadoop/1/output10/_temporary/0/_temporary/attempt_local960306821_0001_r_000000_0(exists=false,cwd=file:/home/brina/workspace/C4.5Hadoop)atorg.apache.hadoop.mapred.Lo

java - 如何处理 URISyntaxException : Illegal character in path in Hadoop Map Reduce job?

我正在使用Hadoop学习Map-reduce,我正在运行这个命令:hadoopjar/usr/lib/hadoop/share/hadoop/tools/lib/hadoop-streaming-2.7.2.jar-mappermapper.py-reducerreducer.py-filemapper.py-filereducer.py-输入sales_data-输出salesout我包括了我得到的完整错误输出:16/04/1500:39:26WARNstreaming.StreamJob:-fileoptionisdeprecated,pleaseusegenericoption

performance - Mapreduce Job - 完成时间太长

我们已经编写了一个mapreduce作业来处理日志文件。到目前为止,我们有大约52GB的输入文件,但处理数据大约需要一个小时。它默认只创建一个reducer作业。我们经常会看到reduce任务中出现超时错误,然后它会重新启动并完成.以下是成功完成工作的统计数据。请告诉我们如何改进性能。FileSystemCountersFILE:Numberofbytesread=876100387FILE:Numberofbyteswritten=1767603407FILE:Numberofreadoperations=0FILE:Numberoflargereadoperations=0FILE

hadoop - 在 spark 上执行 hive 查询 - java.lang.NoClassDefFoundError org/apache/hive/spark/client/Job

我试图让HiveonSpark正常工作,但它似乎没有加载hive-exec-2.0.1.jar。我可以让Hiveonmr工作得很好。我正在使用Hive2.0.1和Spark1.6.1。遵循了HiveonSpark教程。我在hive-site.xml上设置了所有必要的属性,将sparkassemblyjar链接到hivelib文件夹中,我已经设置了所有环境变量(SPARK_HOME等)。我启动了Sparkmaster和worker。还以DEBUG级别启动了hiveserver2。尝试运行一个简单的查询“selectcount(*)...”,据我在配置单元日志中看到的那样,它执行带有所有必

hadoop - java IOException : Write end dead during a hadoop job 异常

我有一个map-onlyhadoop作业,它在工作期间抛出几个IO异常:1)java.io.IOException:写结束2)java.io.IOException:管道关闭它设法完成了它的工作,但有异常(exception)让我担心。我做错了什么吗?几乎相同的工作每天都在另一个小20倍的数据集上工作,并且没有抛出任何异常。作业由Googledataproc运行。我正在使用的配置文件:#!/bin/bashhadoopjar/usr/lib/hadoop-mapreduce/hadoop-streaming.jar\-Dmapreduce.output.fileoutputformat

hadoop - Ended Job = job_local644049657_0014 with errors Error during job, 获取调试信息

如何找到日志文件请指导我已经检查了资源管理器的url。但是我没有找到任何日志文件这是完整的错误QueryID=hadoop_20170325120040_d54d136a-1904-4af9-8f8d-4167343db072Totaljobs=1LaunchingJob1outof1Numberofreducetasksissetto0sincethere'snoreduceoperatorJobrunningin-process(localHadoop)2017-03-2512:00:42,954Stage-0map=0%,reduce=0%EndedJob=job_local64

scala - Google dataproc spark 作业失败并显示 "Node was restarted while executing a job."消息

我正在为各种Spark流作业运行多个数据处理集群。所有集群都配置为单节点。最近(大约10天前)我开始在所有集群上遇到作业失败。每个作业运行大约。3天后失败并显示相同的消息:===========CloudDataprocAgentError===========com.google.cloud.hadoop.services.agent.AgentException:Nodewasrestartedwhileexecutingajob.Thiscouldbeuser-initiatedorcausedbyComputeEnginemaintenanceevent.(TASK_FAILE

hadoop - 无法在 oozie 中运行 "sqoop job --exec"

需要一些建议我正在尝试在oozie中运行sqoop作业,但它突然被杀死并且oozie-error.log中有这个警告2018-01-2117:30:12,473WARNSqoopActionExecutor:523-SERVER[edge01.domain.com]USER[linknet]GROUP[-]TOKEN[]APP[sqoop-wf]JOB[0000006-180121122345026-oozie-link-W]ACTION[0000006-180121122345026-oozie-link-W@sqoop-node]LauncherERROR,reason:Mainc