草庐IT

JOB_TOO_BIG

全部标签

hadoop - Pig 如何从第一个 Job 和它的下一个 Job 传递数据

众所周知,ApachePig是一种数据流语言。如果我编写了一个Pig脚本并且Pig决定拆分并运行两个或多个作业来执行手头的任务,那么Pig如何存储它从作业1传递到作业2的数据???!!我读了Pig文档,上面写着:-“Pig分配固定数量的内存来存储包,并在达到内存限制时立即溢出到磁盘。这与Hadoop决定何时溢出组合器累积的数据的方式非常相似。"(网址:http://pig.apache.org/docs/r0.9.1/perf.html#memory-management)那么Pig是否有一个写入器,它将中间作业的输出存储在内存/RAM中以获得更好的性能(如果需要,则溢出到磁盘)然后如

java - Hadoop mapreduce-java.io.IOException : Job failed

我在尝试执行hadoopmapreduce程序时遇到以下异常。java.io.IOException:Jobfailed!atorg.apache.hadoop.mapred.JobClient.runJob(JobClient.java:865)atcom.vasa.books.BookDriver.main(BookDriver.java:37)BookDriver.javapackagecom.vasa.books;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.ap

java - Hadoop MapReduce 错误 : Mkdirs failed to create file; job failed

我正在尝试在Hadoop上执行C4.5算法。但是,我遇到了问题并且陷入了以下错误。我拥有所有权限。谁能帮帮我?Java.lang.Exception:java.io.IOException:Mkdirsfailedtocreatefile:/usr/local/hadoop/1/output10/_temporary/0/_temporary/attempt_local960306821_0001_r_000000_0(exists=false,cwd=file:/home/brina/workspace/C4.5Hadoop)atorg.apache.hadoop.mapred.Lo

java - 如何处理 URISyntaxException : Illegal character in path in Hadoop Map Reduce job?

我正在使用Hadoop学习Map-reduce,我正在运行这个命令:hadoopjar/usr/lib/hadoop/share/hadoop/tools/lib/hadoop-streaming-2.7.2.jar-mappermapper.py-reducerreducer.py-filemapper.py-filereducer.py-输入sales_data-输出salesout我包括了我得到的完整错误输出:16/04/1500:39:26WARNstreaming.StreamJob:-fileoptionisdeprecated,pleaseusegenericoption

performance - Mapreduce Job - 完成时间太长

我们已经编写了一个mapreduce作业来处理日志文件。到目前为止,我们有大约52GB的输入文件,但处理数据大约需要一个小时。它默认只创建一个reducer作业。我们经常会看到reduce任务中出现超时错误,然后它会重新启动并完成.以下是成功完成工作的统计数据。请告诉我们如何改进性能。FileSystemCountersFILE:Numberofbytesread=876100387FILE:Numberofbyteswritten=1767603407FILE:Numberofreadoperations=0FILE:Numberoflargereadoperations=0FILE

hadoop - 将作业从 talend DI 导出到 talend big data

我是talendETL工具的新手。我已经在talendDI(数据集成)工具中创建了作业工作流,现在我想使用hadoop切换/实现相同的作业,因为我正在使用talend大数据工具。谁能解释我如何实现这一目标。TalendDI到Talend大数据集成。 最佳答案 根据我的理解,DI和大数据Talend工具的库是不同的,可能是因为这种导入是不可能的。 关于hadoop-将作业从talendDI导出到talendbigdata,我们在StackOverflow上找到一个类似的问题:

hadoop - 在 spark 上执行 hive 查询 - java.lang.NoClassDefFoundError org/apache/hive/spark/client/Job

我试图让HiveonSpark正常工作,但它似乎没有加载hive-exec-2.0.1.jar。我可以让Hiveonmr工作得很好。我正在使用Hive2.0.1和Spark1.6.1。遵循了HiveonSpark教程。我在hive-site.xml上设置了所有必要的属性,将sparkassemblyjar链接到hivelib文件夹中,我已经设置了所有环境变量(SPARK_HOME等)。我启动了Sparkmaster和worker。还以DEBUG级别启动了hiveserver2。尝试运行一个简单的查询“selectcount(*)...”,据我在配置单元日志中看到的那样,它执行带有所有必

hadoop - 错误 : value too long for type character(50)

我已经在HDFS中创建了外部表,在HAWQ中创建了内部表。我正在从SQLServer获取数据,使用talend进行etl处理流程就像SQLSERVER->外部表(PXFHAWQ)->内部表(HAWQ)在运行作业时出现以下错误错误:类型字符的值太长(50)(seg0slice1phds01.aa.com:40000pid=297176)详细信息:外部表podetails_stg0,pxf://PHD-HA/test/PoDetails_stg0.csv?profile=HdfsTextSimple的第17行,StockDes列我应该如何解决这个错误? 最佳答案

hadoop - java IOException : Write end dead during a hadoop job 异常

我有一个map-onlyhadoop作业,它在工作期间抛出几个IO异常:1)java.io.IOException:写结束2)java.io.IOException:管道关闭它设法完成了它的工作,但有异常(exception)让我担心。我做错了什么吗?几乎相同的工作每天都在另一个小20倍的数据集上工作,并且没有抛出任何异常。作业由Googledataproc运行。我正在使用的配置文件:#!/bin/bashhadoopjar/usr/lib/hadoop-mapreduce/hadoop-streaming.jar\-Dmapreduce.output.fileoutputformat

hadoop - Ended Job = job_local644049657_0014 with errors Error during job, 获取调试信息

如何找到日志文件请指导我已经检查了资源管理器的url。但是我没有找到任何日志文件这是完整的错误QueryID=hadoop_20170325120040_d54d136a-1904-4af9-8f8d-4167343db072Totaljobs=1LaunchingJob1outof1Numberofreducetasksissetto0sincethere'snoreduceoperatorJobrunningin-process(localHadoop)2017-03-2512:00:42,954Stage-0map=0%,reduce=0%EndedJob=job_local64