草庐IT

hadoop - 如何更改在 yarn 上运行的 spark 作业的 java.io.tmpdir

如何为在YARN上运行的Hadoop3集群更改java.io.tmpdir文件夹?默认情况下,它会得到类似于/tmp/***的内容,但我的/tmp文件系统对于YARN作业将写入的所有内容来说都太小了。有办法改变吗?我也在core-site.xml中设置了hadoop.tmp.dir,不过貌似,并没有真正用到。 最佳答案 也许它是Whatshouldbehadoop.tmp.dir?的副本.此外,遍历/etc/hadoop/conf中的所有.conf并搜索tmp,看看是否有任何内容是硬编码的。还要指定:您是否看到(任何)文件在您指定的

java - Hadoop,mapreduce java.io.IOException : Type mismatch in value from map: expected org. apache.hadoop.io.Text,收到 org.apache.hadoop.io.IntWritable

我正在尝试使用两个映射器和一个缩减器。我收到以下错误:我想组合几个键,我希望得到基于每个键的求和输出。我不知道哪一部分是错的。如果您能为我的代码找到一些错误,我们将不胜感激。java.io.IOException:Typemismatchinvaluefrommap:expectedorg.apache.hadoop.io.Text,recievedorg.apache.hadoop.io.IntWritableatorg.apache.hadoop.mapred.MapTask$MapOutputBuffer.collect(MapTask.java:896)atorg.apache

java.lang.Exception : java. io.IOException:设置 hadoop 和 hbase 时值类错误

我是Hadoop和Hbase的新手,我正在尝试让它们协同工作。我构建了一个.java并获得了一个.jar存档,没有任何错误。无论如何,在启动程序时出现此错误:java.lang.Exception:java.io.IOException:wrongvalueclass:classorg.apache.hadoop.hbase.client.Putisnotclassorg.apache.hadoop.io.IntWritableatorg.apache.hadoop.mapred.LocalJobRunner$Job.runTasks(LocalJobRunner.java:462)a

exception - Hadoop:任务跟踪器不会启动 java.io.IOException

我安装了Hadoop,格式化了HDFS,运行了bin/start-all.sh,运行了bin/stop-all.sh,没有出现任何问题。现在每次我运行bin/start-all.sh时,TaskTracker都无法启动,我在TaskTracker日志中得到以下条目。2012-03-2721:22:03,842ERRORorg.apache.hadoop.mapred.TaskTracker:Cannotstarttasktrackerbecausejava.io.IOException:Calltolocalhost/127.0.0.1:9001failedonlocalexcepti

json - Hadoop:无法运行 mapreduce 程序 ..java.io.IOException:error=12

我正在尝试在hadoop中运行mapreduce程序。基本上它接受一个文本文件作为输入,其中每一行都是一个json文本。我使用简单的json在我的映射器中解析这些数据,而reducer做一些其他的事情。我在hadoop/lib文件夹中包含了简单的jsonjar文件。这是下面的代码packageorg.myorg;importjava.io.IOException;importjava.util.Iterator;importjava.util.*;importorg.json.simple.JSONArray;importorg.json.simple.JSONObject;impor

hadoop - ClassCastException : org. apache.hadoop.io.Text 无法在 K-Means 聚类 Mahout 中转换为 org.apache.hadoop.io.IntWritable

我正在使用Mahout命令进行K均值聚类,输入文件是“KMeansData.csv”,数据是这种格式,John,M,30,Pepsi,USJack,M,25,Coke,USDavid,M,34,Pepsi,UKTed,M,37,Limca,CANRobert,M,23,Limca,USAdrian,M,31,Pepsi,USCraig,M,37,Coke,UKKatie,F,23,Limca,UKNancy,F,32,Pepsi,UK我能够成功完成以下步骤,它们是,./mahoutseqdirectory-i/root/Mahout/Clustering/-o/root/Mahout/

hadoop - Hive 失败,出现 java.io.IOException(拆分超出最大块位置 .... 拆分大小 : 45 maxsize: 10)

配置单元确实需要处理45个文件。每个大小约为1GB。映射器执行完成100%后,配置单元失败并显示上述错误消息。Driverreturned:1.Errors:OKHivehistoryfile=/tmp/hue/hive_job_log_hue_201308221004_1738621649.txtTotalMapReducejobs=3LaunchingJob1outof3Numberofreducetasksissetto0sincethere'snoreduceoperatorStartingJob=job_1376898282169_0441,TrackingURL=http:

hadoop - 获取异常 WARN org.apache.hadoop.streaming.PipeMapRed : java. io.IOException: Broken pipe

出于某些调试目的,我正在现有的工作R脚本中添加打印语句。print("Hello")我在使用Hadoop流式处理执行此代码时收到Brokenpipe异常。如果我再次删除此打印件,它会起作用,对我来说听起来很奇怪!在编辑Rscript时,我正在通过窗口gitbash使用vi。您能否提出解决方案。 最佳答案 如果您的Hadoop集群由Linux节点组成,并且您提交的脚本是在windows或windowgitbash中编辑的,它将无法运行并抛出误导性异常。只需使用vi或emacs在linux中编辑文件。或者使用do2unix命令将文件从d

hadoop - java.io.IOException : invalid distance too far back in hadoop mapreduce 异常

我在我的一些mapreduce作业中遇到了这个奇怪的错误java.io.IOException:invaliddistancetoofarbackatorg.apache.hadoop.io.compress.zlib.ZlibDecompressor.inflateBytesDirect(NativeMethod)atorg.apache.hadoop.io.compress.zlib.ZlibDecompressor.decompress(ZlibDecompressor.java:221)atorg.apache.hadoop.io.compress.DecompressorSt

java - 在 hadoop.io api 的可写类中使用 readFields()

我是map-reduce的新手。我想知道当我们在hadoop中实现自定义数据类型时,readfields和write方法有什么用?例如,publicclassPoint3DimplementsWritable{publicfloatx;publicfloaty;publicfloatz;publicPoint3D(floatx,floaty,floatz){this.x=x;this.y=y;this.z=z;}publicPoint3D(){this(0.0f,0.0f,0.0f);}publicvoidwrite(DataOutputout)throwsIOException{ou