草庐IT

WSA_IO_PENDING

全部标签

hadoop - mapreduce.task.io.sort.mb 的最大值是多少?

当我设置mapreduce.task.io.sort.mb=100000时。出现以下异常。java.lang.Exception:java.io.IOException:Invalid"mapreduce.task.io.sort.mb":100000mapreduce.task.io.sort.mb的最大值是多少? 最佳答案 我知道这个问题很老了,但是对于那些提出相同问题的人,您可以查看有关此值被上限的一些错误http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.1.3/bk_re

hadoop - 我如何判断我的 hadoop 配置参数 io.sort.factor 是太小还是太大?

看完http://gbif.blogspot.com/2011/01/setting-up-hadoop-cluster-part-1-manual.html我们得出结论,我们的6节点hadoop集群可以使用一些调整,而io.sort.factor似乎是一个很好的选择,因为它控制着一个重要的权衡。我们正计划进行调整和测试,但提前计划并知道会发生什么和要注意什么似乎是合理的。目前是10。我们怎么知道它导致我们合并太多?当我们提出它时,我们怎么知道它导致打开太多文件?请注意,我们无法直接关注博客日志摘录,因为它已更新为CDH3b2,我们正在研究CDH3u2,并且它们已更改...

java - Hadoop Writable和java.io.serialization有什么联系和区别?

为了实现Writable接口(interface),对象可以在Hadoop中序列化。那么HadoopWritable和java.io.serialization有什么联系和区别呢? 最佳答案 底层存储差异:Java可序列化Serializable不假定存储值的类是已知的,并使用其类标记实例,即。它写入有关对象的元数据,其中包括类名、字段名和类型及其父类(superclass)。ObjectOutputStream和ObjectInputStream对此进行了一些优化,以便在第一个之后为类的实例写入5个字节的句柄。但是带有句柄的对象序

hadoop yarn : show the pending resoure request of an application

如何获取应用程序发送给资源管理器的待处理请求数?据我所知,资源管理器可能不会立即分配请求的资源,因此请求将被挂起,对吧? 最佳答案 我正在使用Hadoop2.7.1。从资源管理器UI中,您可以看到“未完成的资源请求”。在RM用户界面中:点击正在运行的应用程序(例如application_1447644421851_0004)在申请页面中,点击尝试ID(例如appattempt_1447644421851_0004_000001)在“应用程序尝试ID”页面中,您将看到“TotalAllocatedContainers”和“TotalO

hadoop - java.io.IOException : Invalid int encoding 异常

我正在编写一个mapReduce作业来读取和处理Avrofile。输入文件是Avro输出格式为Avro当我执行Mapreduce作业时,我在reducer阶段遇到以下异常。当reducer抛出IOException时,我无法在reducer中捕获和消退它。Hue中的错误堆栈跟踪看起来java.io.IOException:Invalidintencodingatorg.apache.avro.io.DirectBinaryDecoder.readInt(DirectBinaryDecoder.java:113)atorg.apache.avro.io.ValidatingDecoder

hadoop - IO异常 : Filesystem closed exception when running oozie workflow

我们在oozie中运行一个工作流。它包含两个操作:第一个是在hdfs中生成文件的mapreduce作业,第二个是将文件中的数据复制到数据库的作业。两个部分都成功完成,但oozie在最后抛出一个异常,将其标记为失败的过程。这是异常(exception)情况:2014-05-2017:29:32,242ERRORorg.apache.hadoop.security.UserGroupInformation:PriviledgedActionExceptionas:lpinsight(auth:SIMPLE)cause:java.io.IOException:Filesystemclosed

java - Apache Parquet 无法读取页脚 : java. io.IOException:

我有一个在ClouderaVM上运行的SPARK项目。在我的项目中,我从parquet文件加载数据,然后处理这些数据。一切正常,但问题是我需要在学校集群上运行这个项目,但在这部分代码中读取Parquet文件时遇到问题:DataFrameschemaRDF=sqlContext.parquetFile("/var/tmp/graphs/sib200.parquet");我收到以下错误:Couldnotreadfooter:java.io.IOException:CouldnotreadfooterforfileFileStatus{path=file:/var/tmp/graphs/si

scala - Spark 在大型洗牌作业上失败,出现 java.io.IOException : Filesystem closed

我经常发现spark在处理大型作业时失败,并出现无用的无意义异常。工作日志看起来正常,没有错误,但它们的状态为“KILLED”。这对于大型随机播放非常常见,因此像.distinct这样的操作。问题是,我如何诊断出了什么问题,理想情况下,我该如何修复它?考虑到这些操作中有很多是幺半群的,我一直在通过将数据分成例如10个block,在每个block上运行应用程序,然后在所有结果输出上运行应用程序来解决这个问题。换句话说-元映射减少。14/06/0412:56:09ERRORclient.AppClient$ClientActor:Masterremovedourapplication:FA

hadoop - Oozie 作业错误 - java.io.IOException : configuration is not specified

我已经为配置单元脚本创建了一个oozie工作流来将数据加载到表中。我的workflow.xml包含-${jobTracker}${nameNode}${workflowRoot}/hive-site.xmloozie.hive.defaults${workflowRoot}/hive-site.xmlload_data.hqlHivefailed,errormessage[${wf:errorMessage(wf:lastErrorNode())}]我的job.properties文件包含-nameNode=hdfs://localhost:8020jobTracker=localho

java - Parquet .io.ParquetDecodingException : Can not read value at 0 in block -1 in file

我已经使用saveAsTable方法在Hive中保存了一个远程数据库表,现在当我尝试使用CLI命令select*fromtable_name访问Hive表数据时,它给出了我的错误如下:2016-06-1510:49:36,866WARN[HiveServer2-Handler-Pool:Thread-96]:thrift.ThriftCLIService(ThriftCLIService.java:FetchResults(681))-Errorfetchingresults:org.apache.hive.service.cli.HiveSQLException:java.io.IO