job_local

hadoop - 如何覆盖 mapred-site.xml 中的 mapred.local.dir？

我没有对mapred-site.xml中mapred.local.dir指定的目录的写入权限(也没有对mapred-site.xml的写入权限)有没有一种方法可以在每个session基础上覆盖此属性用于我的Hive作业？最佳答案您可以尝试通过执行以下查询在Hivesession中设置它:setmapred.local.dir='somedir';这应该有效。另一种选择是更改Hive引用的mapred-site.xml。确保配置未标记为最终配置。在这种情况下，它不能被覆盖。关于had

hadoop - 与 HDFS 通信 : Exception in thread "main" java. io.IOException : Failed on local exception: java. io.EOFException

publicstaticvoidmain(String[]args)throwsIOException{Configurationconf=newConfiguration();conf.addResource(newPath("/home/myname/hadoop-1.2.1/conf/core-site.xml"));conf.addResource(newPath("/home/myname/hadoop-1.2.1/conf/hdfs-site.xml"));System.out.println("AttemptinginitializationofFileSystem");

java EOFException hadoop apache

hadoop - Mesos 和 Hadoop : How to get the running job input data size?

我在Mesos0.14上运行Hadoop1.2.1。我的目标是记录输入数据大小、运行时间、cpu使用情况、内存使用情况等，以便稍后进行优化。除了数据大小之外，所有这些都是使用Sigar获得的。有什么方法可以获取正在运行的任何作业的输入数据大小？例如，当我运行hadoop示例的terasort时，我需要在作业实际运行之前获取teragen生成的数据大小。如果我正在运行Wordcountexample，我需要获取wordcount输入文件大小。我需要自动获取数据大小，因为我无法知道稍后将在该框架内运行什么作业。我正在使用Java编写一些mesos库代码。最好，我想在MesosExecuto

running hadoop section strong mapreduce mesos

hadoop - 通过 Oozie HDP 2.1 的作业不创建 job.splitmetainfo

当尝试执行一个sqoop作业时，我的Hadoop程序在-jarFiles参数中作为jar文件传递，执行失败并出现以下错误。似乎没有任何解决方案。具有相同Hadoop用户的其他作业正在成功执行。org.apache.hadoop.yarn.exceptions.YarnRuntimeException:java.io.FileNotFoundException:Filedoesnotexist:hdfs://sandbox.hortonworks.com:8020/user/root/.staging/job_1423050964699_0003/job.splitmetainfoa

splitmetainfo hadoop apache java mapreduce sqoop oozie hortonworks-data-platform

python - 从 s3 ://to local(hadoop) file system 复制文件时出错

我正在尝试使用python将文件从s3复制到hadoop文件系统。我收到以下错误:cp:`foo/ds=2015-02-13/ip-d1b-request-2015-02-13_10-00_10-09.txt.gz':Nosuchfileordirectory我最近正在迁移最新的hadoop版本(2.4.0)。在版本(0.20)中工作正常。为什么我在2.4.0版本中会出现此错误？在Hadoop版本0.20中hadoop@ip-10-76-38-167:~$/home/hadoop/bin/hadoopfs-cps3://test.com/foo/ds=2015-02-13/ip-d1b

时出 python 2015 hadoop 1b-request amazon-s3 filesystems hdfs

hadoop - Hive INSERT OVERWRITE LOCAL DIRECTORY 不起作用

我正在使用Cloudera5.3.3Hive。我正在尝试执行以下查询，shell>pwd/homeshell>mkdirtest;chmod777test;shell>ls-aldrwxrwxrwx3jaijai4096Oct506:45testhivequery>INSERTOVERWRITELOCALDIRECTORY'/home/test/test1'SELECT*FROMsome_table;当我从hive客户端执行时，它工作正常，并在/home/test文件夹中创建输出文件，但如果我从执行相同的操作，它不会创建文件直线。从运行Hive服务器2的计算机通过beeline连接到H

DIRECTORY OVERWRITE test strong section hadoop hive hdfs cloudera

java - 如果 mapred.job.reuse.jvm.num.tasks 设置为 -1，则 hadoop 集群中每个节点启动了多少个 jvm

我最近看到了hadoop的mapred.job.reuse.jvm.num.tasks属性。默认情况下，它设置为+1，这意味着每个map/reduce任务都会启动一个新的JVM。相反，如果它设置为-1，那么一个jvm可以被无限数量的任务使用。在这种情况下，任务依次执行以使用相同的JVM。因此，当该属性设置为+1时，每个节点启动的JVM数量等于任务数量。没有混淆....但是，我的具体问题是，如果我将mapred.job.reuse.jvm.num.tasks设置为-1，每个节点将启动多少个JVM。每个节点只有一个JVM吗？还是别的？最佳答案

jvm hadoop section java

hadoop - 使用 HDFS 而不是 spark.local.dir

试图理解为什么Spark需要本地机器上的空间!有办法解决吗？我一直遇到“设备上没有剩余空间”。我知道我可以将“spark.local.dir”设置为以逗号分隔的列表，但有没有办法改用HDFS？我正在尝试合并两个巨大的数据集。在较小的数据集上，Spark是MapReduce的对手，但在我用这些巨大的数据集证明之前，我不能宣布胜利。我没有使用yarn。此外，我们的网关节点(又名边缘节点)不会有很多可用空间。有解决办法吗？最佳答案当groupByKey操作时，Spark只是写入tmpDir序列化分区。它是普通文件(请参阅Shuffle

hadoop spark section HDFS stackoverflow mapreduce apache-spark

java - Job提交前如何分发jar到hadoop

我想实现RESTAPI来提交Hadoop作业以供执行。这完全是通过Java代码完成的。如果我编译一个jar文件并通过“hadoop-jar”执行它，一切都会按预期进行。但是当我在我的RESTAPI中通过Java代码提交Hadoop作业时-作业已提交但由于ClassNotFoundException而失败。是否可以以某种方式将jar文件(使用我的作业代码)部署到hadoop(nodemanagers及其容器)，以便hadoop能够按类名定位jar文件？我应该将jar文件复制到每个节点管理器并在那里设置HADOOP_CLASSPATH吗？最佳答案

分发 hadoop section jar java mapreduce hadoop-yarn

hadoop - Spark 流 "ERROR JobScheduler: error in job generator"

我构建了一个sparkStreaming应用程序来持续接收来自Kafka的消息，然后将它们写入表HBase。此应用在前25分钟内运行良好。当我在Kafka-console-producer中输入1;name1,2;name2这样的KV对时，它们可以保存在Hbase表中:ROWCOLUMN+CELL1column=cf1:column-Name,timestamp=1471905340560,value=name12column=cf1:column-Name,timestamp=1471905348165,value=name2但是大约25分钟后，我的应用停止并出现错误ERRORJob

JobScheduler amp apache JobGenerator streaming hadoop apache-spark apache-kafka spark-streaming

126 127 128129130 131 132