草庐IT

HASKELL_PLATFORM_DIR

全部标签

hadoop - fs.checkpoint.dir 和 dfs.name.dir 有什么区别?

主要是dfs.name.dir属性是用来存储namenode的fsimage到特定位置备份的,fs.checkpoint.dir属性是fsimage合并的位置。这让我有点困惑。任何人都可以详细解释我。 最佳答案 dfs.name.dir是namenode在磁盘中存放fsimage和editlogs的地方。这是一个强制性的位置。没有这个位置,hadoop集群将无法启动。这将位于名称节点主机中。fs.checkpoint.dir是本地文件系统上的目录,DFS辅助名称节点应在其中存储要合并的临时图像。如果这是一个以逗号分隔的目录列表,则图

hadoop - 如何覆盖 mapred-site.xml 中的 mapred.local.dir?

我没有对mapred-site.xml中mapred.local.dir指定的目录的写入权限(也没有对mapred-site.xml的写入权限)有没有一种方法可以在每个session基础上覆盖此属性用于我的Hive作业? 最佳答案 您可以尝试通过执行以下查询在Hivesession中设置它:setmapred.local.dir='somedir';这应该有效。另一种选择是更改Hive引用的mapred-site.xml。确保配置未标记为最终配置。在这种情况下,它不能被覆盖。 关于had

hadoop - WARN util.NativeCodeLoader : Unable to load native-hadoop library for your platform. .. 在适用于 mac 的情况下使用内置 java 类

我正在使用MacOSXEl-Capitan,并且是hadoop的新手。安装后我收到此警告:WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicableWARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicableStartingnamenodeson[l

java - dfs.data.dir : Failed to set permissions of path:\tmp\hadoop-user\dfs\data to 0755 中的无效目录

我是hadoop框架的新手,目前我正在处理大数据项目,在Windows7中使用cygwin、hadoop-0.19.1、eclipse-3.3.1(Europa)。现在我正在尝试从hadoop-0.19进行更改.1到hadoop-1.2.1version.i如下配置hadoop-1.2.1核心站点.xml:fs.default.namehdfs://localhost:9100hdfs.xmldfs.replication1mapred-site.xmlmapred.job.trackerlocalhost:9101但是我在启动数据节点时出错,如下所示$bin/hadoopdatano

hadoop - 使用 HDFS 而不是 spark.local.dir

试图理解为什么Spark需要本地机器上的空间!有办法解决吗?我一直遇到“设备上没有剩余空间”。我知道我可以将“spark.local.dir”设置为以逗号分隔的列表,但有没有办法改用HDFS?我正在尝试合并两个巨大的数据集。在较小的数据集上,Spark是MapReduce的对手,但在我用这些巨大的数据集证明之前,我不能宣布胜利。我没有使用yarn。此外,我们的网关节点(又名边缘节点)不会有很多可用空间。有解决办法吗? 最佳答案 当groupByKey操作时,Spark只是写入tmpDir序列化分区。它是普通文件(请参阅Shuffle

linux - 运行 hadoop 集群时在 Google Cloud Platform 上获取 'sudo: unknown user: hadoop' 和 'sudo: unable to initialize policy plugin error'

我正在尝试部署Google在https://github.com/GoogleCloudPlatform/solutions-google-compute-engine-cluster-for-hadoop提供的示例Hadoop应用程序在谷歌云平台上。我逐步按照那里给出的所有设置说明进行操作。我能够设置环境并成功启动集群。但是我无法运行MapReduce部分。我正在我的终端上执行这个命令:./compute_cluster_for_hadoop.pymapreduce[--prefix]--inputgs://\--outputgs://\--mappersample/shortest

hadoop - [hdfs]如何为每个datanode配置不同的dfs.datanode.data.dir?

我使用ambari来设置hadoop集群。但是当我配置hdfs的配置时。我发现如果我修改dfs.datanode.data.dir,configure会在所有datanodes上生效...如何为每个数据节点配置不同的配置?比如机器A有两block磁盘,分别挂载到/data1、/data2但是机器B只有一个盘,挂载到/data1所以我想将机器A的dfs.datanode.data.dir配置为“/data1,/data2”。但只有机器B的“/data1” 最佳答案 不存在的HDFS目录将被忽略。都放进去,没关系。

windows - 映射减少错误 : Failed to setup local dir

我在Windows8上安装的hadoop上运行mapreducewordcount示例。我收到如下错误。这听起来像是一个安全许可问题。但我不太确定。我在yarn-site.xml文件中添加了一个属性yarn.nodemanager.local-dirsc:\hadoop\tmp-nm任何想法都会很有帮助!15/07/1511:01:54INFOclient.RMProxy:ConnectingtoResourceManagerat/0.0.0.0:803215/07/1511:01:55WARNmapreduce.JobResourceUploader:Hadoopcommand-li

hadoop - 我可以将 pig.temp.dir 设置为/user/USERNAME/tmp/pig 吗?

Hive可以配置为hive.exec.scratchdir=/user/${user.name}/tmp/hive我可以用Pig做类似的事情吗?我已尝试修改pig.properties文件,但似乎没有任何效果。pig.temp.dir=/user/${user.name}/tmp/pig我可以用别名替换pig命令,但我希望将更改写入配置文件。pig-Dpig.temp.dir=/user/`whoami`/tmp/pig谢谢!更新:我们决定将/tmp/用于生产系统。这是一个问题的原因是因为我们正在运行MapR,它似乎试图将临时目录放入用户目录,并在Hive上成功,但在Pig上却没有。

scala - yarn 上的 Spark 提交没有将 jar 分发到 nm-local-dir

1、版本Spark:2.0.0标度:2.11.8java:1.8.0_91hadoop:2.7.22、问题:当我在yarn上提交scala程序到spark时,它抛出一个异常:Causedby:java.lang.IllegalStateException:Librarydirectory'/opt/hadoop/tmp/nm-local-dir/usercache/hadoop/appcache/application_1471514504287_0021/container_1471514504287_0021_01_000002/assembly/target/scala-2.11