Mesos-Slave

hadoop - 在 Mesos 0.21.0 上使用 Hadoop 2.3.0 产生 Spark ，从站上出现错误 "sh: 1: hadoop: not found"

我正在Mesos0.21.0上使用Hadoop2.3.0设置spark。当我在主机上尝试spark时，我从mesosslave的stderr收到这些错误消息:WARNING:LoggingbeforeInitGoogleLogging()iswrittentoSTDERRI122912:34:45.9236658571fetcher.cpp:76]FetchingURI'hdfs://10.170.207.41/spark/spark-1.2.0.tar.gz'I122912:34:45.9252408571fetcher.cpp:105]Downloadingresourcefrom

hadoop 站上 spark 701475338 section apache-spark mesos

scala - 如何让 Spark slave 在 Hadoop+Spark 集群中使用 HDFS 输入文件 'local'？

我有一个由9台计算机组成的集群，上面安装了ApacheHadoop2.7.2和Spark2.0.0。每台计算机都运行一个HDFSdatanode和Sparkslave。其中一台计算机还运行HDFSnamenode和Sparkmaster。我已经在复制=2的HDFS中上传了几TB的gz存档。事实证明，某些文件已损坏。我想找到他们。看起来“gunzip-t”可以提供帮助。所以我试图找到一种在集群上运行Spark应用程序的方法，以便每个Spark执行程序测试存档“本地”(即，其中一个副本位于该执行程序运行的同一台计算机上)只要它是可能的。以下脚本运行，但有时Spark执行程序会处理HDFS中

amp Spark 34 scala hadoop apache-spark hdfs cluster-computing

Hadoop 多节点集群 : Connection failed with slave node

我正在尝试使用我的Hadoop多节点集群:1个名称节点(主节点)2个数据节点(slave1和slave2)我想用MapReduce做一些测试，但我遇到了一个问题，我找不到解决这个问题的地方。我向我的HDFS上传了一个名为data.txt的文件我创建了两个文件:mapper.py和reducer.py，它们存储在我的hadoop本地存储库中。我执行了这个命令:hadoopjar/usr/local/hadoop-2.7.5/share/hadoop/tools/lib/hadoop-streaming-2.7.5.jar-mapper/usr/local/hadoop/mapper.

Connection Hadoop java ReflectionUtils cluster-computing hadoop-yarn hadoop2

java - Master 和 Slave 节点都必须进行哪些 Hadoop 配置？

我们是否必须同时修改hadoop集群的主从节点的mapred-site.xml参数，例如并行执行的map和reduce任务的最大数量，或者只有主节点的配置更改才会足够了。在mapred-site.xml中对主节点上的mapred.map.child.java.opts和mapred.reduce.child.java.opts等参数所做的更改是否也会在客户端节点上进行更改？或者我们两者都做了。我们是否必须在主节点和客户端节点都指定dfs.block.size以使block大小不同于默认值？如果没有，是否有必须在主节点和客户端节点指定的参数来优化hadoop集群？

Master Hadoop section mapred strong java

hadoop - 判断hadoop集群中slave节点是否被分配任务

我是Hadoop和MapReduce的新手。我刚刚部署了一个Hadoop集群，其中有一台主机和32台从机。然而，当我开始运行一个示例程序时，它似乎运行得很慢。如何判断一个map/reduce任务是否真的分配给了从节点执行？示例程序是这样执行的:hadoopjar${HADOOP_HOME}/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jarpi32100 最佳答案好吧，那里有很多可能性。Hadoop出来帮助分布式任务。因此，如果您的代码以一切都依赖的方式编写，那么就

hadoop slave section mapreduce

hadoop - 无法在 MESOS 框架 : Could not find or load main class org. apache.mesos.hdfs.scheduler.Main 上运行 HDFS

我尝试按照https://github.com/mesosphere/hdfs中提到的步骤进行操作.当我运行./bin/hdfs-mesos时，出现以下错误:Error:Couldnotfindorloadmainclassorg.apache.mesos.hdfs.scheduler.Main有谁知道我该如何解决这个错误？最佳答案为了运行mesos-hdfs，需要构建它。githubrepo仅包含源相同标记的版本。按照以下步骤操作:gitclonegit@github.com:mesosphere/hdfs.gitcdhdfs

scheduler hadoop hdfs section mesos

Hadoop master 无法使用不同的 $HADOOP_HOME 启动 slave

在master中，$HADOOP_HOME是/home/a/hadoop，slave的$HADOOP_HOME是/home/b/hadoop在master中，当我尝试使用start-all.sh时，master名称节点成功启动，但无法启动slave的数据节点，并显示以下消息:b@192.068.0.2:bash:line0:cd:/home/b/hadoop/libexec/..:Nosuchfileordirectoryb@192.068.0.2:bash:/home/b/hadoop/bin/hadoop-daemon.sh:Nosuchfileordirectory关于如何在ma

HADOOP_HOME Hadoop code section master master-slave

hadoop - 我在哪里运行 spark - 独立、Hadoop 或 Mesos

我正在学习Spark，但如果我必须在Hadoop/Yarn或Mesos上运行spark，我会感到困惑。如果我在Hadoop/Mesos上运行是否有任何性能提升？现在，我在4节点集群上独立运行。有经验的用户可以在这里提供一些指导吗？最佳答案根据您的用例的详细信息，您可能会发现与其他配置相比，任何给定配置的性能都有所起伏。然而，Hadoop和Mesos为您提供了除性能之外的其他优势。每种情况都有很多，例如:哈多普HDFS作为弹性分布式文件存储。使用Hadoop中现有的元数据访问数据集，例如通过HiveContext将Spark处理与

hadoop section Mesos apache-spark hadoop-yarn

hadoop - Mesos 和 Hadoop : How to get the running job input data size?

我在Mesos0.14上运行Hadoop1.2.1。我的目标是记录输入数据大小、运行时间、cpu使用情况、内存使用情况等，以便稍后进行优化。除了数据大小之外，所有这些都是使用Sigar获得的。有什么方法可以获取正在运行的任何作业的输入数据大小？例如，当我运行hadoop示例的terasort时，我需要在作业实际运行之前获取teragen生成的数据大小。如果我正在运行Wordcountexample，我需要获取wordcount输入文件大小。我需要自动获取数据大小，因为我无法知道稍后将在该框架内运行什么作业。我正在使用Java编写一些mesos库代码。最好，我想在MesosExecuto

running hadoop section strong mapreduce mesos

apache - 需要有关在 Apache Mesos 上设置 Apache Hadoop 的帮助

我正在尝试使用以下文档在mesos上设置hadoop:https://docs.mesosphere.com/tutorials/run-hadoop-on-mesos/我在第9步遇到问题sudo-umapred./hadoop-2.0.0-mr1-cdh4.2.1/bin/hadoopdfs-rm-f/hadoop-2.0.0-mr1-cdh4.2.1.tgzsudo-umapred/usr/bin/hadoopdfs-copyFromLocal./hadoop-2.0.0-mr1-cdh4.2.1.tgz/我对这个概念还是陌生的。我必须使用本教程配置一个mesos集群:https:

Apache hadoop section mesosphere hdfs microsoft-distributed-file-system mesos

12 13 141516 17 18