agent_slave

java - 如何从 Spark 中的 Slaves 内存创建 RDD？

我知道这听起来可能很傻，但是有什么方法可以从当前位于集群从属内存中的文件创建RDD吗？我知道要创建一个RDD，我们必须指定存储文件的路径/hdfs路径。但我很好奇我是否可以在Javaapplications之间复制对象并以相同的名称将对象直接放入奴隶的内存中，有没有办法用这些文件创建RDD和/或以分布式方式工作？提前致谢! 最佳答案简短的回答是否定的。“奴隶”根本不参与计算。只负责资源管理部分。另一方面，worker本身并不存在。它们与应用程序相关联，因此在它之外没有“当前状态”。您可以做的是创建虚拟RDD并在对它们调用函数时加载

hadoop - 无法启动master和slave，日志中出现名为 "bogon"的奇怪东西

我下载了一个新的预构建sparkforhadoop2.2文件。正在关注this文件，我想在我的单机上启动我的主人。解压文件后，我进入sbin和start-master，但我遇到了这个奇怪的问题，这是日志:SparkCommand:/Library/Java/JavaVirtualMachines/jdk1.7.0_55.jdk/Contents/Home/bin/java-cp:/opt/spark-0.9.0-incubating-bin-hadoop2/conf:/opt/spark-0.9.0-incubating-bin-hadoop2/assembly/target/scal

amp 名为 code section spark hadoop apache-spark

hadoop - hadoop slaves文件中的机架号？

在Hadoop的config目录下的slaves文件中，我记得racknumber也可以分配，但是我很难确认或找不到例子。有人可以帮忙吗？最佳答案 slave文件不包含机架号，它有一个机器列表(每行一个)，每个机器运行一个数据节点和一个任务跟踪器。Hadoop可以使用脚本或命令实现机架感知，here是关于它的更多信息。关于hadoop-hadoopslaves文件中的机架号？，我们在StackOverflow上找到一个类似的问题： https://stac

hadoop slaves section strong 跟踪器

java - 使用拦截器运行 flume agent 时出错

我正在尝试使用Linux从终端运行自定义水槽代理。我正在研究clouderaVM。命令运行水槽看起来像:flume-ngagent--conf.-fspoolDirLocal2hdfs_memoryChannel.conflume.root.logger=DEBUG,console-nAgent5带有拦截器的源代码如下:Agent5.sources.spooldir-source.interceptors=i1Agent5.sources.spooldir-source.interceptors.i1.type=org.flumefiles.flume.HtmlInterceptor$

拦截器时出 code section java hadoop flume

scala - 如何让 Spark slave 在 Hadoop+Spark 集群中使用 HDFS 输入文件 'local'？

我有一个由9台计算机组成的集群，上面安装了ApacheHadoop2.7.2和Spark2.0.0。每台计算机都运行一个HDFSdatanode和Sparkslave。其中一台计算机还运行HDFSnamenode和Sparkmaster。我已经在复制=2的HDFS中上传了几TB的gz存档。事实证明，某些文件已损坏。我想找到他们。看起来“gunzip-t”可以提供帮助。所以我试图找到一种在集群上运行Spark应用程序的方法，以便每个Spark执行程序测试存档“本地”(即，其中一个副本位于该执行程序运行的同一台计算机上)只要它是可能的。以下脚本运行，但有时Spark执行程序会处理HDFS中

amp Spark 34 scala hadoop apache-spark hdfs cluster-computing

Hadoop 多节点集群 : Connection failed with slave node

我正在尝试使用我的Hadoop多节点集群:1个名称节点(主节点)2个数据节点(slave1和slave2)我想用MapReduce做一些测试，但我遇到了一个问题，我找不到解决这个问题的地方。我向我的HDFS上传了一个名为data.txt的文件我创建了两个文件:mapper.py和reducer.py，它们存储在我的hadoop本地存储库中。我执行了这个命令:hadoopjar/usr/local/hadoop-2.7.5/share/hadoop/tools/lib/hadoop-streaming-2.7.5.jar-mapper/usr/local/hadoop/mapper.

Connection Hadoop java ReflectionUtils cluster-computing hadoop-yarn hadoop2

java - Master 和 Slave 节点都必须进行哪些 Hadoop 配置？

我们是否必须同时修改hadoop集群的主从节点的mapred-site.xml参数，例如并行执行的map和reduce任务的最大数量，或者只有主节点的配置更改才会足够了。在mapred-site.xml中对主节点上的mapred.map.child.java.opts和mapred.reduce.child.java.opts等参数所做的更改是否也会在客户端节点上进行更改？或者我们两者都做了。我们是否必须在主节点和客户端节点都指定dfs.block.size以使block大小不同于默认值？如果没有，是否有必须在主节点和客户端节点指定的参数来优化hadoop集群？

Master Hadoop section mapred strong java

hadoop - hadoop slaves 可以存在于不同的安装目录中吗？

我有一个3节点hadoop集群，其中有一个名称节点和两个数据节点。名称节点位于:/opt/hadoop/目录，数据节点位于/mnt/hadoop/目录。在namenode的.bashrc中是:exportJAVA_HOME=$(readlink-f/usr/bin/java|sed"s:bin/java::")exportHADOOP_INSTALL=/opt/hadoopexportPATH=$PATH:$HADOOP_INSTALL/binexportPATH=$PATH:$HADOOP_INSTALL/sbinexportHADOOP_MAPRED_HOME=$HADOOP_IN

hadoop slaves HADOOP_INSTALL INSTALL hadoop2

hadoop - 判断hadoop集群中slave节点是否被分配任务

我是Hadoop和MapReduce的新手。我刚刚部署了一个Hadoop集群，其中有一台主机和32台从机。然而，当我开始运行一个示例程序时，它似乎运行得很慢。如何判断一个map/reduce任务是否真的分配给了从节点执行？示例程序是这样执行的:hadoopjar${HADOOP_HOME}/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jarpi32100 最佳答案好吧，那里有很多可能性。Hadoop出来帮助分布式任务。因此，如果您的代码以一切都依赖的方式编写，那么就

hadoop slave section mapreduce

windows - 在 windows 10 上安装 flume agent

我想在我的windows10上安装flume代理，以便将日志记录到安装在虚拟机上的hortonworks沙箱中。我引用此链接进行了所有设置-https://gudisevablog.wordpress.com/2016/12/08/apache-flume-windows-10/但是当我运行这个时出现了一些问题命令——“flume-ngagent–conf%FLUME_CONF%–conf-file%FLUME_CONF%/flume-conf.properties.template–nameagent”ERROR-Sourcing环境配置脚本C:\flume\apache-flume

windows flume section apache hadoop avro flume-ng

35 36 373839 40 41