草庐IT

agent_slave

全部标签

java - 如何从 Spark 中的 Slaves 内存创建 RDD?

我知道这听起来可能很傻,但是有什么方法可以从当前位于集群从属内存中的文件创建RDD吗?我知道要创建一个RDD,我们必须指定存储文件的路径/hdfs路径。但我很好奇我是否可以在Javaapplications之间复制对象并以相同的名称将对象直接放入奴隶的内存中,有没有办法用这些文件创建RDD和/或以分布式方式工作?提前致谢! 最佳答案 简短的回答是否定的。“奴隶”根本不参与计算。只负责资源管理部分。另一方面,worker本身并不存在。它们与应用程序相关联,因此在它之外没有“当前状态”。您可以做的是创建虚拟RDD并在对它们调用函数时加载

hadoop - 无法启动master和slave,日志中出现名为 "bogon"的奇怪东西

我下载了一个新的预构建sparkforhadoop2.2文件。正在关注this文件,我想在我的单机上启动我的主人。解压文件后,我进入sbin和start-master,但我遇到了这个奇怪的问题,这是日志:SparkCommand:/Library/Java/JavaVirtualMachines/jdk1.7.0_55.jdk/Contents/Home/bin/java-cp:/opt/spark-0.9.0-incubating-bin-hadoop2/conf:/opt/spark-0.9.0-incubating-bin-hadoop2/assembly/target/scal

hadoop - hadoop slaves文件中的机架号?

在Hadoop的config目录下的slaves文件中,我记得racknumber也可以分配,但是我很难确认或找不到例子。有人可以帮忙吗? 最佳答案 slave文件不包含机架号,它有一个机器列表(每行一个),每个机器运行一个数据节点和一个任务跟踪器。Hadoop可以使用脚本或命令实现机架感知,here是关于它的更多信息。 关于hadoop-hadoopslaves文件中的机架号?,我们在StackOverflow上找到一个类似的问题: https://stac

java - 使用拦截器运行 flume agent 时出错

我正在尝试使用Linux从终端运行自定义水槽代理。我正在研究clouderaVM。命令运行水槽看起来像:flume-ngagent--conf.-fspoolDirLocal2hdfs_memoryChannel.conflume.root.logger=DEBUG,console-nAgent5带有拦截器的源代码如下:Agent5.sources.spooldir-source.interceptors=i1Agent5.sources.spooldir-source.interceptors.i1.type=org.flumefiles.flume.HtmlInterceptor$

scala - 如何让 Spark slave 在 Hadoop+Spark 集群中使用 HDFS 输入文件 'local'?

我有一个由9台计算机组成的集群,上面安装了ApacheHadoop2.7.2和Spark2.0.0。每台计算机都运行一个HDFSdatanode和Sparkslave。其中一台计算机还运行HDFSnamenode和Sparkmaster。我已经在复制=2的HDFS中上传了几TB的gz存档。事实证明,某些文件已损坏。我想找到他们。看起来“gunzip-t”可以提供帮助。所以我试图找到一种在集群上运行Spark应用程序的方法,以便每个Spark执行程序测试存档“本地”(即,其中一个副本位于该执行程序运行的同一台计算机上)只要它是可能的。以下脚本运行,但有时Spark执行程序会处理HDFS中

Hadoop 多节点集群 : Connection failed with slave node

我正在尝试使用我的Hadoop多节点集群:1个名称节点(主节点)2个数据节点(slave1和slave2)我想用MapReduce做一些测试,但我遇到了一个问题,我找不到解决这个问题的地方。我向我的HDFS上传了一个名为data.txt的文件我创建了两个文件:ma​​pper.py和reducer.py,它们存储在我的hadoop本地存储库中。我执行了这个命令:hadoopjar/usr/local/hadoop-2.7.5/share/hadoop/tools/lib/hadoop-streaming-2.7.5.jar-mapper/usr/local/hadoop/mapper.

java - Master 和 Slave 节点都必须进行哪些 Hadoop 配置?

我们是否必须同时修改hadoop集群的主从节点的mapred-site.xml参数,例如并行执行的map和reduce任务的最大数量,或者只有主节点的配置更改才会足够了。在mapred-site.xml中对主节点上的mapred.map.child.java.opts和mapred.reduce.child.java.opts等参数所做的更改是否也会在客户端节点上进行更改?或者我们两者都做了。我们是否必须在主节点和客户端节点都指定dfs.block.size以使block大小不同于默认值?如果没有,是否有必须在主节点和客户端节点指定的参数来优化hadoop集群?

hadoop - hadoop slaves 可以存在于不同的安装目录中吗?

我有一个3节点hadoop集群,其中有一个名称节点和两个数据节点。名称节点位于:/opt/hadoop/目录,数据节点位于/mnt/hadoop/目录。在namenode的.bashrc中是:exportJAVA_HOME=$(readlink-f/usr/bin/java|sed"s:bin/java::")exportHADOOP_INSTALL=/opt/hadoopexportPATH=$PATH:$HADOOP_INSTALL/binexportPATH=$PATH:$HADOOP_INSTALL/sbinexportHADOOP_MAPRED_HOME=$HADOOP_IN

hadoop - 判断hadoop集群中slave节点是否被分配任务

我是Hadoop和MapReduce的新手。我刚刚部署了一个Hadoop集群,其中有一台主机和32台从机。然而,当我开始运行一个示例程序时,它似乎运行得很慢。如何判断一个map/reduce任务是否真的分配给了从节点执行?示例程序是这样执行的:hadoopjar${HADOOP_HOME}/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jarpi32100 最佳答案 好吧,那里有很多可能性。Hadoop出来帮助分布式任务。因此,如果您的代码以一切都依赖的方式编写,那么就

windows - 在 windows 10 上安装 flume agent

我想在我的windows10上安装flume代理,以便将日志记录到安装在虚拟机上的hortonworks沙箱中。我引用此链接进行了所有设置-https://gudisevablog.wordpress.com/2016/12/08/apache-flume-windows-10/但是当我运行这个时出现了一些问题命令——“flume-ngagent–conf%FLUME_CONF%–conf-file%FLUME_CONF%/flume-conf.properties.template–nameagent”ERROR-Sourcing环境配置脚本C:\flume\apache-flume