草庐IT

yarn-site

全部标签

Hadoop 2.9.0 - hadoop namenode -format 和 hdfs-site.xml dfs.namenode.name.dir

我的第一个问题,我会尽量不把事情搞砸:)出于学习目的,我正在4节点集群上安装Hadoop2.9.0。我已经按照官方ApacheHadoop2.9.0文档和一些谷歌页面开始安装/配置名称节点。我像这样编辑了位于$HADOOP_HOME/etc/hadoop目录下的hdfs-site.xml:dfs.namenode.name.dirfile:///apps/hdfs/namenode/datadfs.datanode.data.dirfile:///apps/hdfs/datanode/datadfs.namenode.checkpoint.dirfile:///apps/hdfs/na

hadoop - docker 中的 yarn - __spark_libs__.zip 不存在

我浏览了thisStackOverflow帖子,但它们对我帮助不大。我正在尝试让Yarn在现有集群上运行。到目前为止,我们一直在使用sparkstandalonemanger作为我们的资源分配器,它一直按预期工作。这是我们架构的基本概述。白框中的所有内容都在docker容器中运行。从master-machine我可以从yarn资源管理器容器中运行以下命令并运行一个使用yarn的spark-shell:./pyspark--masteryarn--驱动程序内存1G--executor-memory1G--executor-cores1--conf"spark.yarn.am.memory

java - 使用 Hadoop YARN 安装 HBase

我正在尝试在ubuntu上安装HBasev0.98.6。我已经在操作系统上运行了HadoopYARN。我应该停止现有的Hadoop进程并完全依赖HBase还是使用现有的YARN设置配置HBase?如果需要,我可以分享更多信息。我试图先在伪分布式上运行HBase,然后在分布式模式下运行。需要说明的是——我问的是在安装HBase之前是否需要运行HadoopYARN(以分布式方式——而不是在一台计算机上)。如果没有,并且我在那些计算机上仍然有HadoopYARN,它会导致HBase在这些服务器上运行时出现任何问题吗? 最佳答案 这个问题有

Hadoop 2.6.0 官方实例 : Yarn (MR2) much slower than Map Reduce (MR1) in single node setup

我开始玩hadoop2.6.0,根据officialdocumentation搭建了一个伪分布式单节点系统.当我运行简单的MapReduce(MR1)示例(参见“伪分布式操作->执行”)时,总执行时间约为7秒。更准确地说,bash的时间给出:real0m6.769suser0m7.375ssys0m0.400s当我通过Yarn(MR2)运行相同的示例时(参见“伪分布式操作->YARNonSingleNode”),总执行时间约为100sec,因此非常慢。bash的时间给出:real1m38.422suser0m4.798ssys0m0.319s因此,(出于某种原因)在用户空间之外存在大量

hadoop - 如何将参数从 web 请求传递到 spring boot yarn 应用程序

我正在使用spring-boot和spring-boot-yarn将yarn应用程序提交到集群。我的用例接近本教程中描述的用例https://github.com/spring-guides/gs-yarn-basic.唯一的区别是我的“客户端”应该是一个网络应用程序,并在发出网络请求时提交yarn作业。我遇到的问题是,对“客户端”网络应用程序的网络请求提供了我需要传递给yarn作业的参数。在上面的教程中,参数作为命令行参数传递给application.yml中指定的appmaster/容器。在我的例子中,这种方法不起作用,因为我为每个yarn作业设置了不同的参数集。有没有一种方法可以

Hadoop MapReduce (Yarn) 使用不同功率/规范的主机

我目前在集群中有高功率(cpu/ram)主机,我们正在考虑添加一些存储良好但功率低的主机。我担心的是它会降低工作绩效。来自新的(功能较弱的)主机的Map/Reducer将运行得更慢,而功能更强大的将只需要等待结果。有没有办法在Yarn中配置它?也许为主机设置优先级或根据每台机器上的核心数分配映射器/缩减器。谢谢,霍拉修 最佳答案 在YARN中,您可以为每个集群worker提供不同的硬件资源配置。然后,YARN将决定可以为每个工作人员分配多少任务(容器)以平衡工作量。换句话说,您可以在yarn-site.xml中为每个worker分别

hadoop - 通过 socks 代理将 YARN 作业提交到远程 Hadoop 集群

我正在尝试通过SOCKS代理访问运行YARN的防火墙Hadoop集群。集群本身没有使用代理连接——只有我在本地机器(例如笔记本电脑)上运行的客户端通过ssh-D9999user@gateway-host连接到可以看到Hadoop的机器簇。在Hadoop配置core-site.xml(在我的笔记本电脑上)中,我有以下几行:hadoop.socks.serverlocalhost:9999hadoop.rpc.socket.factory.class.defaultorg.apache.hadoop.net.SocksSocketFactory以这种方式访问​​HDFS效果很好。但是,当我

java - 由于 cloudera quickstart vm 中的 yarn 容器错误,Hipi 平均像素数程序失败

我是HIPI/Hadoop的新手,所以我选择了clouderaquickstartvm(5.4.2)。我正在关注gettingstarted教程来做到这一点。在运行时我发现我在hib文件中有如下所示的文件:[cloudera@quickstarttools]$./hibInfo.shexamples/sampleNew.hib--show-metaInputHIB:examples/sampleNew.hibDisplaymetadata:trueDisplayEXIFdata:falseIMAGEINDEX:01244x829format:1meta:{source=/home/cl

java - slave VM 从 slaves 列表中删除,并且仍然被 Yarn/Tez 访问

所以我从从属虚拟机列表中删除了vm4,当我运行以下命令时它不会访问它hdfsdfsadmin-report结果是:ubuntu@anmol-vm1-new:~$hdfsdfsadmin-report15/12/1406:56:12WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicableConfiguredCapacity:1268169326592(1.15TB)PresentCapacity:1199270457

python - Hadoop YARN 与 mapreduce

我已经在我的机器上安装了Hadoop-2.6.0并启动了所有服务。当我与我的旧版本比较时,这个版本不会启Action业跟踪器和任务跟踪器作业,而是启动节点管理器和资源管理器。问题:-我相信这个版本的Hadoop使用YARN来运行作业。我不能再运行mapreduce作业了吗?我是否应该编写适合YARN资源管理器和应用程序管理器的作业。是否有我可以提交的示例Python作业? 最佳答案 IbelievethisversionofHadoopusesYARNforrunningthejobs.Can'tIrunamapreducejoba