草庐IT

yarn-cluster

全部标签

hadoop - Spark + yarn 簇: how can i configure physical node to run only one executor\task each time?

我的环境包含4个物理节点和少量RAM,每个节点有8个CPU内核。我注意到spark会自动决定为每个CPU分配RAM。结果是发生了内存错误。我正在处理大数据结构,我希望每个执行程序都将在物理节点上拥有整个RAM内存(否则我会遇到内存错误)。我尝试在“yarn-site.xml”文件上配置“yarn.nodemanager.resource.cpu-vcores1”或在spark-defaults.conf上配置“spark.driver.cores1”但没有成功。 最佳答案 尝试设置spark.executor.cores1

hadoop - 使用 yarn 的 hive 问题

我在yarn上运行hivesql,它在连接条件下抛出错误,我能够创建外部表和内部表但是在使用命令时无法创建表createtableasASSELECTnamefromstudent.当通过hivecli运行相同的查询时它工作正常但是使用springjog它会抛出错误2016-03-2804:26:50,692[Thread-17]WARNorg.apache.hadoop.hive.shims.HadoopShimsSecure-Can'tfetchtasklog:TaskLogServletisnotsupportedinMR2mode.Taskwiththemostfailures

hadoop - 在 Hadoop 2.7.2(CentOS 7) Cluster 中,Datanode 启动但没有连接到 namenode

我安装了一个三节点hadoop集群。master和slave节点单独启动,但datanode没有显示在namenodewebUI中。datanode的日志文件显示以下错误:2016-06-1821:23:53,980INFOorg.apache.hadoop.ipc.Client:Retryingconnecttoserver:namenode/192.168.1.100:9000.Alreadytried0time(s);retrypolicyisRetryUpToMaximumCountWithFixedSleep(maxRetries=10,sleepTime=1000MILLI

hadoop - 在 yarn 集群模式 AccessControlException 上执行 Spark

我有一些Spark代码可以分析CSV文件中的输入数据集。当我在集群模式下运行它时,出现以下错误(在本地模式下它到目前为止工作正常)。我的问题是:局部变量是否会影响不同worker的并行执行?我使用本地文件作为输入。我必须使用HDFS文件吗?我相信RDD是并行化的,输入文件可以存储在本地文件系统中。Exceptioninthread"main"org.apache.hadoop.security.AccessControlException:Permissiondenied:user=xxx,access=WRITE,inode="/":hdfs:supergroup:drwxr-xr-

linux - yarn 节点管理器未启动。没有错误

我在Ubuntu16.04上安装了Hadoop2.7.4。我正在尝试以伪模式运行它。我为所有hadoop文件、NameNode和DataNode文件安装了一个“/hadoop”分区。我的core-site.xml是:fs.defaultFShdfs://localhost:9000我的hdfs-site.xml是:dfs.replication1dfs.name.dir/hadoop/nodes/namenodedfs.data.dir/hadoop/nodes/datanode我的mapred-site.xml是:Map-Reduce.framework.nameyarn我的yarn

hadoop - 将 LD_PRELOAD 与 Apache Spark(或 YARN)结合使用

我们在ApacheHadoopYARN上运行Spark作业。我特别需要在这些作业上使用“LD_PRELOAD技巧”。(在任何人panic之前,它不是用于生产运行;这是自动化作业测试的一部分)。我知道如何在作业中提交额外的文件,我知道如何在节点上设置环境变量,所以将这些设置添加到spark-defaults.conf几乎提供了一个解决方案:spark.files=/home/todd/pwn_connect.sospark.yarn.appMasterEnv.LD_PRELOAD=pwn_connect.sospark.executorEnv.LD_PRELOAD=pwn_connect

hadoop - docker 中的 yarn - __spark_libs__.zip 不存在

我浏览了thisStackOverflow帖子,但它们对我帮助不大。我正在尝试让Yarn在现有集群上运行。到目前为止,我们一直在使用sparkstandalonemanger作为我们的资源分配器,它一直按预期工作。这是我们架构的基本概述。白框中的所有内容都在docker容器中运行。从master-machine我可以从yarn资源管理器容器中运行以下命令并运行一个使用yarn的spark-shell:./pyspark--masteryarn--驱动程序内存1G--executor-memory1G--executor-cores1--conf"spark.yarn.am.memory

hadoop - 安装 Spark Cluster,Hive 的问题

我正在尝试启动Spark/Shark集群,但一直遇到同样的问题。我已按照https://github.com/amplab/shark/wiki/Running-Shark-on-a-Cluster上的说明进行操作并按照说明处理Hive。我认为SharkDriver正在使用另一个版本的Hadoopjar,但不确定原因。这是详细信息,任何帮助都会很棒。星火/鲨鱼0.9.0ApacheHadoop2.3.0Amplabshive0.11斯卡拉2.10.3Java7我已经安装了所有东西,但我收到了一些弃用警告,然后是一个异常:14/03/1411:24:47信息Configuration.d

python - 在 Pyspark-Cluster 模式下的工作节点上安装外部库

我正在为NLP处理等开发pyspark。我正在使用TextBlobPython库。通常,在独立模式下,安装外部Python库很容易。在集群模式下,我面临着在工作节点上远程安装这些库的问题。我无法访问每台工作机器以在Python路径中安装这些库。我尝试使用Sparkcontextpyfiles选项传送.zip文件...但问题是这些Python包需要安装在工作机器上。是否有不同的方法可以使这个lib-Textblob在Python路径中可用? 最佳答案 ItriedtouseSparkcontextpyfilesoptiontoship

java - 使用 Hadoop YARN 安装 HBase

我正在尝试在ubuntu上安装HBasev0.98.6。我已经在操作系统上运行了HadoopYARN。我应该停止现有的Hadoop进程并完全依赖HBase还是使用现有的YARN设置配置HBase?如果需要,我可以分享更多信息。我试图先在伪分布式上运行HBase,然后在分布式模式下运行。需要说明的是——我问的是在安装HBase之前是否需要运行HadoopYARN(以分布式方式——而不是在一台计算机上)。如果没有,并且我在那些计算机上仍然有HadoopYARN,它会导致HBase在这些服务器上运行时出现任何问题吗? 最佳答案 这个问题有