yarn-cluster_草庐IT

hadoop - Spark + yarn 簇: how can i configure physical node to run only one executor\task each time?

我的环境包含4个物理节点和少量RAM，每个节点有8个CPU内核。我注意到spark会自动决定为每个CPU分配RAM。结果是发生了内存错误。我正在处理大数据结构，我希望每个执行程序都将在物理节点上拥有整个RAM内存(否则我会遇到内存错误)。我尝试在“yarn-site.xml”文件上配置“yarn.nodemanager.resource.cpu-vcores1”或在spark-defaults.conf上配置“spark.driver.cores1”但没有成功。最佳答案尝试设置spark.executor.cores1

hadoop - 使用 yarn 的 hive 问题

我在yarn上运行hivesql，它在连接条件下抛出错误，我能够创建外部表和内部表但是在使用命令时无法创建表createtableasASSELECTnamefromstudent.当通过hivecli运行相同的查询时它工作正常但是使用springjog它会抛出错误2016-03-2804:26:50,692[Thread-17]WARNorg.apache.hadoop.hive.shims.HadoopShimsSecure-Can'tfetchtasklog:TaskLogServletisnotsupportedinMR2mode.Taskwiththemostfailures

hadoop yarn section hive 1458863269455 hadoop-yarn

hadoop - 在 Hadoop 2.7.2(CentOS 7) Cluster 中，Datanode 启动但没有连接到 namenode

我安装了一个三节点hadoop集群。master和slave节点单独启动，但datanode没有显示在namenodewebUI中。datanode的日志文件显示以下错误:2016-06-1821:23:53,980INFOorg.apache.hadoop.ipc.Client:Retryingconnecttoserver:namenode/192.168.1.100:9000.Alreadytried0time(s);retrypolicyisRetryUpToMaximumCountWithFixedSleep(maxRetries=10,sleepTime=1000MILLI

Datanode namenode gt lt property hadoop

hadoop - 在 yarn 集群模式 AccessControlException 上执行 Spark

我有一些Spark代码可以分析CSV文件中的输入数据集。当我在集群模式下运行它时，出现以下错误(在本地模式下它到目前为止工作正常)。我的问题是:局部变量是否会影响不同worker的并行执行？我使用本地文件作为输入。我必须使用HDFS文件吗？我相信RDD是并行化的，输入文件可以存储在本地文件系统中。Exceptioninthread"main"org.apache.hadoop.security.AccessControlException:Permissiondenied:user=xxx,access=WRITE,inode="/":hdfs:supergroup:drwxr-xr-

AccessControlException hadoop apache code apache-spark

linux - yarn 节点管理器未启动。没有错误

我在Ubuntu16.04上安装了Hadoop2.7.4。我正在尝试以伪模式运行它。我为所有hadoop文件、NameNode和DataNode文件安装了一个“/hadoop”分区。我的core-site.xml是:fs.defaultFShdfs://localhost:9000我的hdfs-site.xml是:dfs.replication1dfs.name.dir/hadoop/nodes/namenodedfs.data.dir/hadoop/nodes/datanode我的mapred-site.xml是:Map-Reduce.framework.nameyarn我的yarn

linux yarn gt lt code hadoop hadoop-yarn daemon

hadoop - 将 LD_PRELOAD 与 Apache Spark(或 YARN)结合使用

我们在ApacheHadoopYARN上运行Spark作业。我特别需要在这些作业上使用“LD_PRELOAD技巧”。(在任何人panic之前，它不是用于生产运行；这是自动化作业测试的一部分)。我知道如何在作业中提交额外的文件，我知道如何在节点上设置环境变量，所以将这些设置添加到spark-defaults.conf几乎提供了一个解决方案:spark.files=/home/todd/pwn_connect.sospark.yarn.appMasterEnv.LD_PRELOAD=pwn_connect.sospark.executorEnv.LD_PRELOAD=pwn_connect

LD_PRELOAD PRELOAD code spark hadoop apache-spark hadoop-yarn ld-preload

hadoop - docker 中的 yarn - __spark_libs__.zip 不存在

我浏览了thisStackOverflow帖子，但它们对我帮助不大。我正在尝试让Yarn在现有集群上运行。到目前为止，我们一直在使用sparkstandalonemanger作为我们的资源分配器，它一直按预期工作。这是我们架构的基本概述。白框中的所有内容都在docker容器中运行。从master-machine我可以从yarn资源管理器容器中运行以下命令并运行一个使用yarn的spark-shell:./pyspark--masteryarn--驱动程序内存1G--executor-memory1G--executor-cores1--conf"spark.yarn.am.memory

spark_libs hadoop gt lt property apache-spark docker hdfs hadoop-yarn

hadoop - 安装 Spark Cluster，Hive 的问题

我正在尝试启动Spark/Shark集群，但一直遇到同样的问题。我已按照https://github.com/amplab/shark/wiki/Running-Shark-on-a-Cluster上的说明进行操作并按照说明处理Hive。我认为SharkDriver正在使用另一个版本的Hadoopjar，但不确定原因。这是详细信息，任何帮助都会很棒。星火/鲨鱼0.9.0ApacheHadoop2.3.0Amplabshive0.11斯卡拉2.10.3Java7我已经安装了所有东西，但我收到了一些弃用警告，然后是一个异常:14/03/1411:24:47信息Configuration.d

Cluster hadoop java apache apache-spark shark-sql

python - 在 Pyspark-Cluster 模式下的工作节点上安装外部库

我正在为NLP处理等开发pyspark。我正在使用TextBlobPython库。通常，在独立模式下，安装外部Python库很容易。在集群模式下，我面临着在工作节点上远程安装这些库的问题。我无法访问每台工作机器以在Python路径中安装这些库。我尝试使用Sparkcontextpyfiles选项传送.zip文件...但问题是这些Python包需要安装在工作机器上。是否有不同的方法可以使这个lib-Textblob在Python路径中可用？最佳答案 ItriedtouseSparkcontextpyfilesoptiontoship

Pyspark-Cluster Pyspark section Python strong hadoop nlp apache-spark textblob

java - 使用 Hadoop YARN 安装 HBase

我正在尝试在ubuntu上安装HBasev0.98.6。我已经在操作系统上运行了HadoopYARN。我应该停止现有的Hadoop进程并完全依赖HBase还是使用现有的YARN设置配置HBase？如果需要，我可以分享更多信息。我试图先在伪分布式上运行HBase，然后在分布式模式下运行。需要说明的是——我问的是在安装HBase之前是否需要运行HadoopYARN(以分布式方式——而不是在一台计算机上)。如果没有，并且我在那些计算机上仍然有HadoopYARN，它会导致HBase在这些服务器上运行时出现任何问题吗？最佳答案这个问题有

Hadoop HBase section YARN java