worker-loader_草庐IT

hadoop - Apache spark 1.2.1 独立集群中的剂量， 'number of executors equals to number of SPARK_WORKER_INSTANCES'？

Apachespark1.2.1Standalone集群中的Dose，“执行程序的数量等于SPARK_WORKER_INSTANCES的数量”？Ihavedonebelowsettinginconf/spark-env.shSPARK_EXECUTOR_CORES=4SPARK_NUM_EXECUTORS=3SPARK_EXECUTOR_MEMORY=2G如果没有，谁能告诉我如何增加独立集群中的执行程序数量？提前致谢。最佳答案在独立模式下，总执行器数量等于集群中的总工作器数量。spark-env.sh中的SPARK_WORKER

linux - 如何在 hadoop worker 机器之间同步配置

我们有一个巨大的hadoop集群，我们安装了一个协调器preso节点和850个prestoworker节点。现在我们要更改文件中的值-config.properties但这应该在所有工作人员上完成!所以下/opt/DBtasks/presto/presto-server-0.216/etc文件是这样的[root@worker01etc]#moreconfig.properties#coordinator=falsehttp-server.http.port=8008query.max-memory=50GBquery.max-memory-per-node=1GBquery.max-t

何在 hadoop presto section code linux redhat

hadoop - 我们需要在所有数据节点上安装 spark worker 节点吗？

我正在计划一个新的Spark集群。我的问题是我需要在所有数据节点上安装sparkworker节点吗？比如我有50个数据节点，我只安装了10个sparkworker节点，合理吗？谢谢! 最佳答案是的，您需要在所有节点上安装sparkworker，因为默认情况下您无法预测将使用哪个节点。请找thislink用于多节点spark安装关于hadoop-我们需要在所有数据节点上安装sparkworker节点吗？，我们在StackOverflow上找到一个类似的问题：

hadoop worker section spark apache-spark

python-3.x - 来自 python worker :. 的错误 .. SyntaxError: invalid syntax

我刚刚通过这个网站在MACOSX上安装了Python、Spark、Hadoop和Eclipse:“https://enahwe.wordpress.com/2015/11/25/how-to-configure-eclipse-for-developing-with-python-and-spark-on-hadoop/”。我在本安装指南的第8步。当我运行MyWordounts文件时出现此错误:UsingSpark'sdefaultlog4jprofile:org/apache/spark/log4j-defaults.propertiesSettingdefaultloglevelt

python SyntaxError spark apache scala python-3.x hadoop pyspark

java - Hadoop3 : worker node error connecting to ResourceManager

我有一个3节点的hadoop集群(DigitalOcean液滴):hadoop-master配置为namenode和datanodehadoop-worker1和hadoop-worker2配置为数据节点每当我运行一个mapreduce流式作业并选择一个工作节点来运行ApplicationMaster时，该作业会在尝试连接到ResourceManager时挂起。datanode日志显示它尝试连接到0.0.0.0INFO[main]org.apache.hadoop.yarn.client.RMProxy:ConnectingtoResourceManagerat/0.0.0.0:803

ResourceManager connecting hadoop hadoop-worker worker java mapreduce hadoop-yarn hadoop-streaming

scala - 星火 SQL : access file in current worker node directory

我需要使用spark-sql读取一个文件，该文件在当前目录中。我使用此命令解压缩存储在HDFS上的文件列表。valdecompressCommand=Seq(laszippath,"-i",inputFileName,"-o","out.las").!!该文件在当前工作节点目录中输出，我知道这一点是因为通过scala执行"ls-a"!!我可以看到该文件在那里。然后我尝试使用以下命令访问它:valdataFrame=sqlContext.read.las("out.las")我假设sql上下文会尝试在当前目录中查找文件，但事实并非如此。此外，它不会抛出错误，而是会发出一条警告，指出找不到

directory current code section 该文 scala hadoop apache-spark apache-spark-sql spark-dataframe

python - Spark 异常 : Python worker did not connect back in time

我正在尝试将Python作业提交到2个工作节点的Spark集群，但我一直看到以下问题，最终导致spark-submit失败:15/07/0421:30:40WARNscheduler.TaskSetManager:Losttask0.1instage0.0(TID2,workernode0.rhom-spark.b9.internal.cloudapp.net):org.apache.spark.SparkException:Pythonworkerdidnotconnectbackintimeatorg.apache.spark.api.python.PythonWorkerFact

connect python spark apache java hadoop apache-spark hadoop-yarn pyspark

apache-spark - 什么是 hadoop(单节点和多节点)、spark-master 和 spark-worker？

我想了解以下术语:hadoop(单节点和多节点)Spark大师星火worker名称节点数据节点到目前为止我的理解是sparkmaster是工作执行者并处理所有sparkworker。而hadoop是hdfs(我们的数据所在的地方)，sparkworker根据给他们的工作从那里读取数据。如果我错了，请纠正我。我也想了解namenode和datanode的作用。虽然我知道namenode的作用(拥有所有数据节点的元数据信息，最好只有一个，但可以是两个)并且数据节点可以是多个并拥有数据。datanodes是同一个hadoop节点吗？最佳答案

spark apache-spark section noreferrer hadoop hdfs

java - hive 达到 max worker 并且无法连接到 hiveserver2

当我使用直线连接到hiveserver2时，错误消息是这样的。我之前已经连接到hiveserver2。在我连接到hiveserver2几次后显示此错误。我可以连接使用jdbc:hive2://beeline>!connectjdbc:hive2://master:10000SLF4J:类路径包含多个SLF4J绑定(bind)。SLF4J:在[jar:file:/usr/local/hive/lib/log4j-slf4j-impl-2.4.1.jar!/org/slf4j/impl/StaticLoggerBinder.class]中找到绑定(bind)SLF4J:在[jar:file

hiveserver2 hiveserver hive lt gt java hadoop apache-spark

hadoop - 为什么 Apache Spark worker executor 以退出状态 1 被杀死？

apachespark独立设置中的所有工作人员都显示以下消息。worker:执行者app-20150902151146-0001/6已完成，状态为KILLEDexitStatus1收到此消息的原因是什么。最佳答案根据您提供的少量信息，我们只能笼统地回答这个问题。所以我的回答是从SeanOwen的answer得到的启发。关于worker和执行者之间的关系，也来自ResourceManagementwithYARN上的Cloudera博客以及关于Clustermodeoverview的官方文档.那么让我们开始定义ApacheSpar

杀死 executor strong section noreferrer hadoop apache-spark mapreduce spark-streaming