草庐IT

worker-pool

全部标签

java - Hadoop3 : worker node error connecting to ResourceManager

我有一个3节点的hadoop集群(DigitalOcean液滴):hadoop-master配置为namenode和datanodehadoop-worker1和hadoop-worker2配置为数据节点每当我运行一个mapreduce流式作业并选择一个工作节点来运行ApplicationMaster时,该作业会在尝试连接到ResourceManager时挂起。datanode日志显示它尝试连接到0.0.0.0INFO[main]org.apache.hadoop.yarn.client.RMProxy:ConnectingtoResourceManagerat/0.0.0.0:803

scala - 星火 SQL : access file in current worker node directory

我需要使用spark-sql读取一个文件,该文件在当前目录中。我使用此命令解压缩存储在HDFS上的文件列表。valdecompressCommand=Seq(laszippath,"-i",inputFileName,"-o","out.las").!!该文件在当前工作节点目录中输出,我知道这一点是因为通过scala执行"ls-a"!!我可以看到该文件在那里。然后我尝试使用以下命令访问它:valdataFrame=sqlContext.read.las("out.las")我假设sql上下文会尝试在当前目录中查找文件,但事实并非如此。此外,它不会抛出错误,而是会发出一条警告,指出找不到

sql - 'pool_name' 在 CREATE TABLE 语句中意味着什么?

在CREATETABLE-statement末尾的Impala中您可以按照我的理解设置复制因子:CREATE[EXTERNAL]TABLE[IFNOTEXISTS][db_name.]table_name...[CACHEDIN'pool_name'[WITHREPLICATION=integer]|UNCACHED]无论如何,我有点不明白pool_name指的是什么。这是HDFS中存放数据的路径吗? 最佳答案 不完全是,它实际上是指使用hdfscacheadmin-addPool...命令定义的HDFS池,参见hdfscomman

python - Spark 异常 : Python worker did not connect back in time

我正在尝试将Python作业提交到2个工作节点的Spark集群,但我一直看到以下问题,最终导致spark-submit失败:15/07/0421:30:40WARNscheduler.TaskSetManager:Losttask0.1instage0.0(TID2,workernode0.rhom-spark.b9.internal.cloudapp.net):org.apache.spark.SparkException:Pythonworkerdidnotconnectbackintimeatorg.apache.spark.api.python.PythonWorkerFact

apache-spark - 什么是 hadoop(单节点和多节点)、spark-master 和 spark-worker?

我想了解以下术语:hadoop(单节点和多节点)Spark大师星火worker名称节点数据节点到目前为止我的理解是sparkmaster是工作执行者并处理所有sparkworker。而hadoop是hdfs(我们的数据所在的地方),sparkworker根据给他们的工作从那里读取数据。如果我错了,请纠正我。我也想了解namenode和datanode的作用。虽然我知道namenode的作用(拥有所有数据节点的元数据信息,最好只有一个,但可以是两个)并且数据节点可以是多个并拥有数据。datanodes是同一个hadoop节点吗? 最佳答案

hadoop - 哈HDFS : Initialization failed for Block pool <registering> (Datanode Uuid unassigned)

尝试在HAHDFS集群中启动数据节点时出现以下错误2016-01-0622:54:58,064INFOorg.apache.hadoop.hdfs.server.common.Storage:Storagedirectory[DISK]file:/home/data/hdfs/dn/hasalreadybeenused.2016-01-0622:54:58,082INFOorg.apache.hadoop.hdfs.server.common.Storage:AnalyzingstoragedirectoriesforbpidBP-1354640905-10.146.52.232-14

java - hive 达到 max worker 并且无法连接到 hiveserver2

当我使用直线连接到hiveserver2时,错误消息是这样的。我之前已经连接到hiveserver2。在我连接到hiveserver2几次后显示此错误。我可以连接使用jdbc:hive2://beeline>!connectjdbc:hive2://master:10000SLF4J:类路径包含多个SLF4J绑定(bind)。SLF4J:在[jar:file:/usr/local/hive/lib/log4j-slf4j-impl-2.4.1.jar!/org/slf4j/impl/StaticLoggerBinder.class]中找到绑定(bind)SLF4J:在[jar:file

hadoop - 为什么 Apache Spark worker executor 以退出状态 1 被杀死?

apachespark独立设置中的所有工作人员都显示以下消息。worker:执行者app-20150902151146-0001/6已完成,状态为KILLEDexitStatus1收到此消息的原因是什么。 最佳答案 根据您提供的少量信息,我们只能笼统地回答这个问题。所以我的回答是从SeanOwen的answer得到的启发。关于worker和执行者之间的关系,也来自ResourceManagementwithYARN上的Cloudera博客以及关于Clustermodeoverview的官方文档.那么让我们开始定义ApacheSpar

Hadoop 3.0.3 worker 文件与奴隶

在/etc/hadoop文件夹中,您必须创建的workers文件或slaves文件有区别吗?同样对于3.0.3,我还需要为namenode创建一个masters文件吗? 最佳答案 是的,不再使用奴隶。在纠结数据节点启动的几个小时后,我发现“workers”文件是你应该配置的,而不是从属文件。如果你这样做,它会被忽略。至少对我来说。将slave的内容复制给worker即可。它奏效了。希望这对您有所帮助。 关于Hadoop3.0.3worker文件与奴隶,我们在StackOverflow上找

hadoop - 如何将 PySpark worker 中的 numpy 数组保存到 HDFS 或共享文件系统?

我想在PySpark中高效地将numpy数组从工作机器(函数)保存到HDFS或从工作机器(函数)读取numpy数组。我有两台机器A和B。A有master和worker。B有一名worker。例如我想实现如下目标:if__name__=="__main__":conf=SparkConf().setMaster("local").setAppName("Test")sc=SparkContext(conf=conf)sc.parallelize([0,1,2,3],2).foreachPartition(func)deffunc(iterator):P=>forxiniterator:P