草庐IT

集群NoSQL

全部标签

apache-spark - DCOS 集群上的 Spark 提交失败,出现 java.net.UnknownHostException : hdfs

我正在DCOS集群上以集群/休息模式运行spark-submit:$./spark-submit--deploy-modecluster--mastermesos://localhost:7077--confspark.master.rest.enabled=true--confspark.mesos.uris=http://api.hdfs.marathon.l4lb.thisdcos.directory/v1/endpoints/hdfs-site.xml,http://api.hdfs.marathon.l4lb.thisdcos.directory/v1/endpoints/c

hadoop - 树莓派 Hadoop 集群配置

我最近一直在尝试构建和配置(8-Pi)RaspberryPi3Hadoop集群(作为夏季的个人项目)。请耐心等待(不幸的是我对Hadoop有点陌生)。我使用的是Hadoopversion2.9.2。我认为重要的是要注意,现在我正在尝试让一个Namenode和一个Datanode彼此完全发挥作用,然后继续前进并在其余七个Pi上复制相同的过程。问题:我的Namenode(别名:master)是唯一节点,在两者下都显示为“LiveDatanode”dfs-health接口(interface),并通过使用:dfsadmin-report即使Datanode显示为“事件节点”(在群集Hadoo

hadoop - Hadoop 集群 kerberized 时无法访问 HDFS

我成功地对一个测试Hortonworks集群进行了Kerberized。Ambari为服务创建了key表,它们都已启动。名称节点有HA。备用名称节点启动速度快,事件名称节点需要更长的时间。NamenodeUI显示一切正确。可以使用kerberos登录。名称节点是nn1.zim.com和nn2.zim.com这个配置有什么问题?以hdfs身份登录,使用kinit-kt加载key表。在列表HDFS尝试中我得到这个错误:[root@nn1hdfs]#hdfsdfs-ls/18/12/0216:18:22WARNipc.Client:Exceptionencounteredwhileconne

hadoop - 启动hadoop集群时的密码

每当我启动Hadoop集群时,我的系统都会询问密码。我已将key添加到.ssh文件夹中。启动-dfs.sh19/01/2220:38:56WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicableStartingnamenodeson[localhost]XXXX@localhost'spassword:localhost:startingnamenode,loggingto/XXX/XXX/XXX/XX/XXX.o

apache-spark - 使用 Airflow dag run 创建 EMR 集群,任务完成后 EMR 将终止

我有Airflow作业,它们在EMR集群上运行良好。我需要的是,假设我有4个Airflow作业需要EMR集群,假设20分钟才能完成任务。为什么我们不能在DAG运行时创建一个EMR集群,一旦作业完成,它就会终止创建的EMR集群。 最佳答案 当然,那将是对资源最有效的利用。让我警告你:这里面有很多细节;我会尽力列出尽可能多的内容。我鼓励您添加自己的综合答案,列出您遇到的任何问题和解决方法(一旦您解决了这个问题)关于集群创建/终止对于集群的创建和终止,您有EmrCreateJobFlowOperator和EmrTerminateJobFl

hadoop - 在 MapR 集群之间切换

我在mapr-clusters.conf中指定了两个集群cluster1secure=truecldb1:7222cldb2:7222cldb3:7222cluster2secure=truecldb4:7222cldb5:7222cldb6:7222在某些情况下,我想将数据加载到cluster1中。在其他场合,我想在cluster2中加载数据。默认情况下,MapR客户端将第一个指定为默认客户端。如何告诉MapR客户端使用第二个指定的集群?这样hadoopfs-put目标集群2? 最佳答案 通常,MapR支持HDFSAPI的/map

hadoop - 设置多节点hadoop集群Blackpool ID不匹配

在设置多节点hadoop集群时,我遇到了几个问题。通过不同的门户网站进行正确设置。出现了一些基本问题我正在使用Hadoop2.8.5在主从配置中设置一个2节点集群。在第一个机器上使用hdfsnamenodeformat格式化名称节点clusterID和BlockpoolID分配如下:#FriMar2911:14:41IST2019namespaceID=576041649clusterID=CID-98480e8d-f7a9-4e1a-8997-400a7aa150c3cTime=1553838281164storageType=NAME_NODEblockpoolID=BP-9544

hadoop - hadoop集群中Namenode和Datanode之间的通信端口是什么

我想知道hadoop中Namenode和Datanode使用的具体端口号的通信协议(protocol)。假设,如果我在Namenode中编写以下命令,hdfsdfsadmin-report它将显示实时节点(名称节点和数据节点)的详细信息,有多少数据节点等。我的问题是名称节点和数据节点如何通信?通过哪个端口?我实际上使用上述命令只获得了1个数据节点,而在我的集群中,有8个数据节点。所以,我不确定是否有任何portblockingofnetworking是由这个引起的!!我的防火墙在名称节点和所有数据节点中被禁用。我已经通过返回inactive的sudoufwstatus命令检查了这一点。

amazon-web-services - 在EMR集群上如何进入/etc/hadoop/conf这个路径?

我是EMR和Spark的新手。我正在执行此处提到的这些步骤https://aws.amazon.com/premiumsupport/knowledge-center/emr-submit-spark-job-remote-cluster/.在第5步中,它说复制远程AmazonEMR集群上/etc/hadoop/conf中的所有文件。。想知道如何从/etc/hadoop/conf获取这些文件。如果我的理解有误,请指正。在此先感谢并感谢。 最佳答案 通过ssh访问EMR实例,进入文件夹/etc/hadoop/conf并将所有文件复制到

java - 在 flink yarn 集群上通过 maven 运行包含配置的 Java Jar

我在maven/java项目中使用flink,需要在创建的jar中包含我的内部配置。因此,我在我的pom文件中添加了以下内容。这包括我在jar中的所有yml配置(位于src/main/resources文件夹中),我将在执行时将其名称作为参数传递。src/main/resources**/*.ymlorg.apache.maven.pluginsmaven-shade-plugin2.4.3packageshade*:*META-INF/*.SFMETA-INF/*.DSAMETA-INF/*.RSA${project.artifactId}-${project.version}tru