Kubernetes集群

hadoop - hadoop 集群所有数据节点上的 Apache DrillBit 服务

我正在使用一个10节点的hadoop集群，如下所示:1-名称节点1-资源管理器8-数据节点我的复制因子设置为3。我打算使用ApacheDrill来查询hadoop数据。是否需要在所有节点上安装drillbit还是我只能在3个节点上安装它？提前致谢。最佳答案您可以将其安装在任意数量的节点上。在分布式模式下运行Drill时，确保-Zookeeper在集群上运行编辑drill-override.conf:drill.exec:{cluster-id:"",zk.connect:":,:,:"}所有节点(运行drill的节点)必须具有相

amazon-web-services - 中等 Hadoop/Spark 集群管理

如果这个问题更适合不同的channel，请告诉我，但我想知道推荐的工具是什么，可以在大量远程服务器上安装、配置和部署hadoop/spark。我已经熟悉如何设置所有软件，但我正在尝试确定我应该开始使用什么，这将使我能够轻松地跨大量服务器进行部署。我已经开始研究配置管理工具(即chef、puppet、ansible)，但想知道最好的和最用户友好的选项是什么。我也不想使用spark-ec2。我应该创建自己开发的脚本来遍历包含IP的主机文件吗？我应该使用pssh吗？PSCP？等。我希望能够根据需要与尽可能多的服务器进行ssh连接并安装所有软件。最佳答案

amazon-web-services services section stackoverflow 的 hadoop apache-spark amazon-ec2

hadoop - 带 RAID 的 HDP 集群？

您在HDP集群上使用RAID1的体验如何？我有两个选择:为主节点和zoo节点设置RAID1，完全不要在从属节点(如kafka代理、hbase区域服务器和yarn节点管理器)上使用RAID。即使我失去一个从节点，我也会有另外两个副本。在我看来，RAID只会减慢我的集群。无论如何，使用RAID1设置所有内容。你怎么看？您对HDP和RAID有何体验？您如何看待从节点使用RAID0？最佳答案我建议在Hadoop主机上完全不要使用RAID。有一点需要注意，如果您正在运行Oozie和HiveMetastore等在后台使用关系数据库的服务，则

hadoop RAID section 节点 hortonworks-data-platform bigdata

java - 从同一个进程访问两个安全的 (Kerberos) Hadoop/HBase 集群

我有一个Java工具，可以将几行数据从一个HBase集群复制到另一个集群(称为ClusterA和ClusterB)。当两个集群都不安全时，这工作正常:ConfigurationconfigA=Utilities.makeHBaseConfig("configA.xml");ConfigurationconfigB=Utilities.makeHBaseConfig("configB.xml");HTabletableA=newHTable(configA,input_table);HTabletableB=newHTable(configB,output_table);tableA.g

Kerberos Hadoop configA section makeHBaseConfig java hbase

hadoop - 将 MapR 安装到 20 节点集群的分步过程

我想知道将MapR安装到20节点集群上的分步过程，我还想拥有一个边缘节点。我没有使用Edge节点安装任何hadoop发行版。请帮忙。最佳答案你应该看看MapRinstalldocumentation.他们还有一个易于使用的UIinstaller. 关于hadoop-将MapR安装到20节点集群的分步过程，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/41163466/

分步 hadoop section noreferrer mapr

hadoop - 集群的映射器估计

需要对Hadoop集群中特定作业的映射器估计进行一些说明。根据我的理解，映射器的数量取决于用于处理的输入拆分。但如果我们要对已经驻留在HDFS中的输入数据进行处理，情况就是如此。在这里，我需要澄清有关由SQOOP作业触发的映射器和缩减器。多氟溴联苯..如何根据RAM或输入拆分/block估算专用集群的映射器计数？(一般)如何根据输入大小估算用于将数据从RDBMS检索到HDFS的sqoop作业的映射器计数？(基于Sqoop)什么是核心CPU，它如何影响可以并行运行的映射器的数量？(一般)谢谢。最佳答案如何基于RAM或基于输入拆分/

射器 hadoop strong section mapreduce sqoop

hadoop - MapReduce 作业无法与启用 Kerberos 的 CDH 集群上的 Hbase 对话

我正在编写一个MapReduce应用程序来访问启用了Kerberos的CDH集群上的Hbase数据。我的CDH版本是5.9.0，运行在3个节点上，Kerberos版本是1.10.1。现在，我面临一个问题，希望有人能提供帮助。我的代码:conf.set("hadoop.security.authentication","Kerberos");UserGroupInformation.setConfiguration(conf);UserGroupInformation.loginUserFromKeytab("jj@example.com","jj.keytab");HTabletabl

MapReduce Kerberos code section 34 hadoop hbase cloudera-cdh

hadoop - 星火集群启动问题

我是spark的新手，正在尝试设置spark集群。我做了以下事情来设置和检查spark集群的状态，但不确定状态。我尝试在浏览器中查看master-ip:8081(8080,4040,4041)，但没有看到任何结果。首先，我设置并启动了hadoop集群。JPSgives:2436SecondaryNameNode2708NodeManager2151NameNode5495Master2252DataNode2606ResourceManager5710Jps问题(有必要启动hadoop吗？)在Master/usr/local/spark/conf/slaveslocalhostslav

hadoop 星火 spark code master apache-spark cluster-computing iptables

amazon-web-services - 我可以像在本地集群上一样在 EMR 上运行作业吗

我已经在我的笔记本电脑上构建了一个本地集群(伪模式)。我在哪里运行不同的mapreduce命令，例如hadoop-streaming-Dmapred.output.compress=true\-Dmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec\-filesmy_mapper.py,my_reducer.py\-mappermy_mapper.py\-reducermy_reducer.py\-input/aws/input/input_warc.txt\-output/aws/output现

amazon-web-services services section aws output hadoop emr amazon-emr

在 2 节点集群中使用压缩时 Hadoop 映射任务失败。但是当作为单个节点运行时，两个节点都工作正常

Node1:hadoop2.5.2RedhatLinux.el664bit构建64位native库并且它正在运行Node2:hadoop2.5.2RedhatLinux.el532bit构建32位native库并且它正在运行当将mapreduce任务作为单个节点运行时(压缩)作为多节点它也可以工作(没有压缩)但作为具有压缩功能的多节点，它不起作用....map任务只在其中一个节点(有时在node1，有时在node2)完成，在其他节点失败并出现错误，作业失败。Error:java.io.IOException:Spillfailedatorg.apache.hadoop.mapred.M

当作 Hadoop strong section gt mapreduce compression

54 55 565758 59 60