草庐IT

hadoop - 将 MapR 安装到 20 节点集群的分步过程

我想知道将MapR安装到20节点集群上的分步过程,我还想拥有一个边缘节点。我没有使用Edge节点安装任何hadoop发行版。请帮忙。 最佳答案 你应该看看MapRinstalldocumentation.他们还有一个易于使用的UIinstaller. 关于hadoop-将MapR安装到20节点集群的分步过程,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/41163466/

hadoop - 集群的映射器估计

需要对Hadoop集群中特定作业的映射器估计进行一些说明。根据我的理解,映射器的数量取决于用于处理的输入拆分。但如果我们要对已经驻留在HDFS中的输入数据进行处理,情况就是如此。在这里,我需要澄清有关由SQOOP作业触发的映射器和缩减器。多氟溴联苯..如何根据RAM或输入拆分/block估算专用集群的映射器计数?(一般)如何根据输入大小估算用于将数据从RDBMS检索到HDFS的sqoop作业的映射器计数?(基于Sqoop)什么是核心CPU,它如何影响可以并行运行的映射器的数量?(一般)谢谢。 最佳答案 如何基于RAM或基于输入拆分/

hadoop - MapReduce 作业无法与启用 Kerberos 的 CDH 集群上的 Hbase 对话

我正在编写一个MapReduce应用程序来访问启用了Kerberos的CDH集群上的Hbase数据。我的CDH版本是5.9.0,运行在3个节点上,Kerberos版本是1.10.1。现在,我面临一个问题,希望有人能提供帮助。我的代码:conf.set("hadoop.security.authentication","Kerberos");UserGroupInformation.setConfiguration(conf);UserGroupInformation.loginUserFromKeytab("jj@example.com","jj.keytab");HTabletabl

hadoop - 星火集群启动问题

我是spark的新手,正在尝试设置spark集群。我做了以下事情来设置和检查spark集群的状态,但不确定状态。我尝试在浏览器中查看master-ip:8081(8080,4040,4041),但没有看到任何结果。首先,我设置并启动了hadoop集群。JPSgives:2436SecondaryNameNode2708NodeManager2151NameNode5495Master2252DataNode2606ResourceManager5710Jps问题(有必要启动hadoop吗?)在Master/usr/local/spark/conf/slaveslocalhostslav

amazon-web-services - 我可以像在本地集群上一样在 EMR 上运行作业吗

我已经在我的笔记本电脑上构建了一个本地集群(伪模式)。我在哪里运行不同的mapreduce命令,例如hadoop-streaming-Dmapred.output.compress=true\-Dmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec\-filesmy_mapper.py,my_reducer.py\-mappermy_mapper.py\-reducermy_reducer.py\-input/aws/input/input_warc.txt\-output/aws/output现

在 2 节点集群中使用压缩时 Hadoop 映射任务失败。但是当作为单个节点运行时,两个节点都工作正常

Node1:hadoop2.5.2RedhatLinux.el664bit构建64位native库并且它正在运行Node2:hadoop2.5.2RedhatLinux.el532bit构建32位native库并且它正在运行当将mapreduce任务作为单个节点运行时(压缩)作为多节点它也可以工作(没有压缩)但作为具有压缩功能的多节点,它不起作用....map任务只在其中一个节点(有时在node1,有时在node2)完成,在其他节点失败并出现错误,作业失败。Error:java.io.IOException:Spillfailedatorg.apache.hadoop.mapred.M

Nginx 负载均衡集群 节点健康检查

前言正常情况下,nginx做反向代理负载均衡的话,如果后端节点服务器宕掉的话,nginx默认是不能把这台服务器踢出upstream负载集群的,所以还会有请求转发到后端的这台服务器上面,这样势必造成网站访问故障注:实际上不仅是后端节点宕掉需要踢出集群,如果说我们发布服务,那么节点服务启动和关闭也是需要时间的,此时也需要踢出和加入集群操作请求转发最简单的做法就是使用proxy_next_upstream,实现请求转发,就是在localtion中启用proxy_next_upstream来解决返回给用户的错误页面,示例如下:location/{#如果后端的服务器返回502、504、执行超时等错误#自

hadoop - 我如何使用 boto3 在现有的 emr 集群上应用安全配置?

我是awsemr服务的新手。我正在尝试使用boto3向已创建的emr集群添加安全配置。请回复是否可以这样做,或者是否有任何替代解决方案来实现相同的目标 最佳答案 SpecifyingAmazonEMREncryptionOptionsUsingaSecurityConfiguration文档页面说:Usingasecurityconfigurationtospecifyclusterencryptionsettingsisatwo-stepprocess.First,youcreateasecurityconfiguration,w

hadoop - 如何在 HBase 集群设置中添加辅助 NameNode?

我有一个包含3个节点的Hbase集群设置:一个NameNode和2个DataNode。NameNode是一个4GB内存和20GB硬盘的服务器,而每个DataNode有8GB内存和100GB硬盘。我正在使用ApacheHadoop版本:2.7.2和ApacheHbase版本:1.2.4我看到有人提到了辅助NameNode。我的问题是,在我的设置中没有辅助NameNode有什么影响?是否可以使用其中一个DataNode作为辅助NameNode?如果可能,我该怎么做?(我只在/etc/hadoop/masters文件中插入了NameNode。) 最佳答案

hadoop - 使用 Hadoop 集群的自定义域?

我正在从事一个研究项目,我目前拥有一个域(我们称它为abc.xyz)。我在NameCheap上购买了它,并在域名上运行了一些基本的HTML/CSS/JavaScript(即http://abc.xyz/index.html)。我想做的是使用同一域的子域作为Hadoop域的FQDN,这样ma​​ster主机将是ma​​ster.abc.xyz和slaveX(其中X是数字1、2、3...)主机将是slaveX.abc.xyz。实现此配置必须采取哪些步骤?我是否必须放弃通过NameCheap的cPanel托管? 最佳答案 在您的域名托管服