集群NoSQL_草庐IT

Hadoop双节点集群环境，NameNode的web UI显示活节点数为1，死节点数为0

我为Hadoop正确配置了两节点集群环境，Master也为datanode配置好了。所以目前我有两个数据节点，我可以毫无问题地启动Master中的所有服务。从数据节点也能够停止从主节点启动。但是当我使用urlhttp://:50070/dfshealth.jsp检查健康状况时事件节点数始终只显示一个而不是两个。主流程:~/hadoop-1.2.0$jps9112TaskTracker8805SecondaryNameNode9182Jps8579DataNode8887JobTracker8358NameNode从属进程:~/hadoop-1.2.0$jps18130DataNode1

点数死节 section NameNode DataNode hadoop bigdata

hadoop - 随着集群规模的增加，每个节点并发运行的映射器数量在 Elastic MapReduce w/AMI 3.1.0 和 Hadoop 2.4.0 上急剧下降

在相关问题(HowtosettheprecisemaxnumberofconcurrentlyrunningtaskspernodeinHadoop2.4.0onElasticMapReduce)中，我要求提供将并发运行的映射器/缩减器的数量与YARN和MR2内存参数相关联的公式。事实证明，在ElasticMapReduce上，当我的集群有2到10个c3.2xlarge节点时，那里提到的公式的变体工作正常，每个节点有7-9个并发运行的映射器；但是当c3.2xlarges的数量为20或40时，我发现集群未充分利用:每个节点仅运行1-4个映射器。由于我的工作受CPU限制，这尤其糟糕:MR2

射器急剧 section stackoverflow hadoop amazon-web-services amazon-ec2 elastic-map-reduce hadoop-yarn

hadoop - 将 hadoop 集群连接到多个 Google 项目中的多个 Google Cloud Storage 存储桶

可以同时将我的Hadoop集群连接到多个GoogleCloud项目吗？我可以通过GoogleCloudStorageConnector在单个GoogleProject中轻松使用任何GoogleStorage存储桶，如本线程中所述Migrating50TBdatafromlocalHadoopclustertoGoogleCloudStorage.但是我找不到任何文档或示例如何从单个map-reduce作业连接到两个或多个GoogleCloud项目。你有什么建议/技巧吗？非常感谢。最佳答案确实，可以同时将您的集群连接到来自多个不同

hadoop Google section stackoverflow google-cloud-storage google-hadoop

hadoop - 在 hadoop 多节点集群上启动 HDFS 守护进程时出错。Datanode 未启动

我正在尝试设置hadoop集群并在连接数据节点时出现以下错误。Namenode已启动并运行良好，但数据节点正在产生问题。/etc/hosts文件在两个节点上都可用。IP表已停止(f/w)。ssh发生。2015-05-2020:54:05,008INFOorg.apache.hadoop.ipc.Client:Retryingconnecttoserver:nn1.cluster1.com/192.168.1.11:9000.Alreadytried9time(s);retrypolicyisRetryUpToMaximumCountWithFixedSleep(maxRetries=1

时出 hadoop section

hadoop - 通过 socks 代理将 YARN 作业提交到远程 Hadoop 集群

我正在尝试通过SOCKS代理访问运行YARN的防火墙Hadoop集群。集群本身没有使用代理连接——只有我在本地机器(例如笔记本电脑)上运行的客户端通过ssh-D9999user@gateway-host连接到可以看到Hadoop的机器簇。在Hadoop配置core-site.xml(在我的笔记本电脑上)中，我有以下几行:hadoop.socks.serverlocalhost:9999hadoop.rpc.socket.factory.class.defaultorg.apache.hadoop.net.SocksSocketFactory以这种方式访问HDFS效果很好。但是，当我

交到 hadoop code section proxy hadoop-yarn

Hadoop 集群。 Map reduce 作业停留在 map 100% 和 reduce 0%

我是Hadoop新手。我尝试根据ApacheHadoopsite上给出的示例创建一个hadoop集群。.但是，当我运行mapreduce示例时，应用程序卡在map100%和reduce0%。请帮忙我已经使用Vagrant和Virtualbox设置了环境。创建了两个实例。我在一个实例中运行名称节点和数据节点，在另一个实例中运行资源管理器和节点管理器。mapred-siet.xml配置mapreduce.framework.nameyarnmapreduce.map.memory.mb1536mapreduce.map.java.opts-Xmx1024Mmapreduce.reduce.

reduce Hadoop gt lt property

hadoop - 如何在hadoop集群中安装kafka

我想在包含1个主节点和4个数据节点的ubuntuHadoop集群上安装最新版本的Kafka。这是我的问题:ShouldkafkabeinstalledonallthemachinesoronlyonNameNodemachine?Whataboutzookeeper?ShoulditbeinstalledonallthemachinesoronlyonNameNodemachine?请分享在Hadoop5节点集群中安装kafka和Zookeeper所需的文档最佳答案架构严格基于您的要求和您所拥有的:您的机器有多强大，它们需要处理

中安 hadoop section zookeeper apache-kafka

hadoop - 每天处理超过 1TB 数据的 hadoop 集群的最低硬件

我想创建一个商业市场分析SaaS平台，可以处理大量用户，可以处理1Tb数据，响应时间应该接近实时请建议我最低硬件要求，例如节点数每个节点上的最小RAM和进程并建议我创建此类平台的工具集最佳答案将此图像规范视为示例来源:Hadoop操作关于hadoop-每天处理超过1TB数据的hadoop集群的最低硬件，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/34173010/

hadoop 1TB section 工具集 stackoverflow apache-spark server bigdata

hadoop - 客户端使用哪个配置文件连接到 hadoop 集群

当边缘节点有多个hadoop分布时，可以有多个配置文件分散在目录中。在那些情况下，如何知道客户端正在引用哪个配置文件，以便它连接到集群。(比如说，对于Yarn)。一种选择是查看.bashrc文件以查明是否设置了HADOOP_HOME变量。是否有任何其他选项可以找出这一点。(很明显，使用find命令来搜索文件是不能解决目的的)。最佳答案 Hadoop提供classpath命令。阅读以下命令的说明:classpathprintstheclasspathneededtogettheHadoopjarandtherequiredlibra

hadoop 客户端 2557 hdp

hadoop - AWS - Hadoop 集群 - 节点启动但不工作

我在我的本地服务器中设置了hadoop集群，它运行良好，我正在将其复制到AWS服务器(1个主NN、1个辅助名称节点、7个从属节点)，我能够启动我的hadoop。但是我无法打开像:50070/dfshealth.jsp这样的页面。我已经正确地完成了安装，并且ssh公钥身份验证也与我在本地设置中所做的一样。日志中也没有异常的东西。还有什么我可以调查的吗？最佳答案如果日志正常，则确保打开必要的Hadoop端口。与您的本地设置不同，在AWS中，您应该询问他们要打开的特定端口。在这种情况下，您必须请求打开所需的Hadoophttp和RPC

hadoop section 中设 amazon-web-services hdfs cluster-computing