$集群

Hadoop 集群。 Map reduce 作业停留在 map 100% 和 reduce 0%

我是Hadoop新手。我尝试根据ApacheHadoopsite上给出的示例创建一个hadoop集群。.但是，当我运行mapreduce示例时，应用程序卡在map100%和reduce0%。请帮忙我已经使用Vagrant和Virtualbox设置了环境。创建了两个实例。我在一个实例中运行名称节点和数据节点，在另一个实例中运行资源管理器和节点管理器。mapred-siet.xml配置mapreduce.framework.nameyarnmapreduce.map.memory.mb1536mapreduce.map.java.opts-Xmx1024Mmapreduce.reduce.

reduce Hadoop gt lt property

hadoop - 如何在hadoop集群中安装kafka

我想在包含1个主节点和4个数据节点的ubuntuHadoop集群上安装最新版本的Kafka。这是我的问题:ShouldkafkabeinstalledonallthemachinesoronlyonNameNodemachine?Whataboutzookeeper?ShoulditbeinstalledonallthemachinesoronlyonNameNodemachine?请分享在Hadoop5节点集群中安装kafka和Zookeeper所需的文档最佳答案架构严格基于您的要求和您所拥有的:您的机器有多强大，它们需要处理

中安 hadoop section zookeeper apache-kafka

hadoop - 每天处理超过 1TB 数据的 hadoop 集群的最低硬件

我想创建一个商业市场分析SaaS平台，可以处理大量用户，可以处理1Tb数据，响应时间应该接近实时请建议我最低硬件要求，例如节点数每个节点上的最小RAM和进程并建议我创建此类平台的工具集最佳答案将此图像规范视为示例来源:Hadoop操作关于hadoop-每天处理超过1TB数据的hadoop集群的最低硬件，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/34173010/

hadoop 1TB section 工具集 stackoverflow apache-spark server bigdata

hadoop - 客户端使用哪个配置文件连接到 hadoop 集群

当边缘节点有多个hadoop分布时，可以有多个配置文件分散在目录中。在那些情况下，如何知道客户端正在引用哪个配置文件，以便它连接到集群。(比如说，对于Yarn)。一种选择是查看.bashrc文件以查明是否设置了HADOOP_HOME变量。是否有任何其他选项可以找出这一点。(很明显，使用find命令来搜索文件是不能解决目的的)。最佳答案 Hadoop提供classpath命令。阅读以下命令的说明:classpathprintstheclasspathneededtogettheHadoopjarandtherequiredlibra

hadoop 客户端 2557 hdp

hadoop - AWS - Hadoop 集群 - 节点启动但不工作

我在我的本地服务器中设置了hadoop集群，它运行良好，我正在将其复制到AWS服务器(1个主NN、1个辅助名称节点、7个从属节点)，我能够启动我的hadoop。但是我无法打开像:50070/dfshealth.jsp这样的页面。我已经正确地完成了安装，并且ssh公钥身份验证也与我在本地设置中所做的一样。日志中也没有异常的东西。还有什么我可以调查的吗？最佳答案如果日志正常，则确保打开必要的Hadoop端口。与您的本地设置不同，在AWS中，您应该询问他们要打开的特定端口。在这种情况下，您必须请求打开所需的Hadoophttp和RPC

hadoop section 中设 amazon-web-services hdfs cluster-computing

hadoop - 监控 HBase 集群

我发现Hbase提供了各种指标，可用于监控集群和调整配置参数以获得最佳性能。那么有人能说出这些指标的含义以及要考虑的最重要指标是什么吗？最佳答案指标名称值解释hbase.regionserver.blockCacheCount内存中的block缓存项计数。这是缓存中StoreFiles(HFiles)的block数。hbase.regionserver.blockCacheEvictedCount由于堆大小而必须从block缓存中逐出的block数约束条件。hbase.regionserver.blockCacheFree可用的

hadoop HBase code regionserver pre cloudera opentsdb

linux - 为新的 Hadoop 集群自动配置 SSH

猜测这已经做了很多次，但我找不到一个明确的答案，所以我呼吁你的专业知识以获得更好的解决方案:目标:我正在设置一个中等规模的RHELHadoop集群，并希望自动配置所有节点之间的SSH连接。在第一个节点上，我在文件“remote_ips”中有一个所有IP的列表，并且在文件“hduser_pw”(chmod600)中有hduser密码。第1步)在每个主机上创建“hduser_pw”密码文件forxin$(catremote_ips);做sshpass-p$(cathduser_pw)ssh-oStrictHostKeyChecking=nohduser@$x"echo$(cathduser

Hadoop linux hduser hduser_pw code bash ssh sshpass

hadoop - Hadoop集群中关键文件分布

我想将大量文件从HDFS发送到GoogleStorage(GS)。所以我想在这种情况下使用distcp命令。hadoopdistcp-libjars-mhdfs://:/gs:///我还需要在core-site.xml中指定*.p12key文件才能访问GS。我需要将此文件分发到集群中的所有节点。google.cloud.auth.service.account.keyfile/opt/hadoop/conf/gcskey.p12我不想手动完成。分发key文件的最佳做法是什么？最佳答案有一个泛型参数-filesspecifycom

关键 hadoop gt lt property google-cloud-storage distcp

hadoop - 如何使用 OpenShift 配置 Hadoop 生态系统集群？

我们正在寻找一种可行的方法来使用OpenShift(基于Docker)配置Hadoop生态系统集群。我们希望使用Hadoop生态系统的服务构建集群，即HDFS、YARN、Spark、Hive、HBase、ZooKeeper等。我的团队一直将HortonworksHDP用于本地硬件，但现在将切换到基于OpenShift的基础架构。HortonworksCloudbreak似乎不适合基于OpenShift的基础设施。我找到了this描述了将YARN集成到OpenShift中的文章，但似乎没有更多可用信息。在OpenShift上配置Hadoop生态系统集群的最简单方法是什么？手动添加所有服务

OpenShift hadoop section 容器 bigdata hortonworks-data-platform

azure - hadoop集群，datanode无法运行，排除0个节点

我正在Azure的Hadoop中创建一个多节点(1主和3从)集群，我认为所有的设置都已经完成，但是当我运行一个测试文件时，它遇到了与Stackoverflow中其他人类似的问题，我已经尝试了他们的解决方案，但是，这个问题仍然无法解决。谁能帮助我，我在这个问题上卡了几天org.apache.hadoop.ipc.RemoteException(java.io.IOException):File/benchmarks/TestDFSIO/io_control/in_file_test_io_0couldonlybereplicatedto0nodesinsteadofminReplicat

datanode hadoop apache java azure hadoop2

45 46 474849 50 51