集群NoSQL

Hadoop 集群 - 如何知道每个 tasktracker 的理想最大 map/reduce 任务数

我刚刚使用Hadoop0.20.205设置了一个Hadoop集群。我有一个主机(NameNode和JobTracker)和另外两个盒子(从机)。我试图了解如何定义要使用的map和reduce任务的数量。到目前为止，我了解到我可以设置每个TaskTracker能够同时处理的最大map和reduce任务数:*mapred.tasktracker.map.tasks.maximum*和*mapred.tasktracker.reduce.tasks.maximum*.此外，我还可以使用*mapred.map.tasks*定义整个集群可以同时运行的最大map任务数。是吗？如果是这样，我怎么知道

hadoop - 如果我停用集群中只有两个数据节点的数据节点之一怎么办？

我搭建了一个hdfs集群，有一个master(namenode)和两个slave(datanode)并且dfs.replication设置为“2”所以每个block都会在两个slave中复制，slave中的文件都是一样的。我的问题是，如果我想停用两个从站之一，它总是显示“DecommissionInProgress”，但没有文件被复制(通过使用sar监视网络)所以我认为如果集群只有两个数据节点，并且复制设置为“2”，我不能停用任何数据节点，因为如果我停用任何一个节点，将只剩下一个节点，所以文件无法复制2.你这么认为吗？最佳答案我

之一 hadoop section stackoverflow hdfs

hadoop - 尝试设置伪 dist hadoop 集群时感到沮丧

在过去的8个小时里，我一直在尝试设置我的Hadoop集群，老实说，这让我筋疲力尽。不仅仅是今天。准确地说是几周了。我已经尝试了大约20-30个我在网上获得的不同教程，每次我都会在最后遇到错误......比如SSH连接问题或JVM故障或PATH问题或最糟糕的问题(WARNutil.NativeCodeLoader:Unable为您的平台加载native-hadoop库...在适用的情况下使用内置java类)...等等。所有这些导致我一遍又一遍地重置我的VMplayer并重新安装Ubuntu。我正在努力获得Hadoop开发人员认证，我需要亲body验从MapReduce和Hadoop到生态

hadoop 沮丧 section CDH5-Installation-Guide mapreduce

java - 真实集群上的 Hadoop wordcount

我开始在集群上使用Hadoop2.2(在本地使用之后)。我设置了所有文件:hdfs-site.xmlmapred-site.xmlyarn-site.xml核心站点.xml粘贴在下一页http://pastebin.com/u/manLiu但是当我运行任何任务时，它会在运行第一个映射器时停止并处于挂起状态。很明显，我去掉了真实的IP地址，写了master和slave。此外，我的集群由4个节点组成，但对于简单的wordcount，我只尝试使用一个节点。谢谢最佳答案这只是文件hdfs-site.xml中的权限问题

wordcount Hadoop section li site java configuration-files

hadoop - 带有本地 Hadoop 集群的 Amazon S3

我在AmazonS3中有大约40TB的数据，我需要使用MapReduce对其进行分析。我们当前的IT政策没有为此提供AmazonEMR帐户，因此我必须依赖本地管理的Hadoop集群。当我们的数据实际存储在S3上时，我想获得有关是否建议使用本地Hadoop集群的建议？最佳答案请查看https://wiki.apache.org/hadoop/AmazonS3关于如何使用S3替代HDFS。您可以选择S3NativeFileSystem或S3BlockFileSystem。关于hadoo

hadoop section strong https amazon-s3

ubuntu - 如何将两台独立的ubuntu机器连接到同一个hadoop集群

我正在使用Hadoop为一个大学项目做一些数据分析。我的大学好心地给了我一台机器的访问权限，该系统正在运行Ubuntu。在我将任何东西放在这个系统上之前，我会在我自己的笔记本电脑上对其进行测试。我在上面安装了虚拟机VMware和Ubuntu。由于我的“主要工作”是在我的虚拟机上完成的，到目前为止，我在单个集群上使用Hadoop(无视我项目的“大数据分析”部分的全部要点)。有没有办法让我将该机器连接到我的虚拟机VMware版本的Ubuntu，以至少演示一个由两个节点组成的集群，或者这是不可能的，因为它们不在同一网络上？提前致谢。最佳答案

ubuntu 台独 section Hadoop https vmware

python - 使用 Scala 或 Python 列出存储在 Hadoop HDFS 上的 Spark 集群中可用的所有文件？

列出Spark本地可用的所有文件名的最有效方法是什么？我正在使用ScalaAPI，但是，Python也应该没问题。最佳答案 importorg.apache.hadoop.fs.{FileSystem,FileUtil,Path}importscala.collection.mutable.Stackvalfs=FileSystem.get(sc.hadoopConfiguration)vardirs=Stack[String]()valfiles=scala.collection.mutable.ListBuffer.empty

python section dirs FileSystem scala hadoop apache-spark

hadoop - AWS Spark 集群设置错误

我已经创建了一个AWSkey对。我正在逐字逐句地遵循此处的说明:https://aws.amazon.com/articles/4926593393724923当我输入"awsemrcreate-cluster--nameSparkCluster--ami-version3.2--instance-typem3.xlarge--instance-count3--ec2-attributesKeyName=MYKEY--应用程序名称=Hive--bootstrap-actionsPath=s3://support.elasticmapreduce/spark/install-spark"

hadoop Spark section elasticmapreduce noreferrer amazon-web-services

hadoop - 如何在hadoop集群上安装Kafka？

我想在我们的HortonWorksHadoop集群上安装最新版本的Kafka，该集群包含2个主节点、2个边缘节点和8个数据节点。计划是在8个数据节点盒中的2个上安装Kafka。Kafka每天需要处理多达几百万个事件，可能需要处理几批大小为0.5Gb-1.2Gb的文件副本。问题:为了避免kafka(或数据节点)潜在的性能下降，我需要考虑对数据节点或kafka的任何特殊配置吗？Kafka通常是如何部署的(在专用盒子上还是在数据节点上运行它可以)？最佳答案您可以通过Ambari安装kafka。转到Ambari主页->点击操作(左下角)

hadoop 何在 section Kafka apache-kafka

hadoop - 我怎么知道Sqoop在Hadoop和NoSQL之间传输数据的时间？

我是Hadoop的新手。我需要从couchbase导入数据到hdfs。已经完成了。但是，我怎么知道数据传输已经完成，这样我就可以用这些数据顺序运行作业（mapreduce）？非常感谢你。最佳答案在完成第一个sqoop加载作业后自动触发第二个作业的最佳方法是使用Oozieworkflow自动化。他们创造了两个动作，第一个动作是一个具有相关属性的sqoop动作配置为将数据从couchbase表加载到hdfs。让第二个作业是任何（HIV/MapReduce／Shell／Java）动作将访问第一个操作的输出，然后开始处理。第二个操作将在

hadoop section br stackoverflow cron couchbase sqoop

273 274 275276277 278 279