集群NoSQL

objective-c - @protocol 与类集群

对于@protocol和ClassClusters，那些主要的赞成和反对是什么？Objective-C中的概念？两人介绍LooseCoupling在程序架构中。它们在概念上几乎相等，还是还有其他值得了解的东西？最佳答案警告:不是cocoa专业人士，但我认为它们根本不平等。与ClassClusters你子类。ClassclustersareadesignpatternthattheFoundationframeworkmakesextensiveuseof.Classclustersgroupanumberofprivatecon

hadoop - 设置hadoop集群

hadoop集群中的工作节点是否需要在每个节点上安装hadoop？如果我只需要一些PC的计算能力，我可以只使用map-reduce而不在每个节点上安装HDFS吗？最佳答案当您说工作节点时，它包括DataNode和TaskTracker。所以从这个意义上说，如果你想运行MR作业，你需要在每台机器上安装它们。但这里的要点是你单独使用MR会做什么。我的意思是，在本地FS中存储的数据上运行MR作业不会有多大用处，因为在这种情况下您无法利用Hadoop提供的分布式数据存储和并行性的强大功能。

hadoop 设置 section stackoverflow

hadoop - 什么文件触发Hadoop集群

我需要知道HDFS包中有哪些文件负责hadoop集群的启动。(这使得集群在我们触发start-dfs.sh时工作)。最佳答案已解决。这些文件是NameNode和DataNode类。干杯。关于hadoop-什么文件触发Hadoop集群，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/23780583/

hadoop section stackoverflow questions hdfs

Apache Falcon 无法提交集群定义

关闭。这个问题是notreproducibleorwascausedbytypos.它目前不接受答案。这个问题是由于错别字或无法再重现的问题引起的。虽然类似的问题可能是on-topic在这里，这个问题的解决方式不太可能帮助future的读者。关闭6年前。Improvethisquestion我正在尝试向正在运行的Apachefalcon服务器提交集群定义。服务器在分布式节点中运行，前面有一个Prism实例。两者都在我的机器上通过http和本地运行。我正在执行以下命令falconentity-typecluster-submit-file/projects/falcon/examples

Apache Falcon section 34 cluster hadoop

hadoop - Hortonworks Ambari 能否管理多个集群

我一直在网上查看Ambari是否可以像Cloudera那样管理多个集群。这在Ambari中可能吗？如果是这样，如何？我查看了整个Ambari网络用户界面，只看到添加新主机或服务的选项，但没有看到关于添加集群的选项。最佳答案它在roadmap中.目前可以在API级别执行此操作，从2.0版开始，可以从WebUI管理多个集群。关于hadoop-HortonworksAmbari能否管理多个集群，我们在StackOverflow上找到一个类似的问题： https

Hortonworks hadoop section Ambari stackoverflow

hadoop - 需要明确单节点集群中的 Hadoop block 大小

我有一个单节点Hadoop集群版本-2.x。我设置的block大小是64MB。我在HDFS中有一个大小为84MB的输入文件。现在，当我运行MR作业时，我看到有2个有效的拆分为84MB/64MB~2等2个拆分。但是当我运行命令“hadoopfsck-blocks”来查看block的详细信息时，我看到了这个。Totalsize:90984182BTotaldirs:16Totalfiles:7Totalsymlinks:0Totalblocks(validated):7(avg.blocksize12997740B)Minimallyreplicatedblocks:7(100.0%)Ov

hadoop block section blocks size hdfs

hadoop - DataNode在CDH5集群中自动重启

我们已经设置了一个有6个从节点的集群。我试图了解当其中一个DataNode死亡时复制是如何发生的。我登录到其中一个从站并使用kill-9命令杀死了DataNode。一段时间后，DataNode自动重启，HDFS恢复健康状态。我正在验证这一点，因为DataNode的PID已更改。我没有看到任何关于DataNode上述行为的文档。这是ApacheHadoop或ClouderaCDH功能吗？任何对文档的引用都将受到赞赏。最佳答案由于datanode的pid发生了变化，我认为不是datanode的行为。如果您使用ClouderaMana

DataNode hadoop section Cloudera hdfs

hadoop - 带有 NOSQL/Hadoop 的企业数据仓库 - "NO RDBMS"

是否有使用NOSQL/Hadoop解决方案设计的EDW(企业数据仓库)系统？我知道有连接到HDFS子系统的PDW系统(MSPDWpolybase、Greenplumhawq等)。这些是专有的硬件和软件解决方案，并且在规模上很昂贵。我正在寻找一个带有NOSQL或Hadoop的解决方案，最好是开源的企业数据仓库解决方案。如果您实现了任何经验，我想听听您的任何经验。再说一遍，我并不是在寻找任何类型的专有RDBMS作为此EDW解决方案的参与者。我在互联网上做了一些研究，虽然它是可能的(Impala是一个可能的选择)但没有看到任何人真正完全使用NOSQL或Hadoop实现。如果您做过此类事情，我

amp hadoop section 的 voltdb nosql

hadoop - 在 hadoop 集群中重新格式化名称节点后重新启动数据节点

使用hadoop设置官方文档中提供的基本配置，我可以运行hadoop集群并提交mapreduce作业。问题是每当我停止所有守护进程并重新格式化名称节点时，当我随后启动所有守护进程时，数据节点不会启动。我一直在寻找解决方案，似乎是因为格式化只格式化了名称节点，需要删除数据节点的磁盘空间。我该怎么做？我需要对配置文件进行哪些更改？完成这些更改后，如何在再次格式化名称节点时删除正确的文件？最佳答案特别是如果您提供了可以在hdfs-site.xml中定义的以下2个参数的配置dfs.name.dir:确定DFS名称节点应在本地文件系统中存

hadoop 重新 section strong code

python - mrjob bad --steps 在 Hadoop 集群上使用 make_runner 时出错

我正在尝试以编程方式运行简单的wordcount示例，但我无法使代码在hadoop集群上运行。test_job.py中的作业:frommrjob.jobimportMRJobimportreWORD_RE=re.compile(r"[\w']+")classMRWordFreqCount(MRJob):defmapper(self,_,line):forwordinWORD_RE.findall(line):yieldword.lower(),1defcombiner(self,word,counts):yieldword,sum(counts)defreducer(self,word

时出 make_runner runner section line python hadoop mrjob

259 260 261262263 264 265