集群NoSQL

hadoop - hadoop集群中的数据复制

我是Hadoop的初学者。来自同一个文件的2个不同数据block是否可以存储在同一个数据节点中？例如:文件“file.txt”中的blk-A和blk-B可以放在同一个数据节点(数据节点1)中。最佳答案 Here是解释block放置策略的文档。目前，HDFS复制默认为3，这意味着一个block有3个副本。它们的放置方式是:一个block被放置在一个唯一机架上的数据节点上。第二个block放在不同机架上的数据节点上。第三block被放置在同一机架上的不同数据节点上第二block。当发生诸如数据节点已死、block已损坏等事件时，此策略

hadoop - 多节点hadoop集群和mesos上跑hadoop有什么区别？

我已经构建了一个多节点hadoop集群，然后我开始研究mesos以及在mesos集群上运行hadoop的能力，所以这是我的问题:1)ShouldIrunhadooponmesoscluster?oritdoesn'tmatter.2)Whatisthedifferencebetweenthem? 最佳答案不同的层级有不同的东西。你可以直接在一组机器上部署hadoop集群。这样您的机器现在就可以处理hadoop作业。或者你可以先部署mesos集群，然后在mesos上部署hadoop集群、spark集群、kafka等。为了将您的had

hadoop mesos section

database - HDFS vs NoSQL (HBASE)，它是如何工作的？

我(几乎)浏览了谷歌上的所有资源，但没有得到有关Hadoop和NoSQL的信息。假设我有很多数据要存储。我使用Hadoop和它的原生高清文件系统，但我也想获得实时信息，所以我需要NoSQL。我的数据库将安装在哪里？在数据节点本身？在名称节点上？两者？让我们(再一次)想象一下，我的系统中有数据，namenode将把它分成几部分并将它们复制到不同的datanode上。使用NoSQL，它会以同样的方式工作吗？HDFS是否参与此过程？存储在NameNode中的元数据给出了地址，那么如何查询呢？我想我基本上理解了Hadoop和HBase的概念，但是当我进一步深入时，我就误解了..

database HBASE strong NoSQL Hadoop bigdata

hadoop - 在 Hadoop 集群上安装 RHadoop

我正在尝试在我的Hadoop集群上安装RHadoop。在安装一些必需的软件包时，我遇到了以下错误:>install.packages("Megh/rmr2_3.3.1.tar.gz")Installingpackageinto‘/usr/lib64/R/library’(as‘lib’isunspecified)inferring'repos=NULL'from'pkgs'ErrorinrawToChar(block[seq_len(ns)]):embeddednulinstring:'rmr2/man/fromdfstodfs.Rd\0\0\0\0erties\ni-_".'Warn

RHadoop hadoop section 34 tar hive

java - Hadoop - 设置单节点集群的问题

我正在尝试按照本文设置Hadoop单节点集群-http://www.bogotobogo.com/Hadoop/BigData_hadoop_Install_on_ubuntu_single_node_cluster.php一切看起来都不错，但是当启动hadoop并列出所有端口时，我看到几乎没有丢失。这些是我机器上的端口。TCP000.0.0.0:80880.0.0.0:*监听1001504345765/javaTCP000.0.0.0:500100.0.0.0:*监听1001455875461/javaTCP000.0.0.0:500750.0.0.0:*监听100145594546

Hadoop java 1001 TCP

java - 在非集群计算机上编译Hadoop MapReduce并在Hadoop集群上运行

我已经阅读了很多关于Hadoop的文档和信息，但无法弄清楚如何实现这个简单的工作流:我想在我的工作机器上使用HadoopJavaAPI开发和编译HadoopMapReduce，并安装了所有IDE等。我想以最简单的方式(最好是通过IDE)在Hadoop集群上部署和运行MapReduce作业我希望能够将这些MapReduce作业集成到外部应用程序中，并能够透明地运行它们。看起来所有开发/编译/运行都应该在MasterNode上完成，其中存在bin/hadoop命令行实用程序和Hadoop库。我说得对吗？开发、运行、部署MapReduce应用程序的一般方法是什么？是否有某种maven插件可以

上编 Hadoop blockquote MapReduce java maven cloudera

hadoop - Apache Hive 安装在伪分布式或多节点集群环境

我已经在我的电脑的多节点环境中安装了hadoop，如下所示1:4个加载ubuntu(14.04)的virtualbox实例2:1-masternode2-slavenode其余vm实例作为client注意:所有4个虚拟机都在我的PC中运行我能够在上述设置上成功完成apace-2.6hadoop设置。现在我想安装hive以便进行一些数据汇总、查询和分析。但我不确定我必须如何进一步进行。我有以下几个疑问:问题1:我是否需要在所有节点(主节点/名称节点和从节点/数据节点)上安装/设置ApacheHive(0.14)？还是仅在主节点上？Q2:meta-store应该用什么模式来处理，是本地模式

hadoop Apache section Metastore strong hive hbase hdfs hadoop2

hadoop - 配置单元表导出到其他 hadoop 集群或集群 + distcp 中的配置单元导出？

我想将hive表从一个Hadoop集群A导出到另一个B。我有两种方法:首先:导出到A(同一个集群)的hdfsdistcp到集群B的hdfs(不同的集群)导入到集群B的hive第二个:导出到B的hdfs(不同的集群)导入到集群B的hivedistcp是否增加了额外的优势？最佳答案不清楚“导出到HDFS”和“导入到Hive”是什么意思。Hive数据文件无论如何都存储在HDFS中!对于托管表，所有这些数据文件以确定的方式位于同一“位置”下，最简单的做法是:在集群B中创建一个空的托管表，具有完全相同的布局和Serde--还创建所有预期的

配置单 hadoop strong section li hive hdfs distcp

hadoop - 对于 Cloudera 5.4 hadoop 集群，Spark 独立调度程序或 Yarn 调度程序更好吗？

关于能够使用Spark运行机器学习作业。Yarn调度器和SparkStandalone调度器哪个更好？最佳答案运行实际的spark作业时没有区别。如果您的集群中运行着不同的spark应用程序和/或其他组件(当然支持Yarn/Mesos)，Yarn/Mesos可以帮助您安排资源。Spark独立集群无法管理资源。也就是说，如果您启动一个Spark应用程序并且它使用了所有资源，那么第二个应用程序将找不到任何剩余资源。这意味着您必须自己执行此操作(例如相应地调整Spark配置) 关于hado

hadoop Cloudera section Spark 中运 apache-spark scheduler hadoop-yarn

hadoop - 在 hbase 集群上设置多个 tsd

在我的HBase集群上设置多个opentsdb实例需要完成哪些配置？我想设置一些实例用于写入，一些实例用于只读。找到这个链接https://groups.google.com/forum/#!searchin/opentsdb/multiple$20tsd/opentsdb/NiTKnsmm7NI/O7mPzWwwshYJ但我很困惑是否所有实例都需要指向运行HMaster守护进程的我的单一主节点？在不同的实例中如何设置这些属性？https://groups.google.com/forum/#!searchin/opentsdb/multiple$20tsd/opentsdb/nZ59

hadoop hbase strong section time-series cluster-computing opentsdb

262 263 264265266 267 268