我已按照说明成功安装了一个Cloudera4节点Hadoop集群,其中包括所有软件,如HBase等。然后安装并构建了asynchbase,然后是OpenTSDB。似乎奏效了。但是,当我尝试按照他们的网站“入门指南”运行它时,会输出此错误。有什么提示吗?谢谢。[root@n1opentsdb-1.1.0]#./build/tsdbtsd--port=4242--staticroot=build/staticroot--cachedir="$tsdtmp"2013-05-2814:31:38,928INFO[main]TSDMain:Starting.2013-05-2814:31:38,
我想将数据从CDH3复制到CDH4(在不同的服务器上)。我的CDH4服务器设置为无法看到CDH3,因此我必须将数据从CDH3上游推送到CDH4。(这意味着我无法从CDH4运行distcp命令来复制数据)。如何通过在较低版本的CDH3hadoop上运行命令将我的数据传输到CDH4的HDFS,或者这不可能吗? 最佳答案 理想情况下,您应该能够使用distcp将数据从一个HDFS集群复制到另一个。hadoopdistcp-p-update"hdfs://A:8020/user/foo/bar""hdfs://B:8020/user/foo
对于我的最后一年项目,我需要在我的大学实验室中设置一个小型hadoop集群。我以前曾在hadoop上工作过,但只在伪集群中工作过。现在摆在我们面前的任务是在我们所有的计算机上安装ubuntu,然后在每台计算机上设置hadoop。我计划在ubuntu12.04中使用hadoop用户的自定义iso来执行此操作。我在想什么1.在所有系统中安装ISO。2.如果1正确完成,则转到在每个系统上配置hadoop,但这很棘手,因为实验室计算机的所有ip都是动态的并且不断变化。那么有什么方法可以绑定(bind)这些pc的mac地址,只要这些mac地址出现,主节点就可以将它们包含在集群中。我有很多不确定性
是否需要将包含我的Mapper/Reducer类的jar文件部署到所有运行Hadoop的节点上?还是只在主节点(NameNode)上? 最佳答案 简短回答:否。开始MapReduce作业的节点/网关机器。您需要将主要的MapReduceDriverjar放入本地文件系统,所有依赖jar都可以放入本地文件系统或HDFS小路。因此,当您开始作业时,您将使用-libjars参数传递依赖库jar路径。HDFSjar将在HDFS中的路径中包含hdfs://前缀。本地系统上需要主MapReducejar才能启动mapreduce作业,这实际上是
我首先部署了一个伪分布式系统,然后将其转换为完全分布式系统并格式化了我的namnode,现在我在伪分布式系统中的数据节点没有连接到我的名称节点PS:我用来做pseud的namenode是我在全分布式系统中作为namnode使用的 最佳答案 你需要做这样的事情:bin/stop-all.sh(或2.x系列中的stop-dfs.sh和stop-yarn.sh)rm-Rf/app/tmp/hadoop-your-username/*bin/hadoopnamenode-format引用此链接:http://pages.cs.brandei
我应该如何向现有的hadoop集群添加新的数据节点?我是否只是停止所有,设置一个新的数据节点服务器作为现有的数据节点,并将新的服务器IP添加到名称节点并将从站的数量更改为正确的数量?另一个问题是:在我向集群添加一个新的数据节点后,我是否需要做任何事情来平衡所有数据节点或将现有文件和目录“重新分配”到不同的数据节点? 最佳答案 对于ApacheHadoop,您可以选择以下两个选项之一:1.-准备数据节点配置(JDK、二进制文件、HADOOP_HOMEenvvar、指向主服务器的xml配置文件、在主服务器的从文件中添加IP等)并在这个新
我们有一个Hadoop集群(Hadoop0.20),我想使用Nutch1.2通过HTTP将一些文件导入HDFS,但我无法在集群上运行Nutch。我已经更新了$HADOOP_HOME/bin/hadoop脚本以将Nutchjar添加到类路径(实际上我已经从$NUTCH_HOME/bin/nutch没有将$NUTCH_HOME/lib/*添加到类路径的部分的脚本)然后我尝试运行以下命令来注入(inject)URLS:hadoopjarnutch*.jarorg.apache.nutch.crawl.Injector-confconf/nutch-site.xmlcrawl_pathurls
嗨,我有一个小疑问,出于好奇,我已经开始使用了,但现在我遇到了以下问题我的场景是这样的——我有10台机器连接在LAN中,我需要在一个系统中创建名称节点,在其余9台机器中创建数据节点。那么我需要在所有10台机器上安装Hadoop吗?例如我有(1..10)台机器,其中机器1是服务器,机器(2..9)是从机[数据节点]所以我需要在所有10台机器上安装hadoop?而且我在商用机器上的Hadoop集群网络上搜索了很多,但我没有得到任何与安装相关的东西[即配置]。其中一些给出了如何在自己的系统上而不是在集群环境上配置和安装Hadoop谁能帮帮我?并给我详细的想法或文章建议的链接来完成上述过程谢谢
我刚刚开始使用Hadoop。我的问题对您来说可能很愚蠢,但很令人困惑。我的问题是,如果我有10TB的数据和10个节点,是否将数据复制到所有节点上,每个节点上有1TB?如果是,我会提交一个字数统计程序。MapReduce代码是否在每个节点上运行?如果是这样,reducer是否会在mapper完成后在每个节点上启动?提前致谢 最佳答案 欢迎使用Hadoop。数据分布取决于您的复制因子(hdfs-site.xml中的dfs.replication)。如果因子为1,则表示所有数据在集群中仅存储一次。2表示两次,等等。因此对于复制因子3,10
我是Hadoop环境的新手。我想知道是否可以使用虚拟机在一台机器上运行一个集群(包含2或3个节点)。欢迎任何澄清。谢谢。 最佳答案 是的,我们可以在一台机器上安装许多VM。但是,如果我们考虑(例如)clouderaVM4.7,则每个都需要4Gb的RAM。所以对于3个VM的3*4=12gb。而且,除了您的机器要运行其应用程序之外,它至少需要2Gb。所以总的来说你需要14+gb的ram。并且,硬盘分区也应该做相应的。 关于hadoop-在一台机器上运行Hadoop集群,我们在StackOve