草庐IT

hadoop - 如何将 janusgraph 与现有的 hadoop 集群集成

我是大数据的新手,目前正在努力将Janusgraph集成到现有的hadoop集群中。能否请您告诉我如何执行此操作,或者请提供资源链接。 最佳答案 由于您刚刚开始使用JanusGraph,因此您应该从位于http://docs.janusgraph.org/latest/的官方文档开始。JanusGraph需要存储后端。有几个支持storagebackends.ApacheHadoop本身并不是JanusGraph的存储后端。ApacheHBasestoragebackend很可能是您可能拥有的。

hadoop - Docker 容器运行 Mesos 集群并在集群上运行其他 docker 容器(使用 Marathon)

我刚开始使用Mesos、Docker和Marathon,但我找不到任何可以回答这个特定问题的地方。我想设置一个在Docker上运行的Mesos集群——有几个互联网资源可以做到这一点,但我想在Mesos本身之上运行Docker容器。这意味着Docker容器在其他Docker容器中运行。这有什么问题吗?不知何故,它在直觉上似乎并不正确,但看起来这样做真的很方便。理想情况下,我想运行Mesos集群(使用Marathon、Chronos等),然后在其上的Docker容器中运行Hadoop。这是可能的还是标准的做事方式?对于什么是良好做法的任何其他建议,我们将不胜感激。谢谢

azure - 将 HDInsight 集群升级/迁移到最新版本

我确定这已发布在某处或已经传达,但我似乎找不到任何关于从一个版本升级/迁移HDInsight集群到下一个版本的信息。一点背景。自2014年1月24日以来,我们一直在使用Hive和HDInsight来存储我们所有的IIS日志。我们喜欢它,它为我们的团队提供了很好的洞察力。我最近在评论http://azure.microsoft.com/en-us/documentation/articles/hdinsight-component-versioning/并注意到我们的HDInsight版本(2.1.3.0.432823)不再受支持,并将于5月弃用。这让我开始思考如何进入3.2版。我似乎无

hadoop - 三节点hadoop集群中的Hbase安装

我已经安装了我的hadoop三节点集群(master、slave1和slave2)。我想安装Hbase完全分布式模式。我想在我的hadoop集群MASTER机器(即Namenode)中安装HBaseMaster和Zookeepr,并在SLAVE1和SLAVE2(即Datanodes)机器中安装区域服务器。这是正确的做法吗?抱歉,这可能是一个简单的问题,但我是NoSQL系统的新手,想进行此安装。如果有人能够分享安装的任何引用文档,我真的很感激。提前致谢。 最佳答案 为了在三个节点上配置hbase和zookeeper,即1master和

hadoop - 在Hadoop中,复制因子和集群中的节点数之间有什么关系?

例如,如果复制因子为3,并且集群中有2个节点。那么将创建多少个副本?它们将如何放置? 最佳答案 复制因子大于可用数据节点会破坏复制的目的。副本应该明确且唯一地放置在数据节点上。如果一个数据节点包含同一个block的多个副本(理论上),它不会提供额外的容错能力,因为如果该节点出现故障,两个副本都会丢失。因此每个节点只有一个副本就足够了。并回答您的问题:Whatistherelationshipbetweenreplicationfactorandnumberofdatanodesincluster?Ans.Maximumreplica

ubuntu - 用于多节点 Hadoop 集群的 Windows 7 和 vmware ubuntu 镜像 - IP 地址的配置

我是ubuntu和Hadoop的新手...我的笔记本电脑装有Windows7,它还有一个UbuntuVMWare镜像(我使用VMWare播放器打开)。我的想法是在同一台笔记本电脑上配置多节点hadoop集群。可不可以有两个ubuntu镜像,每个镜像作为一个虚拟机,这样就可以模拟集群配置(虽然不是理想的集群)?如果是这样,这两个虚拟机是否能够通信?我是否必须更改IP配置等才能使其正常工作?VM1(ubuntu)-HadoopmasterVM2(ubuntu)-Hadoopslave作为扩展,windows7有没有可能也加入集群?Windows7-HadoopmasterVM1(ubunt

【Hadoop】集群配置之主要配置文件(hadoop-env.sh、yarn-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml...)

Hadoop配置文件模板core-site.xmlhadoop-env.shhdfs-site.xmlyarn-env-shyarn-site.xmlmapred-site.xmlslavesHadoop配置文件模板参考官方配置文档:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/ClusterSetup.html#Configuring_Environment_of_Hadoop_DaemonsHadoop的配置文件都在$HADOOP_HOME/etc/hadoop下面。比如我这里是:Hadoop

hadoop - 使用 Capacity Scheduler 在 Hadoop 集群中设置队列

我尝试设置3个队列。为此,我配置了CapacityScheduler.xml,如下所示。但在此之后,jobtracker正在关闭。我还将这些队列的名称添加到mapred-site.xml中。谁知道原因。entercodehere*mapred.capacity-scheduler.queue.BatchJobsQueue.capacity70mapred.capacity-scheduler.queue.BatchJobsQueue.supports-priorityfalsemapred.capacity-scheduler.queue.BatchJobsQueue.minimum-

hadoop - 将文件从 AWS EMR 集群中的映射器上传到 S3

我有一个现有的mapreduce作业在AWSEMR上运行,它处理数十亿行日志并进行一些计算以从映射器形成(键,值)对。这些计算非常耗时,我需要在其他一些mapreduce作业中使用这些计算的某些中间步骤的输出。所以,我想利用计算的输出并上传到s3,而不影响现有的工作(即不改变当前的映射器或缩减器)。在上传之前,我首先将这些行收集到一个本地临时文件中,一旦文件变得足够大,我将把这个文件上传到s3。问题是-与reducer不同,Mapper不能根据键对数据进行排序。我如何为s3设计唯一的文件名以从不同的映射器上传数据,这样就不会有任何文件名冲突?我正在使用Java。如果有办法获取映射器集群

hadoop - 在 hadoop 集群中添加新的数据节点

我设置了3节点集群,运行良好。现在我想再添加一个节点到这个集群。我试过了,但是新节点没有添加到集群中。我的问题是在哪里可以找到此类问题的异常消息。如果我启动数据节点守护进程,它将在新节点中再启动一个,但如果我连接到集群,名称节点将停止数据节点守护进程。因为我猜是一些配置或目录权限问题,所以我怎样才能找出这些错误?这些错误在哪个日志文件中可用?异常:----------------013-06-1418:20:33,987INFOorg.apache.hadoop.hdfs.server.namenode.NameNode:NameNodeupat:master/192.168.0.13