cluster-computing

hadoop - 如何将 janusgraph 与现有的 hadoop 集群集成

我是大数据的新手，目前正在努力将Janusgraph集成到现有的hadoop集群中。能否请您告诉我如何执行此操作，或者请提供资源链接。最佳答案由于您刚刚开始使用JanusGraph，因此您应该从位于http://docs.janusgraph.org/latest/的官方文档开始。JanusGraph需要存储后端。有几个支持storagebackends.ApacheHadoop本身并不是JanusGraph的存储后端。ApacheHBasestoragebackend很可能是您可能拥有的。

hadoop - Docker 容器运行 Mesos 集群并在集群上运行其他 docker 容器(使用 Marathon)

我刚开始使用Mesos、Docker和Marathon，但我找不到任何可以回答这个特定问题的地方。我想设置一个在Docker上运行的Mesos集群——有几个互联网资源可以做到这一点，但我想在Mesos本身之上运行Docker容器。这意味着Docker容器在其他Docker容器中运行。这有什么问题吗？不知何故，它在直觉上似乎并不正确，但看起来这样做真的很方便。理想情况下，我想运行Mesos集群(使用Marathon、Chronos等)，然后在其上的Docker容器中运行Hadoop。这是可能的还是标准的做事方式？对于什么是良好做法的任何其他建议，我们将不胜感激。谢谢

容器 Marathon section Docker hadoop cluster-computing mesos

hadoop - 使用 Ambari 2.4.2.0 安装 spark 2.1.0

我对Spark和Ambari的集群安装还比较陌生。最近，我接到一个任务，要在一个集群上安装Spark2.1.0，该集群预装了带有Spark1.6.2和HDFS&YARN2.7.3的Ambari。我的任务是安装Spark2.1.0，因为它是最新版本，与RSpark等具有更好的兼容性。我在互联网上搜索了几天，只在AWS或Spark2.1.0上找到了一些安装指南。例如:http://data-flair.training/blogs/install-deploy-run-spark-2-x-multi-node-cluster-step-by-step-guide/和http://spark

hadoop Ambari Spark section apache-spark cluster-computing hortonworks-data-platform

ubuntu - 用于多节点 Hadoop 集群的 Windows 7 和 vmware ubuntu 镜像 - IP 地址的配置

我是ubuntu和Hadoop的新手...我的笔记本电脑装有Windows7，它还有一个UbuntuVMWare镜像(我使用VMWare播放器打开)。我的想法是在同一台笔记本电脑上配置多节点hadoop集群。可不可以有两个ubuntu镜像，每个镜像作为一个虚拟机，这样就可以模拟集群配置(虽然不是理想的集群)？如果是这样，这两个虚拟机是否能够通信？我是否必须更改IP配置等才能使其正常工作？VM1(ubuntu)-HadoopmasterVM2(ubuntu)-Hadoopslave作为扩展，windows7有没有可能也加入集群？Windows7-HadoopmasterVM1(ubunt

ubuntu Windows section Hadoop cluster-computing

hadoop - 测试运行后 HBASE DB 大小增加

我使用的是HDFS+HBASE。我创建了一个数据库并运行了2小时的测试。我想在测试运行后检查数据库大小的增加。我尝试使用以下方法阅读:hadoopdfsadmin-reportandhadoopfs-dus/hbase.还尝试使用检查磁盘大小du-sk/HADOOP.观察运行测试后，大小显示减少而不是增加。正在使用的版本:Hadoop1.0.0、HBase0.90.5、ZooKeeper3.3.4。列族上的压缩是无。请帮助获得正确的过程来计算由于测试而增加的数据库大小。最佳答案 Lakshmi，650K对于HBase/Hadoop

hadoop HBASE section code cluster-computing hdfs

hadoop - 在 Hadoop 2.7.2(CentOS 7) Cluster 中，Datanode 启动但没有连接到 namenode

我安装了一个三节点hadoop集群。master和slave节点单独启动，但datanode没有显示在namenodewebUI中。datanode的日志文件显示以下错误:2016-06-1821:23:53,980INFOorg.apache.hadoop.ipc.Client:Retryingconnecttoserver:namenode/192.168.1.100:9000.Alreadytried0time(s);retrypolicyisRetryUpToMaximumCountWithFixedSleep(maxRetries=10,sleepTime=1000MILLI

Datanode namenode gt lt property hadoop

hadoop - 为学习目的构建小型Hadoop集群的建议

我有一个大数据类测试，我必须对“较小”的数据集进行某种大数据分析。我实际上已经弄清楚了我的东西。我从源代码在我的Ubuntu16.04上以独立模式安装了Hadoop2.8.1和Spark2.2.0(我使用PySpark构建程序)。其实我很乐意自己去做我的事情。问题是，我的一些friend正在努力配置所有这些，我心想“我为什么不和我的同学一起做一个自己的小集群”。所以我正在寻找建议。我的笔记本电脑有12GBRAM和IntelCorei5。最佳答案如果我没理解错的话，您的friend在独立模式下设置spark有困难(意味着根本没有集

小型 hadoop section 大数 noreferrer apache-spark cluster-computing distributed-computing

apache - Hbase Master 和 Region 服务器无法启动

Hadoop在分布式模式下成功运行。在分布式模式下启动HBase时出现以下错误。尝试了hbase-site.xml配置中的所有内容。不知道如何处理这个问题？014-03-1013:55:42,493INFOorg.apache.zookeeper.ClientCnxn:Openingsocketconnectiontoserverip-112-11-1-111.ec2.internal/112.11.1.111:2181.WillnotattempttoauthenticateusingSASL(Unabletolocatealoginconfiguration)2014-03-101

apache Master zookeeper java hadoop hbase cluster-computing apache-zookeeper

hadoop - 安装 Spark Cluster，Hive 的问题

我正在尝试启动Spark/Shark集群，但一直遇到同样的问题。我已按照https://github.com/amplab/shark/wiki/Running-Shark-on-a-Cluster上的说明进行操作并按照说明处理Hive。我认为SharkDriver正在使用另一个版本的Hadoopjar，但不确定原因。这是详细信息，任何帮助都会很棒。星火/鲨鱼0.9.0ApacheHadoop2.3.0Amplabshive0.11斯卡拉2.10.3Java7我已经安装了所有东西，但我收到了一些弃用警告，然后是一个异常:14/03/1411:24:47信息Configuration.d

Cluster hadoop java apache apache-spark shark-sql

python - 在 Pyspark-Cluster 模式下的工作节点上安装外部库

我正在为NLP处理等开发pyspark。我正在使用TextBlobPython库。通常，在独立模式下，安装外部Python库很容易。在集群模式下，我面临着在工作节点上远程安装这些库的问题。我无法访问每台工作机器以在Python路径中安装这些库。我尝试使用Sparkcontextpyfiles选项传送.zip文件...但问题是这些Python包需要安装在工作机器上。是否有不同的方法可以使这个lib-Textblob在Python路径中可用？最佳答案 ItriedtouseSparkcontextpyfilesoptiontoship

Pyspark-Cluster Pyspark section Python strong hadoop nlp apache-spark textblob

11 12 131415 16 17