集群NoSQL

hadoop - hadoop集群的系统测试自动化框架

我正在寻找hadoop集群的系统测试框架。受支持的用例应包括HDFS的系统测试、mapreduce作业和hive查询。我从apache中找到了一个名为herriot的,但我不确定它是否仍在维护中。你们知道任何现有框架吗？最佳答案看看1和2用于对集群进行基准测试。它有测试的代码和数据。将它们自动化应该不是什么难事。关于hadoop-hadoop集群的系统测试自动化框架，我们在StackOverflow上找到一个类似的问题： https://stackove

hadoop 集群 section noreferrer noopener frameworks mapreduce hive hdfs

Hadoop - Cloudera MRV1 集群规划 - 理想集群的最小节点数是多少，它看起来如何？

我手动安装了一个具有以下配置的三节点集群:Master/SlaveNode0-NameNode,SecondaryNameNode,JobTracker,HMaster,DataNode,TaskTracker,HRegionServer,HiveMetaStore,DatabaseforHive/Sqoop,HiveServer2,HCatalog,OozieServer,Zookeeper,Oozie-client,Hive-client,pig-client,M/Rclienttools,SqoopSlaveNode1-DataNode,TaskTracker,HRegionSe

小节点数 client HRegionServer Oozie hadoop cluster-computing cloudera

docker搭建mysql多主多从(集群)，亲测有效！

提示：如果你只是想要搭建mysql主从看这篇文档就够了，很多地方参考了这篇文章：点击这里原理图：1、拉取镜像dockerpullmysql:8.0.252、新建mysql四个容器，两主两从主1（docker容器名为mysql-master）dockerrun-p3307:3306--namemysql-master\-v/home/zh188/mysql_data/mysql-master1/log:/var/log/mysql\-v/home/zh188/mysql_data/mysql-master1/data:/var/lib/mysql\-v/home/zh188/mysql_data

集群搭建 mysql master xff docker adb

hadoop - 当 Hadoop 集群宕机时，数据是否保留在 HDFS 中？

我是Qubole的新手，想知道Hadoop集群宕机后数据是否仍在HDFS中？感谢任何帮助。谢谢。最佳答案 HDFS上的数据没有丢失。我们不备份/恢复HDFS。EC2/S3上的计算模型是长期存在的数据始终存在于S3上，而HDFS仅用于中间数据和控制数据。我们有时也使用HDFS(和本地磁盘)作为缓存。关于hadoop-当Hadoop集群宕机时，数据是否保留在HDFS中？，我们在StackOverflow上找到一个类似的问题： https://stackover

机时留在 section HDFS stackoverflow hadoop

hadoop - 在 spark yarn 集群中，容器如何工作取决于 RDD 分区的数量？

我有一个关于ApacheSpark(yarn集群)的问题虽然在这段代码中，创建了10个分区但是在yarncluster中，只需要3个contatinervalsc=newSparkContext(newSparkConf().setAppName("SparkCount"))valsparktest=sc.textFile("/spark_test/58GB.dat",10)valtest=sparktest.flatMap(line=>line.split("")).map(word=>(word,1))在sparkyarn集群中，容器如何工作取决于RDD分区的数量？*因为我只有一点

容器取决于 code section 读入 hadoop apache-spark hadoop-yarn rdd

azure - 如何通过门户管理 HDInsight 集群？

我最近开始使用WindowsAzure和HDInsight，以完成一些MapReduce工作。我想知道的是，是否可以在不需要时通过Azure管理门户暂停或停止正在运行的集群？我尝试了停止或暂停的选项，但找不到任何选项。任何帮助，将不胜感激。最佳答案 HDInsight不支持除Running和Stopped之外的其他状态，这意味着无法将集群设置为暂停或Idle状态，这与其他云提供商不同。您可以找到添加此功能的请求here，如果你感兴趣。回答您的其他问题，通过管理门户管理HDInsight非常简单。有一个完整的界面部分专门用于集群的管

HDInsight azure section em hadoop mapreduce azure-hdinsight

java - hdfs 文件在伪分布式单节点集群中的位置？

我以伪分布式模式在单个节点上安装了hadoop。dfs.replication值为1，hdfs中的文件默认存放在哪里？我使用的hadoop版本是2.5.1。最佳答案 dfs.datanode.data.dir:确定DFS数据节点应在本地文件系统中存储其block的位置。如果这是一个逗号分隔的目录列表，那么数据将存储在所有命名的目录中，通常在不同的设备上。不存在的目录将被忽略。此属性的默认值为:file://${hadoop.tmp.dir}/dfs/data您可以在core-site.xml文件中配置${hadoop.tmp.di

java hdfs hadoop section hadoop-project-dist mapreduce bigdata

hadoop - 人类可读格式的cloudera hadoop集群上的剩余空间

我正在寻找一个命令来显示hadoop集群上剩余空间的人类可读形式。我在这个论坛上找到了一个命令，输出在图像中。hdfsdfsadmin-报告[dfsadmin命令的输出][1]我听说hortonworks中还有另一个命令可以提供更易读的输出。该命令是hdfsdfsadmin-report该命令似乎不适用于cloudera。cloudera中是否有任何等效命令？非常感谢最佳答案不管您使用的是Cloudera还是Hortonworks。如果您使用的是旧版本的hadoop，则命令可能是hadoopdfsadmin-report。您还有

hadoop cloudera section strong mapreduce

hadoop - 在 yarn 集群上安装 spark

我正在寻找有关如何在现有虚拟yarn集群上安装spark的指南。我有一个由两个节点组成的yarn集群，运行了map-reduce作业，效果很好。在日志中查找结果，一切正常。现在我需要在我的vagrantfile中添加spark安装命令和配置文件。我找不到好的指南，有人可以给我一个好的链接吗？我将这个指南用于yarnclusterhttp://www.alexjf.net/blog/distributed-systems/hadoop-yarn-installation-definitive-guide/#single-node-installation提前致谢!

hadoop spark code apache-spark vagrant hadoop-yarn bigdata

java - 使用旧版本运行 Apache Spark 最新版本的集群

我有ClouderaCDH5.2.2集群和ApacheSpark1.5.0。有什么方法可以使用ApacheSpark2.0和数据集API在此集群应用程序上运行？集群设置最好不要更改。我尝试使用maven-shade-plugin运行内置的JARSpark2.0.0，但它不起作用(NoSuchMethodException)。最佳答案如果您想使用Spark2.0.0功能，您的集群应该运行Spark2.0.0。我认为没有解决方法。抛出像NoSuchMethodExeception这样的异常是因为您正在使用的方法或方法的签名已从1.5

Apache Spark section code java maven hadoop apache-spark

42 43 444546 47 48