草庐IT

集群NoSQL

全部标签

hadoop - hadoop集群的系统测试自动化框架

我正在寻找hadoop集群的系统测试框架。受支持的用例应包括HDFS的系统测试、mapreduce作业和hive查询。我从apache中找到了一个名为herriot的,但我不确定它是否仍在维护中。你们知道任何现有框架吗? 最佳答案 看看1和2用于对集群进行基准测试。它有测试的代码和数据。将它们自动化应该不是什么难事。 关于hadoop-hadoop集群的系统测试自动化框架,我们在StackOverflow上找到一个类似的问题: https://stackove

Hadoop - Cloudera MRV1 集群规划 - 理想集群的最小节点数是多少,它看起来如何?

我手动安装了一个具有以下配置的三节点集群:Master/SlaveNode0-NameNode,SecondaryNameNode,JobTracker,HMaster,DataNode,TaskTracker,HRegionServer,HiveMetaStore,DatabaseforHive/Sqoop,HiveServer2,HCatalog,OozieServer,Zookeeper,Oozie-client,Hive-client,pig-client,M/Rclienttools,SqoopSlaveNode1-DataNode,TaskTracker,HRegionSe

docker搭建mysql多主多从(集群),亲测有效!

提示:如果你只是想要搭建mysql主从看这篇文档就够了,很多地方参考了这篇文章:点击这里原理图:1、拉取镜像dockerpullmysql:8.0.252、新建mysql四个容器,两主两从主1(docker容器名为mysql-master)dockerrun-p3307:3306--namemysql-master\-v/home/zh188/mysql_data/mysql-master1/log:/var/log/mysql\-v/home/zh188/mysql_data/mysql-master1/data:/var/lib/mysql\-v/home/zh188/mysql_data

hadoop - 当 Hadoop 集群宕机时,数据是否保留在 HDFS 中?

我是Qubole的新手,想知道Hadoop集群宕机后数据是否仍在HDFS中?感谢任何帮助。谢谢。 最佳答案 HDFS上的数据没有丢失。我们不备份/恢复HDFS。EC2/S3上的计算模型是长期存在的数据始终存在于S3上,而HDFS仅用于中间数据和控制数据。我们有时也使用HDFS(和本地磁盘)作为缓存。 关于hadoop-当Hadoop集群宕机时,数据是否保留在HDFS中?,我们在StackOverflow上找到一个类似的问题: https://stackover

hadoop - 在 spark yarn 集群中,容器如何工作取决于 RDD 分区的数量?

我有一个关于ApacheSpark(yarn集群)的问题虽然在这段代码中,创建了10个分区但是在yarncluster中,只需要3个contatinervalsc=newSparkContext(newSparkConf().setAppName("SparkCount"))valsparktest=sc.textFile("/spark_test/58GB.dat",10)valtest=sparktest.flatMap(line=>line.split("")).map(word=>(word,1))在sparkyarn集群中,容器如何工作取决于RDD分区的数量?*因为我只有一点

azure - 如何通过门户管理 HDInsight 集群?

我最近开始使用WindowsAzure和HDInsight,以完成一些MapReduce工作。我想知道的是,是否可以在不需要时通过Azure管理门户暂停或停止正在运行的集群?我尝试了停止或暂停的选项,但找不到任何选项。任何帮助,将不胜感激。 最佳答案 HDInsight不支持除Running和Stopped之外的其他状态,这意味着无法将集群设置为暂停或Idle状态,这与其他云提供商不同。您可以找到添加此功能的请求here,如果你感兴趣。回答您的其他问题,通过管理门户管理HDInsight非常简单。有一个完整的界面部分专门用于集群的管

java - hdfs 文件在伪分布式单节点集群中的位置?

我以伪分布式模式在单个节点上安装了hadoop。dfs.replication值为1,hdfs中的文件默认存放在哪里?我使用的hadoop版本是2.5.1。 最佳答案 dfs.datanode.data.dir:确定DFS数据节点应在本地文件系统中存储其block的位置。如果这是一个逗号分隔的目录列表,那么数据将存储在所有命名的目录中,通常在不同的设备上。不存在的目录将被忽略。此属性的默认值为:file://${hadoop.tmp.dir}/dfs/data您可以在core-site.xml文件中配置${hadoop.tmp.di

hadoop - 人类可读格式的cloudera hadoop集群上的剩余空间

我正在寻找一个命令来显示hadoop集群上剩余空间的人类可读形式。我在这个论坛上找到了一个命令,输出在图像中。hdfsdfsadmin-报告[dfsadmin命令的输出][1]我听说hortonworks中还有另一个命令可以提供更易读的输出。该命令是hdfsdfsadmin-report该命令似乎不适用于cloudera。cloudera中是否有任何等效命令?非常感谢 最佳答案 不管您使用的是Cloudera还是Hortonworks。如果您使用的是旧版本的hadoop,则命令可能是hadoopdfsadmin-report。您还有

hadoop - 在 yarn 集群上安装 spark

我正在寻找有关如何在现有虚拟yarn集群上安装spark的指南。我有一个由两个节点组成的yarn集群,运行了map-reduce作业,效果很好。在日志中查找结果,一切正常。现在我需要在我的vagrantfile中添加spark安装命令和配置文件。我找不到好的指南,有人可以给我一个好的链接吗?我将这个指南用于yarnclusterhttp://www.alexjf.net/blog/distributed-systems/hadoop-yarn-installation-definitive-guide/#single-node-installation提前致谢!

java - 使用旧版本运行 Apache Spark 最新版本的集群

我有ClouderaCDH5.2.2集群和ApacheSpark1.5.0。有什么方法可以使用ApacheSpark2.0和数据集API在此集群应用程序上运行?集群设置最好不要更改。我尝试使用maven-shade-plugin运行内置的JARSpark2.0.0,但它不起作用(NoSuchMethodException)。 最佳答案 如果您想使用Spark2.0.0功能,您的集群应该运行Spark2.0.0。我认为没有解决方法。抛出像NoSuchMethodExeception这样的异常是因为您正在使用的方法或方法的签名已从1.5