$集群

azure - 如何通过门户管理 HDInsight 集群？

我最近开始使用WindowsAzure和HDInsight，以完成一些MapReduce工作。我想知道的是，是否可以在不需要时通过Azure管理门户暂停或停止正在运行的集群？我尝试了停止或暂停的选项，但找不到任何选项。任何帮助，将不胜感激。最佳答案 HDInsight不支持除Running和Stopped之外的其他状态，这意味着无法将集群设置为暂停或Idle状态，这与其他云提供商不同。您可以找到添加此功能的请求here，如果你感兴趣。回答您的其他问题，通过管理门户管理HDInsight非常简单。有一个完整的界面部分专门用于集群的管

HDInsight azure section em hadoop mapreduce azure-hdinsight

java - hdfs 文件在伪分布式单节点集群中的位置？

我以伪分布式模式在单个节点上安装了hadoop。dfs.replication值为1，hdfs中的文件默认存放在哪里？我使用的hadoop版本是2.5.1。最佳答案 dfs.datanode.data.dir:确定DFS数据节点应在本地文件系统中存储其block的位置。如果这是一个逗号分隔的目录列表，那么数据将存储在所有命名的目录中，通常在不同的设备上。不存在的目录将被忽略。此属性的默认值为:file://${hadoop.tmp.dir}/dfs/data您可以在core-site.xml文件中配置${hadoop.tmp.di

java hdfs hadoop section hadoop-project-dist mapreduce bigdata

hadoop - 人类可读格式的cloudera hadoop集群上的剩余空间

我正在寻找一个命令来显示hadoop集群上剩余空间的人类可读形式。我在这个论坛上找到了一个命令，输出在图像中。hdfsdfsadmin-报告[dfsadmin命令的输出][1]我听说hortonworks中还有另一个命令可以提供更易读的输出。该命令是hdfsdfsadmin-report该命令似乎不适用于cloudera。cloudera中是否有任何等效命令？非常感谢最佳答案不管您使用的是Cloudera还是Hortonworks。如果您使用的是旧版本的hadoop，则命令可能是hadoopdfsadmin-report。您还有

hadoop cloudera section strong mapreduce

hadoop - 在 yarn 集群上安装 spark

我正在寻找有关如何在现有虚拟yarn集群上安装spark的指南。我有一个由两个节点组成的yarn集群，运行了map-reduce作业，效果很好。在日志中查找结果，一切正常。现在我需要在我的vagrantfile中添加spark安装命令和配置文件。我找不到好的指南，有人可以给我一个好的链接吗？我将这个指南用于yarnclusterhttp://www.alexjf.net/blog/distributed-systems/hadoop-yarn-installation-definitive-guide/#single-node-installation提前致谢!

hadoop spark code apache-spark vagrant hadoop-yarn bigdata

java - 使用旧版本运行 Apache Spark 最新版本的集群

我有ClouderaCDH5.2.2集群和ApacheSpark1.5.0。有什么方法可以使用ApacheSpark2.0和数据集API在此集群应用程序上运行？集群设置最好不要更改。我尝试使用maven-shade-plugin运行内置的JARSpark2.0.0，但它不起作用(NoSuchMethodException)。最佳答案如果您想使用Spark2.0.0功能，您的集群应该运行Spark2.0.0。我认为没有解决方法。抛出像NoSuchMethodExeception这样的异常是因为您正在使用的方法或方法的签名已从1.5

Apache Spark section code java maven hadoop apache-spark

hadoop - 使用 spark 跨 hadoop 集群复制数据

我有一种情况，我必须将数据/文件从PROD复制到UAT(hadoop集群)。为此，我现在正在使用'distcp'。但它需要永远。由于distcp在引擎盖下使用map-reduce，有什么方法可以使用spark使过程更快？就像我们可以将hive执行引擎设置为'TEZ'(以替换map-reduce)，我们是否可以将执行引擎设置为sparkfordistcp？或者是否有任何其他'spark'跨集群复制数据的方法，甚至可能不关心distcp？这是我的第二个问题(假设我们可以将distcp执行引擎设置为spark而不是map-reduce，否则请不要费心回答这个问题):-据我所知，Spark比m

hadoop spark distcp code section apache-spark hdfs bigdata

hadoop - Oozie - 有没有办法在整个集群上只执行一个 java 操作实例？

当我查看我的日志时，我发现我的ooziejava操作实际上在多台机器上运行。我认为这是因为它们被包裹在m/r作业中？(这是正确的吗)有没有办法在整个集群上只执行一个java操作实例？最佳答案 Java操作在Oozie“启动器”作业中运行，只有一个YARN“映射”容器。诀窍在于每个YARN作业都需要一个应用程序主(AM)容器进行协调。所以你最终有2个容器，_0001用于AM和_0002用于Oozie操作，可能在不同的机器上。要控制每个资源的分配，您可以设置以下操作属性来覆盖您的/etc/hadoop/conf/*-site.xml配

hadoop Oozie code section strong hadoop-yarn

amazon-web-services - 如何使用 Hadoop 2.6 启动 Spark EC2 集群

我正在尝试使用Hadoop2.6在Spark1.6.1上运行SparkEC2集群-这是我尝试过的:./spark-ec2-i~/.ssh/***.pem\--instance-profile-name***\-k***\--region=us-east-1\--instance-type=m3.xlarge\-s2\--copy-aws-credentials\launchtest-cluster不过，这次安装的是Hadoop1.0。所以我在上面的命令中添加了以下选项:--hadoop-major-version=2\但是，我很快意识到，为了正确运行我的应用程序，我需要Hadoop2.

amazon-web-services services section Hadoop noreferrer apache-spark amazon-ec2

hadoop - 配置多模式 Hadoop 集群

我正在尝试建立一个多节点集群，我有3台机器，其中一台充当名称节点和数据节点，另外两台充当数据节点。我对所有机器都有不同的用户名，node1的用户名是hdfsadmin，node2的用户名是hduser，node3的用户名也是hduser。问题是当我尝试连接到数据节点时Hadoop抛出一个连接被拒绝的错误，因为它期望数据节点的名称与名称节点相同，这在我的情况下是不同的。我该如何解决这个问题？提前致谢最佳答案不，不需要所有节点都具有相同的主机名。请交叉检查以下内容:1)确保您能够通过ssh访问另一个节点。2)确保在/etc/host

多模 hadoop section hadoopmnslave stackoverflow

hadoop - 具有 6 到 7 个节点硬件配置的分布式 Spark 和 HDFS 集群

我计划旋转我的开发集群来为基础设施监控应用程序进行趋势分析，我计划使用Spark来分析故障趋势，并使用Cassandra来存储传入数据和分析数据。考虑从大约25000台机器/服务器(可能是不同服务器上的一组相同应用程序)收集性能矩阵。我期望每台机器的性能矩阵大小为2MB/秒，我计划将其插入具有时间戳、服务器作为主键和应用程序以及一些重要矩阵作为集群键的Cassandra表中。我将在此存储的信息之上运行Spark作业，以进行性能矩阵故障趋势分析。关于这个问题，考虑到上述情况，我需要多少个节点(机器)以及CPU和内存方面的什么配置来启动我的集群。最佳答案

hadoop Spark section Cassandra planning apache-spark matrix hardware-infrastructure

40 41 424344 45 46