草庐IT

azure - 如何通过门户管理 HDInsight 集群?

我最近开始使用WindowsAzure和HDInsight,以完成一些MapReduce工作。我想知道的是,是否可以在不需要时通过Azure管理门户暂停或停止正在运行的集群?我尝试了停止或暂停的选项,但找不到任何选项。任何帮助,将不胜感激。 最佳答案 HDInsight不支持除Running和Stopped之外的其他状态,这意味着无法将集群设置为暂停或Idle状态,这与其他云提供商不同。您可以找到添加此功能的请求here,如果你感兴趣。回答您的其他问题,通过管理门户管理HDInsight非常简单。有一个完整的界面部分专门用于集群的管

java - hdfs 文件在伪分布式单节点集群中的位置?

我以伪分布式模式在单个节点上安装了hadoop。dfs.replication值为1,hdfs中的文件默认存放在哪里?我使用的hadoop版本是2.5.1。 最佳答案 dfs.datanode.data.dir:确定DFS数据节点应在本地文件系统中存储其block的位置。如果这是一个逗号分隔的目录列表,那么数据将存储在所有命名的目录中,通常在不同的设备上。不存在的目录将被忽略。此属性的默认值为:file://${hadoop.tmp.dir}/dfs/data您可以在core-site.xml文件中配置${hadoop.tmp.di

hadoop - 人类可读格式的cloudera hadoop集群上的剩余空间

我正在寻找一个命令来显示hadoop集群上剩余空间的人类可读形式。我在这个论坛上找到了一个命令,输出在图像中。hdfsdfsadmin-报告[dfsadmin命令的输出][1]我听说hortonworks中还有另一个命令可以提供更易读的输出。该命令是hdfsdfsadmin-report该命令似乎不适用于cloudera。cloudera中是否有任何等效命令?非常感谢 最佳答案 不管您使用的是Cloudera还是Hortonworks。如果您使用的是旧版本的hadoop,则命令可能是hadoopdfsadmin-report。您还有

hadoop - 在 yarn 集群上安装 spark

我正在寻找有关如何在现有虚拟yarn集群上安装spark的指南。我有一个由两个节点组成的yarn集群,运行了map-reduce作业,效果很好。在日志中查找结果,一切正常。现在我需要在我的vagrantfile中添加spark安装命令和配置文件。我找不到好的指南,有人可以给我一个好的链接吗?我将这个指南用于yarnclusterhttp://www.alexjf.net/blog/distributed-systems/hadoop-yarn-installation-definitive-guide/#single-node-installation提前致谢!

java - 使用旧版本运行 Apache Spark 最新版本的集群

我有ClouderaCDH5.2.2集群和ApacheSpark1.5.0。有什么方法可以使用ApacheSpark2.0和数据集API在此集群应用程序上运行?集群设置最好不要更改。我尝试使用maven-shade-plugin运行内置的JARSpark2.0.0,但它不起作用(NoSuchMethodException)。 最佳答案 如果您想使用Spark2.0.0功能,您的集群应该运行Spark2.0.0。我认为没有解决方法。抛出像NoSuchMethodExeception这样的异常是因为您正在使用的方法或方法的签名已从1.5

hadoop - 使用 spark 跨 hadoop 集群复制数据

我有一种情况,我必须将数据/文件从PROD复制到UAT(hadoop集群)。为此,我现在正在使用'distcp'。但它需要永远。由于distcp在引擎盖下使用map-reduce,有什么方法可以使用spark使过程更快?就像我们可以将hive执行引擎设置为'TEZ'(以替换map-reduce),我们是否可以将执行引擎设置为sparkfordistcp?或者是否有任何其他'spark'跨集群复制数据的方法,甚至可能不关心distcp?这是我的第二个问题(假设我们可以将distcp执行引擎设置为spark而不是map-reduce,否则请不要费心回答这个问题):-据我所知,Spark比m

hadoop - Oozie - 有没有办法在整个集群上只执行一个 java 操作实例?

当我查看我的日志时,我发现我的ooziejava操作实际上在多台机器上运行。我认为这是因为它们被包裹在m/r作业中?(这是正确的吗)有没有办法在整个集群上只执行一个java操作实例? 最佳答案 Java操作在Oozie“启动器”作业中运行,只有一个YARN“映射”容器。诀窍在于每个YARN作业都需要一个应用程序主(AM)容器进行协调。所以你最终有2个容器,_0001用于AM和_0002用于Oozie操作,可能在不同的机器上。要控制每个资源的分配,您可以设置以下操作属性来覆盖您的/etc/hadoop/conf/*-site.xml配

amazon-web-services - 如何使用 Hadoop 2.6 启动 Spark EC2 集群

我正在尝试使用Hadoop2.6在Spark1.6.1上运行SparkEC2集群-这是我尝试过的:./spark-ec2-i~/.ssh/***.pem\--instance-profile-name***\-k***\--region=us-east-1\--instance-type=m3.xlarge\-s2\--copy-aws-credentials\launchtest-cluster不过,这次安装的是Hadoop1.0。所以我在上面的命令中添加了以下选项:--hadoop-major-version=2\但是,我很快意识到,为了正确运行我的应用程序,我需要Hadoop2.

hadoop - 配置多模式 Hadoop 集群

我正在尝试建立一个多节点集群,我有3台机器,其中一台充当名称节点和数据节点,另外两台充当数据节点。我对所有机器都有不同的用户名,node1的用户名是hdfsadmin,node2的用户名是hduser,node3的用户名也是hduser。问题是当我尝试连接到数据节点时Hadoop抛出一个连接被拒绝的错误,因为它期望数据节点的名称与名称节点相同,这在我的情况下是不同的。我该如何解决这个问题?提前致谢 最佳答案 不,不需要所有节点都具有相同的主机名。请交叉检查以下内容:1)确保您能够通过ssh访问另一个节点。2)确保在/etc/host

hadoop - 具有 6 到 7 个节点硬件配置的分布式 Spark 和 HDFS 集群

我计划旋转我的开发集群来为基础设施监控应用程序进行趋势分析,我计划使用Spark来分析故障趋势,并使用Cassandra来存储传入数据和分析数据。考虑从大约25000台机器/服务器(可能是不同服务器上的一组相同应用程序)收集性能矩阵。我期望每台机器的性能矩阵大小为2MB/秒,我计划将其插入具有时间戳、服务器作为主键和应用程序以及一些重要矩阵作为集群键的Cassandra表中。我将在此存储的信息之上运行Spark作业,以进行性能矩阵故障趋势分析。关于这个问题,考虑到上述情况,我需要多少个节点(机器)以及CPU和内存方面的什么配置来启动我的集群。 最佳答案