我刚刚在 HDInsight 中设置了一个 Hadoop 集群并尝试开始使用 Hadoop。我在集群上启用了远程登录并登录到它。我已将要处理的数据从我的桌面复制到这个盒子上。文档将此框称为头节点,并有一个额外的步骤,用于讨论将数据复制到 hadoop 集群。这让我很困惑。
我有以下问题:
当我将数据从桌面复制到我登录的盒子时,它实际上不是将数据复制到 hadoop 吗?
第一个复制操作与第二个复制操作有何不同?
什么是 Hadoop 中的头节点?
最佳答案
HDInsight 集群中的头节点是运行构成 Hadoop 平台的一些服务的机器,包括名称节点和作业跟踪器。从广义上讲,它分别控制数据的位置和计算的位置。
要使用 HDInsight,您实际上不需要登录到此头节点,也不需要使用远程桌面来使用它。我建议使用 powershell 方法 http://blogs.msdn.com/b/carlnol/archive/2013/06/07/managing-your-hdinsight-cluster-with-powershell.aspx为您提供了一个很好的设置指南。
就将数据复制到集群而言,这不同于将数据复制到头节点(它只是一台机器)。设置 HDInsight 群集时,还将其链接到 Azure 存储帐户。您需要将数据上传到 blob 存储帐户,以便集群可以访问它。有很多好工具可以帮助解决这个问题,我推荐 Azure Explorer - 披露:我为创造它的人工作,但它是免费的:)。
关于Azure HDInsight : what is head node in a hadoop cluster?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19681957/