集群NoSQL

hadoop - 如何为大数据集群分配物理资源？

我有三台服务器，我想在这些服务器上部署SparkStandaloneCluster或SparkonYarnCluster。现在我有一些关于如何为大数据集群分配物理资源的问题。例如，我想知道是否可以在同一个节点上部署SparkMasterProcess和SparkWorkerProcess。为什么？服务器详细信息:CPUCores:24Memory:128GB我需要你的帮助。谢谢。最佳答案当然可以，只要把host和Master放在slave中就可以了。在我的测试服务器上，我有这样的配置，master机器也是工作节点，并且有一个wo

大数何为 section hadoop apache-spark hadoop-yarn hadoop2 bigdata

hadoop - 集群模式异常，但在 eclipse 下运行正常

我不知道为什么我的Hadoop项目无法在命令行下执行hadoopjarclass-examples-1-1.0.0-SNAPSHOT.jarstock.intro.MR2Screener1"companylistNASDAQ.csv"output/mr2_screener1异常信息没有显示对我有用的信息=_=有什么方向或想法吗？谢谢在eclipse下完美运行通过命令行运行的部分异常日志2016-11-0309:14:13,448INFOorg.apache.hadoop.yarn.server.nodemanager.containermanager.monitor.Container

eclipse hadoop java 1478145101159 cloudera

Hadoop 集群和客户端连接

我有hadoop集群。现在我想将pig和hive作为客户端安装在另一台机器上。客户端计算机不会成为该集群的一部分，这可能吗？如果可能的话，我如何将该客户端计算机连接到集群？最佳答案首先，如果你有Hadoop集群那么你必须有Master节点(Namenode)+Slave节点(DataNode)另一件事是客户端节点。Hadoop集群的工作是:这里Namenode和Datanode组成HadoopCluster，Client向Namenode提交作业。为此，客户端应具有与Namenode上相同的Hadoop分发和配置副本。然后只有C

Hadoop 集群 section strong hive client apache-pig cluster-computing

eclipse - Eclipse/IntelliJ Idea能否在集群上执行代码

生产系统:HDP-2.5.0.0使用Ambari2.4.0.1在HDP上执行一系列代码(JavaMR等、Scala、Spark、R)的大量需求来自桌面Windows机器IDE。对于Spark和R，我们有R-Studio设置。挑战在于Java、Scala等，而且人们使用从Eclipse到IntelliJIdea的一系列IDE。我知道EclipseHadoop插件没有得到积极维护，并且在使用最新版本的Hadoop时也有很多错误，IntelliJIdea我无法从官方网站找到可靠的输入。我相信Hive和HBase客户端API是从Eclipse等进行连接的可靠方式，但我对执行MR或其他自定义Ja

IntelliJ eclipse noreferrer section noopener hadoop intellij-idea hortonworks-data-platform

Hadoop 多节点集群，从属权限被拒绝

我正在尝试在Hadoop上做多节点集群(实际上有2个节点-1个主节点和1个从节点)。我按照说明MultinodeClusterforHadoop2.x当我执行订单时:./sbin/start-all.sh我收到了我的从属节点的错误消息:slave:Permissiondenied(publickey)我已经修改了master和slave上的.ssh/authorized_keys文件，并添加了来自master和slave的.ssh/id_rsa.pub的key打印。最后，我在两个节点(主节点和从节点)上使用下一个命令sudoservicesshrestart重新启动了ssh。通过执行命

从属 Hadoop code section pre ssh

amazon-web-services - Amazon S3 错误代码 403 禁止进入 EMR 集群

我知道这个问题可能被问过多次，但我尝试了这些解决方案，但没有成功。因此，在新线程中询问它以获得确定的解决方案。我创建了一个具有S3只读权限(在所有S3资源上获取和列出)的IAM用户，但是当我尝试使用HDFS命令从EMR集群访问S3时，它会针对某些文件夹抛出“错误代码403禁止访问”异常。其他帖子的人回答是权限问题；我没有找到正确的解决方案，因为它是“禁止”而不是“拒绝访问”。此错误的行为仅针对存储桶内的某些文件夹(包含对象)和某些空文件夹出现。据观察，如果我使用nativeAPI调用，那么它会正常工作，如下所示:使用s3a调用时出现“禁止”异常:hdfsdfs-lss3a:///使用s

amazon-web-services services code section 空目录 hadoop amazon-s3 emr

python-2.7 - Python 请求 Post 请求在使用 Livy 连接到 Kerberized Hadoop 集群时失败

我正在尝试通过Livy连接到kerberizedhadoop集群以执行Spark代码。我发出的请求调用如下。kerberos_auth=HTTPKerberosAuth(mutual_authentication=REQUIRED,force_preemptive=True)r=requests.post(host+'/sessions',data=json.dumps(data),headers=headers,auth=kerberos_auth)此调用失败并出现以下错误GSSException:Novalidcredentialsprovided(Mechanismlevel:F

Kerberized python section Hadoop python-2.7 authentication kerberos livy

hadoop - 在 YARN 应用程序中获取 Hadoop 集群节点列表

我正在编写YARN应用程序，它必须在每个集群节点上运行一些java代码。我从WritingYARNapplications开始，然后，在示例中遇到太多空格后，使用了thisgithubproject作为我申请的基础。正如我在深入研究exapmle的ApplicationMaster用法后发现的那样，我可以使用特定的org.apache.hadoop.yarn.client.api.ContainerRequest的构造函数，在特定主机上获取应用程序容器，但我需要集群节点列表来请求每台机器上的容器。通过这个问题搜索后，我发现解析yarn-site.xml不是获取集群机器URL的正确方法，

hadoop section strong hadoop-yarn

azure - 有没有办法获取 hadoop HDInsight 节点的图像/快照并将它们用于集群创建？

我想拍摄我的HDInsighthadoop集群的图像/快照，因为我已经在我的节点上配置了驱动程序和一些实用程序。我如何拍摄快照并将其用于集群创建以复制相同的配置。最佳答案目前，没有为HDInsight集群拍摄图像/快照的选项。如果您的集群处于事件状态，您将产生费用。要停止产生费用，推荐的方法是在不使用时删除集群。为了实现这一点，您可以尝试:您可以使用AzurePowerShell和自动化来尝试。有关详细信息，请参阅“自动配置HDInsightClusterswithPowerShellandAzureAutomation”.”您

并将 HDInsight section noreferrer azure hadoop cluster-computing snapshot azure-hdinsight

scala - 为什么我的测试集群在安全模式下运行？

我正在测试一些基本的HDFS操作，例如创建目录。我的测试中有以下集群配置:importorg.apache.hadoop.fs._importorg.apache.hadoop.fs.permission.FsPermissionimportorg.apache.hadoop.hdfs.{HdfsConfiguration,MiniDFSCluster}//...privatevalbaseDir=newFile("./target/hdfs/test").getAbsoluteFileprivatevalconf=newHdfsConfiguration()conf.set(Mini

scala 为什么 hadoop code section hdfs safe-mode

276 277 278279280 281 282