草庐IT

java - 如何从单独的 java 程序中在集群上运行 spark 程序?

我有一个运行单独的小型spark程序的java程序,那么如何让我的java程序在集群上运行小型spark模块/程序?例如:我有一个程序名executor(java程序)。和一些spark程序--添加两个数字--减去两个数字那么我如何从我的java程序(在这种情况下为执行程序)在Cluster上运行这些spark程序。谢谢!!! 最佳答案 检查sparkjobserver项目,让您创建共享上下文并从rest接口(interface)执行作业:https://github.com/spark-jobserver/spark-jobser

hadoop - 使用自动化脚本配置 AWS 集群

我们正在寻找一个自动化脚本的可能性,我们可以给出我们需要多少主节点和数据节点,它会配置一个集群。可能在属性文件中提供凭据。目前我们的做法是登录控制台配置Hadoop集群。如果能有一种自动化的方法来解决它,那就太好了。 最佳答案 我已经看到使用Foreman做得非常好,Chef,和AmbariBlueprints.Foreman用于配置VM,Chef脚本用于安装Ambari、配置Ambari蓝图,并使用蓝图创建集群。 关于hadoop-使用自动化脚本配置AWS集群,我们在StackOver

hadoop - kafka在大数据集群中有什么用?

我最近部署了大数据集群。在这方面,我使用了ApacheKafka和zookeeper。但是我仍然不了解它在集群中的用法。什么时候需要两者以及出于什么目的? 最佳答案 我在这里简化概念。您可以在此处找到详细说明articleKafka是一种快速、可扩展、本质上分布式的设计、分区和复制的提交日志服务。它具有独特的设计。特定类型的消息流被定义为主题。生产者可以是任何可以向主题发布消息的人。然后,发布的消息存储在一组称为代理或Kafka集群的服务器中。消费者可以订阅一个或多个主题,并通过从代理中提取数据来消费发布的消息。ZooKeeper是

Hadoop YARN 集群性能调优

我想知道一些参数来加速我的YARN集群上的Spark作业。我有以下Spark/YARN配置,但我对执行速度不满意。我有很多未使用的vcores和内存。Spark配置:-spark.yarn.am.cores=2-spark.executor.memory=5g-spark.executor.cores=8yarn配置:-yarn.nodemanager.resource.memory-mb=31744-yarn.nodemanager.resource.cpu-vcores=15-yarn.scheduler.maximum-allocation-mb=31744从图片来看,在节点3和

hadoop - 如何在不使用 Cloudera 管理器的情况下在 100 节点集群上安装 Cloudera CDH?

如何在不使用Cloudera管理器的情况下在100节点集群上安装ClouderaCDH?在集群中的每个节点上手动安装和配置CDH是一项艰巨的任务。使用哪些工具和技术来自动化生产中的任务? 最佳答案 CDH支持基于Parcel和基于Package的安装。如果您愿意,可以使用Puppet/Chef这些类型的配置管理工具来进行基于包的安装。但是,推荐的方式是使用ClouderaManager进行基于Parcel的安装。ClouderaManager提供了许多OOTB功能,包括监控、配置版本控制、基于向导的安全配置、滚动升级等。如果您不使用

Elasticsearch 集群分片出现 unassigned 其中一种原因详细还原

🏡 个人主页:IT贫道_大数据OLAP体系技术栈,ApacheDoris,Clickhouse技术-CSDN博客 🚩私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。 🔔博主个人B栈地址:豹哥教你大数据的个人空间-豹哥教你大数据个人主页-哔哩哔哩视频目录背景问题复原问题排查和定位问题思考问题解决......最近公司ES集群一些节点挂掉,致使一些索引的分片一直是unassigned状态,导致ES集群状态为RED,等待许久也不见好转,非常影响集群UI观感。想想什么原因,解决解决。先复原一波ES集群中出现分片unassigned的现象。背景现有9台节点组成的Elastic集群,集群详细信息如下:

hadoop - hadoop 集群所有数据节点上的 Apache DrillBit 服务

我正在使用一个10节点的hadoop集群,如下所示:1-名称节点1-资源管理器8-数据节点我的复制因子设置为3。我打算使用ApacheDrill来查询hadoop数据。是否需要在所有节点上安装drillbit还是我只能在3个节点上安装它?提前致谢。 最佳答案 您可以将其安装在任意数量的节点上。在分布式模式下运行Drill时,确保-Zookeeper在集群上运行编辑drill-override.conf:drill.exec:{cluster-id:"",zk.connect:":,:,:"}所有节点(运行drill的节点)必须具有相

amazon-web-services - 中等 Hadoop/Spark 集群管理

如果这个问题更适合不同的channel,请告诉我,但我想知道推荐的工具是什么,可以在大量远程服务器上安装、配置和部署hadoop/spark。我已经熟悉如何设置所有软件,但我正在尝试确定我应该开始使用什么,这将使我能够轻松地跨大量服务器进行部署。我已经开始研究配置管理工具(即chef、puppet、ansible),但想知道最好的和最用户友好的选项是什么。我也不想使用spark-ec2。我应该创建自己开发的脚本来遍历包含IP的主机文件吗?我应该使用pssh吗?PSCP?等。我希望能够根据需要与尽可能多的服务器进行ssh连接并安装所有软件。 最佳答案

hadoop - 带 RAID 的 HDP 集群?

您在HDP集群上使用RAID1的体验如何?我有两个选择:为主节点和zoo节点设置RAID1,完全不要在从属节点(如kafka代理、hbase区域服务器和yarn节点管理器)上使用RAID。即使我失去一个从节点,我也会有另外两个副本。在我看来,RAID只会减慢我的集群。无论如何,使用RAID1设置所有内容。你怎么看?您对HDP和RAID有何体验?您如何看待从节点使用RAID0? 最佳答案 我建议在Hadoop主机上完全不要使用RAID。有一点需要注意,如果您正在运行Oozie和HiveMetastore等在后台使用关系数据库的服务,则

java - 从同一个进程访问两个安全的 (Kerberos) Hadoop/HBase 集群

我有一个Java工具,可以将几行数据从一个HBase集群复制到另一个集群(称为ClusterA和ClusterB)。当两个集群都不安全时,这工作正常:ConfigurationconfigA=Utilities.makeHBaseConfig("configA.xml");ConfigurationconfigB=Utilities.makeHBaseConfig("configB.xml");HTabletableA=newHTable(configA,input_table);HTabletableB=newHTable(configB,output_table);tableA.g