$集群

apache-spark - 如何在具有不同内存和核心数量的集群上调整 spark 作业

我正在开发一个spark项目，我正在使用具有以下配置的3个节点的hadoop集群:8coresand16goofRam(Namenode,ApplicationMaster,nodemanagerandsparkmasterandworker).4coresand8goofRam(datanode,nodemanagerandworker)Ram的4cores和4go(datanode、nodemanager和worker)所以我使用以下配置:pyspark--masteryarn-client--driver-memory3g--executor-memory1g--num-exec

spark 上调 section executor strong apache-spark hadoop pyspark

scala - 无法使用 IntelliJ 在本地连接到 hdfs kerberized 集群

我正在尝试通过笔记本电脑上安装的intelliJ在本地连接到hdfs。我正在尝试连接的集群是使用边缘节点进行Kerberized化的。我为边缘节点生成了一个key表，并在下面的代码中进行了配置。我现在可以登录到边缘节点了。但是当我现在尝试访问名称节点上的hdfs数据时，它会抛出错误。下面是试图连接到hdfs的Scala代码:importorg.apache.spark.sql.SparkSessionimportorg.apache.hadoop.conf.Configurationimportorg.apache.hadoop.fs.{FileSystem,Path}importor

kerberized IntelliJ 34 hdfs namenodename scala security apache-spark hadoop kerberos

apache-spark - Spark 独立集群 :Configuring Distributed File System

我刚刚从Spark本地设置迁移到Spark独立集群。显然，加载和保存文件不再有效。我了解我需要使用Hadoop来保存和加载文件。我的Spark安装是spark-2.2.1-bin-hadoop2.7问题1:我仍然需要单独下载、安装和配置Hadoop以与我的独立Spark集群一起工作，我是否正确？问题2:使用Hadoop运行和使用Yarn运行有什么区别？...哪个更容易安装和配置(假设数据负载相当轻)？最佳答案 A1。正确的。你提到的包只是打包了指定版本的hadoop客户端，如果你想使用hdfs，你仍然需要安装hadoop。A2。使

apache-spark Configuring section strong Spark hadoop

Zookeeper-集群架构

Zookeeper集群架构集群角色Leader：领导者事务请求（写操作）的唯一调度者和处理者，保证集群事务处理的顺序性；集群内部各个服务器的调度者。对于create、setData、delete等有写操作的请求，则要统一转发给leader处理，leader需要决定编号、执行操作，这个过程称为事务。Follower:跟随者处理客户端非事务（读操作）请求（可以直接响应），转发事务请求给Leader；参与集群Leader选举投票。Observer:观察者对于非事务请求可以独立处理（读操作），对于事务性请求会转发给leader处理。Observer节点接收来自leader的inform信息，更新自己的

集群架构 style span color zookeeper 分布式

networking - 我可以使用 100 Mbps 网络交换机进行 Hadoop 迷你集群设置吗？

我愿意使用virtualbox运行一个12节点的Hadoop集群。我有3台真实机器，每台机器在虚拟框内运行4个数据节点节点。我能够使用LAN线连接2台机器并能够制作8节点集群。现在我必须通过交换机连接第三台机器，这样我才能运行一个12节点的集群。我的NameNode的RAM是1GB，所有数据节点都是512MB。我在所有机器上都使用64位核心i3处理器，每个节点的容量为8GB。我的问题是我可以将下面提到的交换机用于我的网络拓扑吗？http://www.flipkart.com/d-link-5-port-10-100base-t-unmanaged-switch-network/p/it

networking Hadoop section amp switch

hadoop - hadoop集群中zookeeper的硬件推荐

我有一个轻量级的Hadoop环境:2个namenodes(jobtracker/HBaseMaster)+3个datanodes(tasktracker/HBaseRegion)都像是两个四核CPU+16-24G内存+总共15T我想知道如果我要3个动物园管理员，动物园管理员会是什么样的服务器规范？谁能分享一下经验？最佳答案来自HBase'sperpective-GiveeachZooKeeperserveraround1GBofRAM,andifpossible,itsowndedicateddisk(Adedicateddis

hadoop zookeeper section 长时 apache-zookeeper

hadoop - 将可执行 jar 发送到 hadoop 集群并作为 "hadoop jar"运行

我一般用main方法制作一个可执行的jar包，然后通过命令行“hadoopjarSome.jarClassWithMaininputoutput”运行在这个主要方法中，可以配置作业和配置，配置类有一个setter来指定映射器或缩减器类，如conf.setMapperClass(Mapper.class)。但是，在远程提交作业的情况下，我应该设置jar和Mapper或更多的类来使用hadoopclientapi。job.setJarByClass(HasMainMethod.class);job.setMapperClass(Mapper_Class.class);job.setRedu

hadoop 并作 code section cloud bigdata

3、Kafka 线上集群部署方案怎么做？

文章目录1、操作系统的选择1.1、I/O模型的使用1.2、数据网络传输效率1.3、社区支持度2、磁盘的选择3、磁盘容量的规划3.1、举例思考本问题：3.2、计算一下：3.3、规划磁盘容量时你需要考虑下面这几个元素：4、带宽规划4.1、计算总结1、操作系统的选择对比Linux、Mac、Window，Linux系统显然要更加适合部署Kafka。主要有下面这三个方面，Linux的表现更胜一筹。1.1、I/O模型的使用主流的I/O模型通常有5种类型：阻塞式I/O、非阻塞式I/O、I/O多路复用、信号驱动I/O和异步I/O。通常情况下我们认为后一种模型会比前一种模型要高级。相关实现场景，比如Java中S

集群部署 xff0c xff xff0 kafka 分布式

hadoop - 如何在 Hadoop 环境中查找集群名称？

我正在使用CDH5.5，想知道任何命令或查找集群名称的方法吗？我实际上正在尝试执行下面的api调用，但它抛出了一个错误。curl-uadmin:admin'http://localhost:7180/api/v1/clusters/namenode241'错误:{"message":"Cluster'namenodee241'notfound."} 最佳答案除最后一部分外，您的命令是正确的。在您的命令中，您提到了集群名称namenode241。所以删除它并执行curl-uadmin:admin'http://localhostor

何在 hadoop section code admin

hadoop - Hadoop 集群环境中的 Mapreduce 作业连接被拒绝

我设置了一个4节点Hadoop集群，其中包含一个主节点和三个数据节点。在我尝试执行mapreduce作业之前，一切似乎都运行良好。Jps(主节点):[root@masterlogs]#jps26967SecondaryNameNode25720JobHistoryServer26778NameNode27115ResourceManager27839JpsJps(数据节点):[root@localhost~]#jps21872DataNode22257Jps21974NodeManagermaster节点上的yarn日志文件给出如下异常:2018-05-2221:59:10,376IN

Mapreduce hadoop gt lt property hadoop-yarn

46 47 484950 51 52