zookeeper-cluster

hadoop - 在 ZooKeeper 中使用 Zab 协议(protocol)进行广播

早上好我是ZooKeeper及其协议(protocol)的新手，我对它的广播协议(protocol)Zab很感兴趣。能否提供一个使用Zookeeper的Zab协议(protocol)的简单java代码？我一直在搜索，但没有成功找到显示如何使用Zab的代码。事实上，我需要的很简单，我有一个MapReduce代码，我希望所有映射器在成功找到更好的X值(即更大的值)时更新一个变量(比如说X)。在这种情况下，领导者必须比较旧值和新值，然后将实际最佳值广播给所有映射器。我怎样才能在Java中做这样的事情？提前致谢，问候最佳答案您不需要使用

ZooKeeper protocol 射器 data zkclient hadoop mapreduce apache-zookeeper

hadoop - 安装 Spark Cluster，Hive 的问题

我正在尝试启动Spark/Shark集群，但一直遇到同样的问题。我已按照https://github.com/amplab/shark/wiki/Running-Shark-on-a-Cluster上的说明进行操作并按照说明处理Hive。我认为SharkDriver正在使用另一个版本的Hadoopjar，但不确定原因。这是详细信息，任何帮助都会很棒。星火/鲨鱼0.9.0ApacheHadoop2.3.0Amplabshive0.11斯卡拉2.10.3Java7我已经安装了所有东西，但我收到了一些弃用警告，然后是一个异常:14/03/1411:24:47信息Configuration.d

Cluster hadoop java apache apache-spark shark-sql

python - 在 Pyspark-Cluster 模式下的工作节点上安装外部库

我正在为NLP处理等开发pyspark。我正在使用TextBlobPython库。通常，在独立模式下，安装外部Python库很容易。在集群模式下，我面临着在工作节点上远程安装这些库的问题。我无法访问每台工作机器以在Python路径中安装这些库。我尝试使用Sparkcontextpyfiles选项传送.zip文件...但问题是这些Python包需要安装在工作机器上。是否有不同的方法可以使这个lib-Textblob在Python路径中可用？最佳答案 ItriedtouseSparkcontextpyfilesoptiontoship

Pyspark-Cluster Pyspark section Python strong hadoop nlp apache-spark textblob

linux - 转瞬即逝 + hive : CLUSTERED TABLE

我在HIVE中有聚簇表。所有查询都在hive-client中工作。但是我不能用这个表运行任何查询:Query...failed:Hivetableiscorrupt.Itisdeclaredasbeingbucketed,butthefilesdonotmatchthebucketingdeclaration.Thenumberoffilesinthedirectory(0)doesnotmatchthedeclaredbucketcount(8)forpartition:在设置hive.enforce.bucketing=true;之后错误:Query...failed:Hiveta

转瞬即逝转瞬 code section bucketing linux hadoop hive presto

hadoop - pig : optimal number of maps with a 4 node cluster?

我正在使用只有4个节点的hadoopCloudera系统，但磁盘空间很大(200TB)。在我的pig脚本中，我每月加载几个文件，每个文件的大小约为200Gb。我注意到，如果我在我的pig脚本中加载大约一年的数据，Pig会创建大约15k个mappers，整个过程大约需要3个小时(包括reduce步骤)。相反，如果我加载三年的数据(大约5TB)，那么Pig会创建大约30k个mappers，基本上所有节点在处理超过15次后都会变得不健康小时。我是不是遇到了瓶颈？或者我应该使用一些默认选项？我的pig脚本非常基本:我分组，我数数。非常感谢! 最佳答案

cluster optimal strong section code hadoop apache-pig cloudera

hadoop - 已接受来自/主机名 :55306 (org. apache.zookeeper.server.NIOServerCnxnFactory 的套接字连接)

我配置了Kafka集群、Storm集群和Hadoop集群。当他们没有工作时，一切都很好。当我在独立模式下提交stormjar(从kafka获取数据并处理，然后将其存储到Hdfs)时，它工作正常将其配置为服务器属性相同的代码并在服务器上运行它后出现以下错误:[2018-07-0312:54:00,370]INFOAcceptedsocketconnectionfrom/192.168.3.222:55306(org.apache.zookeeper.server.NIOServerCnxnFactory)[2018-07-0312:54:00,381]INFOClientattempti

套接字套接 apache zookeeper storm hadoop apache-kafka apache-zookeeper apache-storm

java - hbase Regionserver 启动，zookeeper 启动但 hmaster 未启动(regionserver.HRegionServer : Failed construction RegionServer)

Hbasezookeeper启动，regionserver在多节点集群上启动，但hmaster未启动并生成以下日志文件。hbase-site.xml快照hbase.masternamenode:60000hbase.rootdirhdfs://namenode:9001hbase.cluster.distributedtruehbase.zookeeper.quorumdatanodehbase.zookeeper.property.dataDir/hadoop2/zookeeperhbase.zookeeper.property.clientPort2181两台机器datanod

HRegionServer Regionserver hbase hadoop java hdfs apache-zookeeper

Zookeeper-集群架构

Zookeeper集群架构集群角色Leader：领导者事务请求（写操作）的唯一调度者和处理者，保证集群事务处理的顺序性；集群内部各个服务器的调度者。对于create、setData、delete等有写操作的请求，则要统一转发给leader处理，leader需要决定编号、执行操作，这个过程称为事务。Follower:跟随者处理客户端非事务（读操作）请求（可以直接响应），转发事务请求给Leader；参与集群Leader选举投票。Observer:观察者对于非事务请求可以独立处理（读操作），对于事务性请求会转发给leader处理。Observer节点接收来自leader的inform信息，更新自己的

集群架构 style span color zookeeper 分布式

hadoop - hadoop集群中zookeeper的硬件推荐

我有一个轻量级的Hadoop环境:2个namenodes(jobtracker/HBaseMaster)+3个datanodes(tasktracker/HBaseRegion)都像是两个四核CPU+16-24G内存+总共15T我想知道如果我要3个动物园管理员，动物园管理员会是什么样的服务器规范？谁能分享一下经验？最佳答案来自HBase'sperpective-GiveeachZooKeeperserveraround1GBofRAM,andifpossible,itsowndedicateddisk(Adedicateddis

hadoop zookeeper section 长时 apache-zookeeper

java.io.IOException : Cannot initialize Cluster in Hadoop2 with YARN 异常

这是我第一次在stackoverflow上发帖，所以如果我做错了什么，我深表歉意。我最近建立了一个新的hadoop集群，这是我第一次尝试使用Hadoop2和YARN。我目前在提交作业时遇到以下错误。java.io.IOException:CannotinitializeCluster.Pleasecheckyourconfigurationformapreduce.framework.nameandthecorrespondserveraddresses.atorg.apache.hadoop.mapreduce.Cluster.initialize(Cluster.java:120)

IOException initialize hadoop jar 01 java hadoop-yarn hadoop2

20 21 222324 25 26