zookeeper-kafka

hadoop - 使用接收器和 WAL 的 Spark Kafka 集成

我正在阅读下面的Databricks博客https://databricks.com/blog/2015/03/30/improvements-to-kafka-integration-of-spark-streaming.html在解释sparkkafka集成如何使用接收器和WAl工作的过程时，它说1.TheKafkadataiscontinuouslyreceivedbyKafkaReceiversrunningintheSparkworkers/executors.Thisusedthehigh-levelconsumerAPIofKafka.2.Thereceiveddatai

hadoop Spark 偏移 section zookeeper apache-spark apache-kafka spark-streaming

hadoop - 只有一个文件从带有水槽的kafka到hdfs

我正在尝试通过水槽将数据从kafka放入hdfs。kafka_producer每10秒发送一条消息。我会在hdfs上的一个文件中收集所有消息。这是我使用的flume配置，但它在hdfs上存储了很多文件(一个用于消息):agent1.sources.kafka-source.type=org.apache.flume.source.kafka.KafkaSourceagent1.sources.kafka-source.zookeeperConnect=localhost:2181agent1.sources.kafka-source.topic=provaagent1.sources.

水槽 hadoop agent1 agent hdfs apache-kafka flume

hadoop - 如果添加到 zookeeper 的 master 之一关闭，则事件 master 不接受新申请

我在spark独立集群中启用高可用性(HA)时遇到了一个非常奇怪的问题。我已经配置了3个sparkmaster，并按照以下步骤在zookeeper中注册了它们:创建配置文件ha.conf，内容如下:spark.deploy.recoveryMode=ZOOKEEPERspark.deploy.zookeeper.url=ZK_HOST:2181spark.deploy.zookeeper.dir=/spark通过将此属性文件作为参数传递给start-master脚本来启动所有3个主控器，如下所示:./start-master.sh-hlocalhost-p17077--webui-po

一关 master spark scala apache hadoop apache-spark bigdata apache-zookeeper high-availability

【软件开发/设计】分布式架构中的组件（如Kafka、MongoDB和Nginx）如何进行容器化部署

【软件开发/设计】分布式架构中的组件（如Kafka、MongoDB和Nginx）如何进行容器化部署方式一容器化部署的一般步骤Nginx、MongoDB、Kafka容器化部署示例1.Nginx2.MongoDB3.Kafka容器化部署的优势方式二1.Nginx部署创建Deployment创建ServiceNginx和ConfigMap总结应用配置2.MongoDB部署创建StatefulSet创建ServiceMongoDB和ConfigMap应用配置3.Kafka部署使用Helm1.验证Kafka安装2.查看Helm安装的说明3.连接到Kafka4.使用Kafka5.Kafka客户端配置6.监

分布式容器 span class token 架构 kafka

hadoop - 在 ZooKeeper 中使用 Zab 协议(protocol)进行广播

早上好我是ZooKeeper及其协议(protocol)的新手，我对它的广播协议(protocol)Zab很感兴趣。能否提供一个使用Zookeeper的Zab协议(protocol)的简单java代码？我一直在搜索，但没有成功找到显示如何使用Zab的代码。事实上，我需要的很简单，我有一个MapReduce代码，我希望所有映射器在成功找到更好的X值(即更大的值)时更新一个变量(比如说X)。在这种情况下，领导者必须比较旧值和新值，然后将实际最佳值广播给所有映射器。我怎样才能在Java中做这样的事情？提前致谢，问候最佳答案您不需要使用

ZooKeeper protocol 射器 data zkclient hadoop mapreduce apache-zookeeper

hadoop - 将kafka的Spark批量流式传输到单个文件中

我正在使用批处理流(maxRatePerPartition10.000)从Kafka流式传输数据。因此，在每批处理中，我处理10.000条kafka消息。在这个批处理运行中，我通过从rdd中创建一个数据帧来处理每条消息。处理后，我使用以下方法将每个处理过的记录保存到同一个文件:dataFrame.write.mode(SaveMode.append)。因此它将所有消息附加到同一个文件。只要它在一个批处理运行中运行就可以。但是在执行下一个批处理运行(处理下10.000条消息)后，它会为下一个10.000条消息创建一个新文件。现在的问题是:每个文件(block)保留文件系统的50mb，但只

流式 hadoop section import SQLContext apache-spark apache-kafka spark-streaming

hadoop - 如何在hadoop集群中安装kafka

我想在包含1个主节点和4个数据节点的ubuntuHadoop集群上安装最新版本的Kafka。这是我的问题:ShouldkafkabeinstalledonallthemachinesoronlyonNameNodemachine?Whataboutzookeeper?ShoulditbeinstalledonallthemachinesoronlyonNameNodemachine?请分享在Hadoop5节点集群中安装kafka和Zookeeper所需的文档最佳答案架构严格基于您的要求和您所拥有的:您的机器有多强大，它们需要处理

中安 hadoop section zookeeper apache-kafka

hadoop - 根据 Kafka 的消息数据写入自定义 HDFS 目录 -> Flume -> hdfs 摄取

如何根据Kafka消息中的消息类型使用水槽写入自定义hdfs目录？说kafka消息:{"type":"A","data":"blah"}在类型字段中有"A"应该写入/data/A,message:{"type":"B","data":"blah"}在类型字段中有"B"应该写入/data/B等最佳答案我认为您需要自定义水槽。ApacheFlumecustomsink 关于hadoop-根据Kafka的消息数据写入自定义HDFS目录->Flume->hdfs摄取，我们在StackOver

自定摄取 section code hadoop apache-kafka flume

Kafka怎么保证消息发送不丢失

前言Kafka发送消息是异步发送的，所以我们不知道消息是否发送成功，所以会可能造成消息丢失。而且Kafka架构是由生产者-服务器端-消费者三种组成部分构成的。要保证消息不丢失，那么主要有三种解决方法：生产者（producer）保持同步发送消息服务器端（broker）持久化设置为同步刷盘消费者（consumer）设置为手动提交偏移量（offset）1.生产者（producer）端处理生产者默认发送消息代码如下：importorg.apache.kafka.clients.producer.Producer;importorg.apache.kafka.clients.producer.Kafk

丢失发送 span style color kafka 消息队列

hadoop - 已接受来自/主机名 :55306 (org. apache.zookeeper.server.NIOServerCnxnFactory 的套接字连接)

我配置了Kafka集群、Storm集群和Hadoop集群。当他们没有工作时，一切都很好。当我在独立模式下提交stormjar(从kafka获取数据并处理，然后将其存储到Hdfs)时，它工作正常将其配置为服务器属性相同的代码并在服务器上运行它后出现以下错误:[2018-07-0312:54:00,370]INFOAcceptedsocketconnectionfrom/192.168.3.222:55306(org.apache.zookeeper.server.NIOServerCnxnFactory)[2018-07-0312:54:00,381]INFOClientattempti

套接字套接 apache zookeeper storm hadoop apache-kafka apache-zookeeper apache-storm

62 63 646566 67 68