草庐IT

Kafka-eagle

全部标签

hadoop - 从外部连接kafka的问题

我正在为kafka服务器使用hortonwork沙箱尝试将eclipse中的kafka与java代码连接起来。使用此配置连接到生产者以发送消息metadata.broker.list=sandbox.hortonworks.com:45000serializer.class=kafka.serializer.DefaultEncoderzk.connect=sandbox.hortonworks.com:2181request.required.acks=0producer.type=sync其中sandbox.hortonworks.com是我连接到的沙箱名称在kafkaserver

hadoop - Kafka Spark 流式传输 : unable to read messages

我正在使用spark-streaming集成Kafka和Spark。我作为kafka生产者创建了一个主题:bin/kafka-topics.sh--create--zookeeperlocalhost:2181--replication-factor1--partitions1--topictest我在kafka中发布消息并尝试使用spark-streamingjava代码读取它们并将它们显示在屏幕上。守护进程全部启动:Spark-master,worker;动物园管理员;卡夫卡。我正在使用KafkaUtils.createStream编写一个Java代码来完成它代码如下:public

ubuntu - 在 vmware 中从我的 ubuntu 运行 kafka 时无法识别的 VM 选项 '+UseCompressedOops'

我正在使用VMware使用ubuntu我已经在其中安装了hadoop单节点集群。然后我安装了zookeeper并运行了zookeeper。然后当我运行我的“Apachekafka”时它会抛出一个错误。无法识别的VM选项“+UseCompressedOops”无法创建Java虚拟机single@ubuntu:~/yoga/zookeeper-3.4.5/bin$./zkServer.sh开始默认启用JMX使用配置:/home/single/yoga/zookeeper-3.4.5/bin/../conf/zoo.cfg正在启动zookeeper...已启动single@ubuntu:~/

java - Apache Spark-Kafka.TaskCompletionListenerException & KafkaRDD$KafkaRDDIterator.close 本地集群上的 NPE(客户端模式)

我的spark-streaming代码可以在EclipseIDE上无缝运行。但是当我在本地spark集群上运行它时,它给出了org.apache.spark.util.TaskCompletionListenerException。此外,在spark-submit上,“客户端模式”代码运行良好,直到我启动我的kafka生产者,但当我启动生产者时,它会出现以下错误。我使用命令shSPARK_HOME/sbin/start-all.sh启动本地集群并使用此脚本调用spark-submit。#!/bin/shSP_SUBMIT=/home/user/spark/bin/spark-submi

hadoop - 从 Kafka 读取并写入 parquet 中的 hdfs

我是BigData生态系统的新手,有点入门。我已经阅读了几篇关于使用spark流读取kafka主题的文章,但想知道是否可以使用spark作业而不是流从kafka读取?如果是的话,你们能帮我指出一些可以帮助我入门的文章或代码片段吗?我的问题的第二部分是以拼花格式写入hdfs。一旦我从Kafka读到,我想我会有一个rdd。将此rdd转换为数据帧,然后将数据帧写入Parquet文件。这是正确的方法吗?感谢任何帮助。谢谢 最佳答案 要从Kafka读取数据并将其以Parquet格式写入HDFS,使用SparkBa​​tch作业而不是流,您可以

hadoop - 将文件分区为日期从 kafka 写入 hdfs 的最有效方法是什么

我正在研究应该通过kafka写入hdfs的项目。假设有在线服务器将消息写入kafka。每条消息都包含时间戳。我想根据消息中的时间戳创建一个输出将是一个文件的作业。比如kafka中的数据是{"ts":"01-07-201315:25:35.994","data":...}...{"ts":"01-07-201316:25:35.994","data":...}...{"ts":"01-07-201317:25:35.994","data":...}我想得到3个文件作为输出kafka_file_2013-07-01_15.jsonkafka_file_2013-07-01_16.jsonk

mongodb - Kafka -> Flink 数据流 -> MongoDB

我想设置Flink,以便它将数据流从ApacheKafka转换并重定向到MongoDB。出于测试目的,我在flink-streaming-connectors.kafka示例(https://github.com/apache/flink)之上构建。Kafka流被Flink正确地标记为红色,我可以映射它们等,但是当我想将每条收到和转换的消息保存到MongoDB时,问题就出现了。我发现的关于MongoDB集成的唯一示例是来自github的flink-mongodb-test。不幸的是,它使用静态数据源(数据库),而不是数据流。我相信MongoDB应该有一些DataStream.addSi

Kafka topic分区增加副本

Kafka中topic的每个分区可以设置多个副本。如果副本数为1,当该分区副本的leader节点宕机后,会导致该分区不可用。故需要设置多副本来保证可用性。实际项目中,存在项目初期创建了副本数为1的topic,但是后期又需要扩大副本数的场景。通常不能直接删除topic重建,可以通过如下操作实现。准备工作创建副本为1的topickafka-topics--zookeepermdw:2181/kafka--create--replication-factor1--partitions3--topictest_topic查看topic信息kafka-topics--describe--zookeepe

Kafka消息可视化工具-Offset Explorer使用

目录一、下载安装二、软件配置◼下载安装完毕,进行新增连接◼ 查看数据一、下载安装(1)官网下载OffsetExplorer,下载地址:OffsetExplorer(2)根据自己的电脑的对应版本进行下载,(3)下载之后直接安装,根据需要修改安装配置。    二、软件配置◼下载安装完毕,进行新增连接(1)启动offsetexplorer.exe,在AddCluster窗口Properties选项下填写Clustername和kafkaClusterVersion等参数信息。集群名称:可随意填写;集群版本:需要确认,不同版本之间差异大;zookeeper所在的服务器ip地址:端口;(2)另外由于ka

【深入理解Kafka系列】 第二章 生产者

   生产者就是负责向Kafka发送消息的应用程序。Kafka一共两个大版本的客户端,第一个是开源之处使用Scala编写的客户端;第二个是0.9.x版本开始推出的java编写的客户端。1、客户端开发一个正常的生产逻辑需要以下几个步骤:(1)配置生产者客户端参数及创建相应的生产者实例。(2)构建待发送的消息(3)发送消息(4)关闭生产者实例需要单独说明下构建消息的ProducerRecord,它包含了多个属性,定义如下:publicclassProducerRecord{privatefinalStringtopic;//主题privatefinalIntegerpartiton//分区号pri