Kafka-eagle_草庐IT

hadoop - 从外部连接kafka的问题

我正在为kafka服务器使用hortonwork沙箱尝试将eclipse中的kafka与java代码连接起来。使用此配置连接到生产者以发送消息metadata.broker.list=sandbox.hortonworks.com:45000serializer.class=kafka.serializer.DefaultEncoderzk.connect=sandbox.hortonworks.com:2181request.required.acks=0producer.type=sync其中sandbox.hortonworks.com是我连接到的沙箱名称在kafkaserver

hadoop - Kafka Spark 流式传输 : unable to read messages

我正在使用spark-streaming集成Kafka和Spark。我作为kafka生产者创建了一个主题:bin/kafka-topics.sh--create--zookeeperlocalhost:2181--replication-factor1--partitions1--topictest我在kafka中发布消息并尝试使用spark-streamingjava代码读取它们并将它们显示在屏幕上。守护进程全部启动:Spark-master，worker；动物园管理员；卡夫卡。我正在使用KafkaUtils.createStream编写一个Java代码来完成它代码如下:public

流式 messages String code spark hadoop apache-kafka spark-streaming spark-streaming-kafka

ubuntu - 在 vmware 中从我的 ubuntu 运行 kafka 时无法识别的 VM 选项 '+UseCompressedOops'

我正在使用VMware使用ubuntu我已经在其中安装了hadoop单节点集群。然后我安装了zookeeper并运行了zookeeper。然后当我运行我的“Apachekafka”时它会抛出一个错误。无法识别的VM选项“+UseCompressedOops”无法创建Java虚拟机single@ubuntu:~/yoga/zookeeper-3.4.5/bin$./zkServer.sh开始默认启用JMX使用配置:/home/single/yoga/zookeeper-3.4.5/bin/../conf/zoo.cfg正在启动zookeeper...已启动single@ubuntu:~/

ubuntu amp strong zookeeper UseCompressedOops hadoop apache-zookeeper apache-kafka

java - Apache Spark-Kafka.TaskCompletionListenerException & KafkaRDD$KafkaRDDIterator.close 本地集群上的 NPE(客户端模式)

我的spark-streaming代码可以在EclipseIDE上无缝运行。但是当我在本地spark集群上运行它时，它给出了org.apache.spark.util.TaskCompletionListenerException。此外，在spark-submit上，“客户端模式”代码运行良好，直到我启动我的kafka生产者，但当我启动生产者时，它会出现以下错误。我使用命令shSPARK_HOME/sbin/start-all.sh启动本地集群并使用此脚本调用spark-submit。#!/bin/shSP_SUBMIT=/home/user/spark/bin/spark-submi

TaskCompletionListenerException KafkaRDDIterator gt lt apache java hadoop apache-spark apache-kafka spark-streaming

hadoop - 从 Kafka 读取并写入 parquet 中的 hdfs

我是BigData生态系统的新手，有点入门。我已经阅读了几篇关于使用spark流读取kafka主题的文章，但想知道是否可以使用spark作业而不是流从kafka读取？如果是的话，你们能帮我指出一些可以帮助我入门的文章或代码片段吗？我的问题的第二部分是以拼花格式写入hdfs。一旦我从Kafka读到，我想我会有一个rdd。将此rdd转换为数据帧，然后将数据帧写入Parquet文件。这是正确的方法吗？感谢任何帮助。谢谢最佳答案要从Kafka读取数据并将其以Parquet格式写入HDFS，使用SparkBatch作业而不是流，您可以

parquet hadoop 34 option Kafka apache-spark apache-kafka hdfs

hadoop - 将文件分区为日期从 kafka 写入 hdfs 的最有效方法是什么

我正在研究应该通过kafka写入hdfs的项目。假设有在线服务器将消息写入kafka。每条消息都包含时间戳。我想根据消息中的时间戳创建一个输出将是一个文件的作业。比如kafka中的数据是{"ts":"01-07-201315:25:35.994","data":...}...{"ts":"01-07-201316:25:35.994","data":...}...{"ts":"01-07-201317:25:35.994","data":...}我想得到3个文件作为输出kafka_file_2013-07-01_15.jsonkafka_file_2013-07-01_16.jsonk

hadoop kafka code 34 hdfs apache-kafka

mongodb - Kafka -> Flink 数据流 -> MongoDB

我想设置Flink，以便它将数据流从ApacheKafka转换并重定向到MongoDB。出于测试目的，我在flink-streaming-connectors.kafka示例(https://github.com/apache/flink)之上构建。Kafka流被Flink正确地标记为红色，我可以映射它们等，但是当我想将每条收到和转换的消息保存到MongoDB时，问题就出现了。我发现的关于MongoDB集成的唯一示例是来自github的flink-mongodb-test。不幸的是，它使用静态数据源(数据库)，而不是数据流。我相信MongoDB应该有一些DataStream.addSi

amp mongodb Kafka section hadoop apache-kafka apache-flink

Kafka topic分区增加副本

Kafka中topic的每个分区可以设置多个副本。如果副本数为1，当该分区副本的leader节点宕机后，会导致该分区不可用。故需要设置多副本来保证可用性。实际项目中，存在项目初期创建了副本数为1的topic，但是后期又需要扩大副本数的场景。通常不能直接删除topic重建，可以通过如下操作实现。准备工作创建副本为1的topickafka-topics--zookeepermdw:2181/kafka--create--replication-factor1--partitions3--topictest_topic查看topic信息kafka-topics--describe--zookeepe

Kafka topic span class token 分布式大数据

Kafka消息可视化工具-Offset Explorer使用

目录一、下载安装二、软件配置◼下载安装完毕，进行新增连接◼ 查看数据一、下载安装（1）官网下载OffsetExplorer，下载地址：OffsetExplorer（2）根据自己的电脑的对应版本进行下载，（3）下载之后直接安装，根据需要修改安装配置。二、软件配置◼下载安装完毕，进行新增连接（1）启动offsetexplorer.exe，在AddCluster窗口Properties选项下填写Clustername和kafkaClusterVersion等参数信息。集群名称：可随意填写；集群版本：需要确认，不同版本之间差异大；zookeeper所在的服务器ip地址：端口；（2）另外由于ka

Explorer Offset xff xff0c xff0 kafka 分布式

【深入理解Kafka系列】第二章生产者

生产者就是负责向Kafka发送消息的应用程序。Kafka一共两个大版本的客户端，第一个是开源之处使用Scala编写的客户端；第二个是0.9.x版本开始推出的java编写的客户端。1、客户端开发一个正常的生产逻辑需要以下几个步骤：（1）配置生产者客户端参数及创建相应的生产者实例。（2）构建待发送的消息（3）发送消息（4）关闭生产者实例需要单独说明下构建消息的ProducerRecord，它包含了多个属性，定义如下：publicclassProducerRecord{privatefinalStringtopic;//主题privatefinalIntegerpartiton//分区号pri

深入第二章 span xff xff0c kafka java 分布式