Kafka-eagle

在Linux上启动kafka

1.启动zookeeper在zookeeper的bin目录./zkServer.shstart/stop/status2.启动kafka在kafka的bin目录 ./kafka-server-start.sh../config/server.properties查看zookeeper的状态1.查看进程 ps-aux|grep'zookeeper' 2.查看zookeeper的端口号命令 netstat-anp|grep2181Kafka常用操作查看所有topic bin/kafka-topics.sh--list--bootstrap-serverlocalhost:9092查看所有消费组

Elasticsearch：使用 Logstash 构建从 Kafka 到 Elasticsearch 的管道 - Nodejs

在我之前的文章“Elastic：使用Kafka部署ElasticStack”，我构建了从Beats=>Kafka=>Logstash=>Elasticsearch的管道。在今天的文章中，我将描述从Nodejs =>Kafka=>Logstash=>Elasticsearch这样的一个数据流。在之前的文章“Elastic：Datapipeline：使用Kafka=＞Logstash=＞Elasticsearch”中，我也展示了使用Python的方法。我的配置如下：在上面的架构中，有几个重要的组件：KafkaServer：这就是数据首先发布的地方。Producer：扮演将数据发布到Kafkatop

Elasticsearch Logstash 34 kafka xff 大数据 node.js 搜索引擎

FlinkSql开窗实例：消费kafka写入文本

前言以前写Flink从kafka入hdfs因为业务需求和老版本缘故都是自定义BucketSink入动态目录中，对于简单的需求可以直接用FlinkSQLAPI进行输出。Flink版本1.13.1。Flink官网示例准备本地下载个kafka（单机即可），新建个桌面目录文件夹k2f。输入输出源按照建表有：执行操作语句：StringopSql="insertintofileOutselectid,name,age,sum(score)fromkafkaInputgroupbyid";报错如下，原因是这样数据是增量（不支持）,需要进行开窗：Exceptioninthread"main"org.apach

FlinkSql kafka span class token 大数据 flink 开窗聚合

hadoop - Flume: kafka channel 和 hdfs sink get unable to deliver event 错误

我想尝试这个新的Flafka流程:只使用kafkachannel将数据传输到hdfssink。我从更容易监控的kafkachannel和记录器接收器中尝试了它。我的配置文件是:#Namethecomponentsonthisagenta1.sinks=sink1a1.channels=channel1a1.channels.channel1.type=org.apache.flume.channel.kafka.KafkaChannela1.channels.channel1.brokerList=localhost:9093,localhost:9094a1.channels.cha

channel deliver MonitoredCounterGroup apache hadoop hdfs apache-kafka flume flume-ng

hadoop - 如何使用 Kafka 从文件中读取新条目

这是我从文件中读取的Kafka代码:publicvoidrun()throwsClassNotFoundException,FileNotFoundException,IOException,ParseException{Propertiesprop=newProperties();prop.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG,"localhost:9092");prop.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG,"org.apache.kafka.common.serializat

条目 hadoop section String currentLine apache-kafka kafka-producer-api

hadoop - 使用 Kafka HDFS Connect 写入 HDFS 时出错

我正在尝试使用kafkaHDFS连接器将avro格式的数据从我的Java代码写入到Kafka到HDFS，但我遇到了一些问题。当我使用融合平台网站上提供的简单模式和数据时，我能够将数据写入HDFS，但是当我尝试使用复杂的avro模式时，我在HDFS连接器日志中收到此错误:ERRORTaskhdfs-sink-0threwanuncaughtandunrecoverableexception(org.apache.kafka.connect.runtime.WorkerTask:142)org.apache.kafka.connect.errors.DataException:Didnot

时出 HDFS 34 java connect hadoop avro kafka-producer-api apache-kafka-connect

hadoop - 使用 kafka-connect 的多个配置单元分区

在这个过程中，我一直在尝试使用kafka-connect将数据流式传输到HDFS中，并启用hive集成。我的用例要求我使用“FieldPartioner”作为分区程序类。我的问题是，我无法获得多个分区。例子:我的示例JSON{"_id":"582d666ff6e02edad83cae28","index":"ENAUT","mydate":"03-01-2016","hour":120000,"balance":"$2,705.80"}我想根据“我的日期”和“小时”进行分区我尝试了以下方法name=hdfs-sinkconnector.class=io.confluent.connec

配置单 kafka-connect section 34 connect hadoop hive apache-kafka apache-kafka-connect confluent-platform

hadoop - kafka分区和生产者关系

我有一个kafka集群，其中包含三个代理和一个主题，复制因子为三个和三个分区。我可以看到每个代理都有一份大小相同的所有分区的日志副本。这个主题有两个制作人。有一天，我将一位制作人的写作量减少了一半。然后我发现三个代理的入站流量都减少了，这是预期的，但只有分区1的领导节点的出流量减少了，我不明白。分区领导者的出站流量因复制而减少。但是每个broker都是一个partition的leader，为什么只有一个leader的出流量减少了呢？有没有可能生产者只写一个分区的内容？虽然我不这么认为。请帮我解释一下。集群现在运行良好，但我需要了解它以防出现潜在问题。最佳答

hadoop kafka section noreferrer noopener apache-kafka kafka-producer-api

hadoop - 数据从 Kafka 流向 HDFS 时，Flume 空间不足错误

我们正在努力处理从Kafka到由Flume管理的HDFS的数据流。由于下述异常，数据未完全传输到hdfs。然而这个错误看起来误导了我们，我们在数据目录和hdfs中都有足够的空间。我们认为这可能是channel配置的问题，但我们对其他来源也有类似的配置，并且对它们工作正常。如果有人必须处理这个问题，我将不胜感激。17Aug201714:15:24,335ERROR[Log-BackgroundWorker-channel1](org.apache.flume.channel.file.Log$BackgroundWorker.run:1204)-Errordoingcheckpointj

流向 hadoop channel java agent2 apache-kafka hdfs flume flume-ng

linux - kafka logs + 如何限制日志大小

在我的ambari集群中(版本2.6)我们有master机器和workers机器而kafka安装在master机器上分区/data只有15Gkafka日志文件夹是-/data/var/kafka/kafka-logs/data/var/kafka/kafka-logs下的大部分文件夹大小都是4K-40K但是两个文件夹非常大-5G-7G，这导致/data为100%例子:在/data/var/kafka/kafka-logs/mmno.aso.prpl.proces-90下12K00000000000000000000.index1.0G00000000000000000000.log16

linux kafka strong code hadoop apache-kafka kafka-producer-api ambari

214 215 216217218 219 220