草庐IT

Kafka-eagle

全部标签

在Linux上启动kafka

1.启动zookeeper在zookeeper的bin目录./zkServer.shstart/stop/status2.启动kafka在kafka的bin目录 ./kafka-server-start.sh../config/server.properties查看zookeeper的状态1.查看进程 ps-aux|grep'zookeeper' 2.查看zookeeper的端口号命令  netstat-anp|grep2181Kafka常用操作查看所有topic bin/kafka-topics.sh--list--bootstrap-serverlocalhost:9092查看所有消费组 

Elasticsearch:使用 Logstash 构建从 Kafka 到 Elasticsearch 的管道 - Nodejs

在我之前的文章“Elastic:使用Kafka部署ElasticStack”,我构建了从Beats=>Kafka=>Logstash=>Elasticsearch的管道。在今天的文章中,我将描述从Nodejs =>Kafka=>Logstash=>Elasticsearch这样的一个数据流。在之前的文章“Elastic:Datapipeline:使用Kafka=>Logstash=>Elasticsearch”中,我也展示了使用Python的方法。我的配置如下:在上面的架构中,有几个重要的组件:KafkaServer:这就是数据首先发布的地方。Producer:扮演将数据发布到Kafkatop

FlinkSql开窗实例:消费kafka写入文本

前言以前写Flink从kafka入hdfs因为业务需求和老版本缘故都是自定义BucketSink入动态目录中,对于简单的需求可以直接用FlinkSQLAPI进行输出。Flink版本1.13.1。Flink官网示例准备本地下载个kafka(单机即可),新建个桌面目录文件夹k2f。输入输出源按照建表有:执行操作语句:StringopSql="insertintofileOutselectid,name,age,sum(score)fromkafkaInputgroupbyid";报错如下,原因是这样数据是增量(不支持),需要进行开窗:Exceptioninthread"main"org.apach

hadoop - Flume: kafka channel 和 hdfs sink get unable to deliver event 错误

我想尝试这个新的Flafka流程:只使用kafkachannel将数据传输到hdfssink。我从更容易监控的kafkachannel和记录器接收器中尝试了它。我的配置文件是:#Namethecomponentsonthisagenta1.sinks=sink1a1.channels=channel1a1.channels.channel1.type=org.apache.flume.channel.kafka.KafkaChannela1.channels.channel1.brokerList=localhost:9093,localhost:9094a1.channels.cha

hadoop - 如何使用 Kafka 从文件中读取新条目

这是我从文件中读取的Kafka代码:publicvoidrun()throwsClassNotFoundException,FileNotFoundException,IOException,ParseException{Propertiesprop=newProperties();prop.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG,"localhost:9092");prop.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG,"org.apache.kafka.common.serializat

hadoop - 使用 Kafka HDFS Connect 写入 HDFS 时出错

我正在尝试使用kafkaHDFS连接器将avro格式的数据从我的Java代码写入到Kafka到HDFS,但我遇到了一些问题。当我使用融合平台网站上提供的简单模式和数据时,我能够将数据写入HDFS,但是当我尝试使用复杂的avro模式时,我在HDFS连接器日志中收到此错误:ERRORTaskhdfs-sink-0threwanuncaughtandunrecoverableexception(org.apache.kafka.connect.runtime.WorkerTask:142)org.apache.kafka.connect.errors.DataException:Didnot

hadoop - 使用 kafka-connect 的多个配置单元分区

在这个过程中,我一直在尝试使用kafka-connect将数据流式传输到HDFS中,并启用hive集成。我的用例要求我使用“FieldPartioner”作为分区程序类。我的问题是,我无法获得多个分区。例子:我的示例JSON{"_id":"582d666ff6e02edad83cae28","index":"ENAUT","mydate":"03-01-2016","hour":120000,"balance":"$2,705.80"}我想根据“我的日期”和“小时”进行分区我尝试了以下方法name=hdfs-sinkconnector.class=io.confluent.connec

hadoop - kafka分区和生产者关系

我有一个kafka集群,其中包含三个代理和一个主题,复制因子为三个和三个分区。我可以看到每个代理都有一份大小相同的所有分区的日志副本。这个主题有两个制作人。有一天,我将一位制作人的写作量减少了一半。然后我发现三个代理的入站流量都减少了,这是预期的,但只有分区1的领导节点的出流量减少了,我不明白。分区领导者的出站流量因复制而减少。但是每个broker都是一个partition的leader,为什么只有一个leader的出流量减少了呢?有没有可能生产者只写一个分区的内容?虽然我不这么认为。请帮我解释一下。集群现在运行良好,但我需要了解它以防出现潜在问题。 最佳答

hadoop - 数据从 Kafka 流向 HDFS 时,Flume 空间不足错误

我们正在努力处理从Kafka到由Flume管理的HDFS的数据流。由于下述异常,数据未完全传输到hdfs。然而这个错误看起来误导了我们,我们在数据目录和hdfs中都有足够的空间。我们认为这可能是channel配置的问题,但我们对其他来源也有类似的配置,并且对它们工作正常。如果有人必须处理这个问题,我将不胜感激。17Aug201714:15:24,335ERROR[Log-BackgroundWorker-channel1](org.apache.flume.channel.file.Log$BackgroundWorker.run:1204)-Errordoingcheckpointj

linux - kafka logs + 如何限制日志大小

在我的ambari集群中(版本2.6)我们有master机器和workers机器而kafka安装在master机器上分区/data只有15Gkafka日志文件夹是-/data/var/kafka/kafka-logs/data/var/kafka/kafka-logs下的大部分文件夹大小都是4K-40K但是两个文件夹非常大-5G-7G,这导致/data为100%例子:在/data/var/kafka/kafka-logs/mmno.aso.prpl.proces-90下12K00000000000000000000.index1.0G00000000000000000000.log16