Kafka-eagle_草庐IT

hadoop - 使用 HiveStorageHandler 的 Kafka 生产者

我对hive/hadoop比较陌生我正在阅读这个HiveStorageHandlers.现在我正在尝试编写HiveStorageHandler的自定义实现，以使用Hive表查询消息并将消息推送到Kafka。我看到还有HiveStorageHandler的其他实现，它允许我们使用配置单元表在NoSQL数据库上查询和写入。我正在尝试为Kafka复制它。我在上面找到了一个项目HiveKa-queryKafkausingHive在这里，他们试图使用配置单元表上的查询从Kafka读取数据。我希望使用insertonthetable来写关于kafka的话题。有人可以指导我吗？

hadoop - kafka connect - 使用 hdfs 接收器连接器的 ExtractTopic 转换抛出 NullPointerException

我正在使用confluenthdfssinkconnector5.0.0和kafka2.0.0，我需要使用ExtractTopic转换(https://docs.confluent.io/current/connect/transforms/extracttopic.html)。我的连接器工作正常，但是当我添加此转换时，我得到NullPointerException，即使是在只有2个属性的简单数据样本上也是如此。ERRORTaskhive-table-test-0threwanuncaughtandunrecoverableexception(org.apache.kafka.conn

NullPointerException ExtractTopic connect code transforms hadoop apache-kafka apache-kafka-connect

apache-kafka - 如何在kafka中找到所有更正的索引文件

我们的集群中有3台kafka机器，kafka版本-0.10.0.2.6,和3个zookeeper服务器版本-3.4.6我们有一个kafka代理无法启动的问题，这似乎是因为损坏的索引文件我们注意到，kafka日志(/var/log/kafka/server.log)在每台kafka机器上指示大约数千个损坏的索引文件，如下所示来自server.log的示例[2019-02-2512:34:44,907]INFOCompletedloadoflogtopic.pop.control.gtp.enrichment-38with14logsegmentsandlogendoffset200458

kafka 更正 index kafka-logs apache-kafka

hadoop - kafka磁盘崩溃时的过程是什么+磁盘崩溃后如何删除旧主题

我们在HDP集群中有3台kafka机器kafka01kafka02kafka03kafkaversion-0.10.0.2.6每台kafka机器(kafka03)都有18T的磁盘和default.replication.factor=3最后的kafka机器松动了磁盘(磁盘不健康，我们需要更换它)所以我们更换了磁盘，我们在上面再次创建文件系统并再次创建主题但是-众所周知，在从主题中删除kafka数据之前，我们需要删除/var/kafka/kafka-logs中的所有主题然后就可以安全更换磁盘了但事实并非如此，因为磁盘突然变皱了，我们没有删除主题现在kafkabroker服务在一段时间后停

旧主 hadoop kafka section code apache-kafka

apache-kafka - 通过 zookeeper CLI 自动删除

我们要永久删除一个主题如下停止代理删除磁盘上的目录rm-rf/*从zookeeper中删除主题:我们可以通过以下命令打印所有主题kafka-topics.sh--zookeeper$Zookeeper_IP:2181--describe并获取zoocli为:bin/zkCli.sh现在我们删除主题rmr/config/topics/rmr/brokers/topics/rmr/admin/delete_topics//brokers/topics/示例rmr/brokers/topics/topic3435rmr/brokers/topics/topic3443rmr/brokers/

apache-kafka zookeeper code topics section apache-zookeeper

amazon-web-services - Kafka Connect 与 AWS Hadoop 实例的托管

对于生产类型的设置，其中TB的记录将写入KAFKA主题，使用KAFKAconnect-HDFS连接器的最佳实践是什么？我的kafka实例在AWS主机名a.b.c.d上运行，我的hadoop名称节点在AWS主机名p.q.r.s上。出于开发/POC的目的，我们在运行kafka实例的同一个盒子中保持融合，即在a.b.c.d上。HDFS集群大小为500GB。但是对于集群大小为20-30TB的生产类型设置，是否建议在与KAFKA实例相同的盒子或名称节点盒子或单独的盒子中保持汇合？在这样的生产案例中，confluent需要多少单独的磁盘大小？最佳答案

amazon-web-services services section 的汇合 hadoop apache-kafka hdfs apache-kafka-connect

hadoop - 实时数据集成 Kafka、Hadoop、Avro、HDFS是如何组合在一起的，数据集成有哪些架构

我正在尝试了解实时数据集成的架构以及所有部分如何组合在一起。我尝试在互联网上进行研究，但找不到好的资源。谁能解释一下如何使用例如hadoopkafka和其他组件进行实时数据集成。如果可能，您能否提供使用实时数据集成的位置。任何用例。如果您知道任何资源/教程，如果您分享它们，我将非常高兴提前致谢最佳答案如果我可以谦虚地提供我在这方面所做的两次谈话。从概念上讲，关于实时集成我们可以做些什么以及为什么这样做:https://talks.rmoff.net/said0W/the-changing-face-of-etl-event-dr

hadoop section https apache-kafka-and-ksql-in-action-l apache-kafka hdfs avro data-integration

hadoop - Apache Kafka 是否将消息内部存储在 HDFS 或其他文件系统中

我们有一个项目要求在Kafka层测试数据。所以JSON文件正在移动到hadoop区域，kafka正在读取hadoop中的实时数据(原始Json文件)。现在我要测试从其他系统发送的数据和kafka读取的数据是否应该相同。我可以在kafka验证数据吗？kafka是否将消息内部存储在HDFS上？如果是，那么它是否存储在类似于hive内部保存的文件结构中，就像单个表的单个文件夹一样。最佳答案 Kafka将数据存储在本地文件中(即每个正在运行的代理的本地文件系统)。对于这些文件，Kafka使用自己的存储格式，该格式基于分区的仅附加日志抽象。

hadoop Apache section confluence Kafka hdfs apache-kafka kafka-producer-api kafka-python

hadoop - Flume HDFS 接收器未从 Kafka channel 在 hdfs 中创建文件

我正在尝试实现一个简单的FlumeHDFS接收器，它将从Kafkachannel获取事件并将它们作为文本文件写入hdfs。该架构非常简单。这些事件从twitter流式传输到kafka主题，而flumehdfssink确实会将这些事件写入hdfs。这是Kafka-producerstackoverflowquestion的第2部分.当我执行这个命令时没有错误，看起来它工作得很好，但我无法在hdfs中看到文本文件。我无法调试或调查，因为/var/log/flume/文件夹中没有创建日志文件。我正在使用Hortonworks沙盒2.3.1和hue来浏览文件系统。执行flume的命令:flum

建文中创 hortonworks 1472250048016 flume hadoop apache-kafka hadoop-streaming flume-ng hortonworks-sandbox

hadoop - 现有 CDH 5.5.2 集群上的 Kafka 配置

我正在我现有的CDH5.5.2集群上安装Kafka-2.0，这是我遵循的过程从CM添加服务选择Kafka(在此之前我在所有节点上下载并分发并激活了kafkaparcel)为KafkaBroker选择了1个节点，为KafkaMirrorMaker选择了4个节点然后我使用MirrorMaker节点之一更新了我的目标代理列表(bootstrap.servers)属性以及具有相同节点的源代理列表(source.bootstrap.servers)我得到以下错误(日志文件)FatalerrorduringKafkaServerStartablestartup.Preparetoshutdownj

hadoop Kafka scala LogCleaner apache-kafka hadoop2 rhel cloudera-cdh