Kafka-eagle

hadoop - 带有 avro 记录的 Kafka

我有以下内容:来源-kafka主题(翻译)channel-内存接收器-Hdfs(avro_event)kafkatopictrans中的数据是用c#producer写的，有上千条avro记录。当我运行我的水槽消费者时，它开始将数据接收到hdfs。问题是数据的格式是:schema数据图式数据代替:架构数据数据我猜这是因为flume期望记录类型为{header}{body}而来自kafka的数据只是{body}我知道有一种方法可以将写入主题的avro数据包装在avroFlumeEvent中，但它似乎不再是真正的avro记录，也许spark消费者或Storm会更喜欢真正的avro中的数据.有

hadoop Kafka 34 avro 水槽 hadoop-streaming apache-kafka flume

hadoop - 如何在hadoop集群上安装Kafka？

我想在我们的HortonWorksHadoop集群上安装最新版本的Kafka，该集群包含2个主节点、2个边缘节点和8个数据节点。计划是在8个数据节点盒中的2个上安装Kafka。Kafka每天需要处理多达几百万个事件，可能需要处理几批大小为0.5Gb-1.2Gb的文件副本。问题:为了避免kafka(或数据节点)潜在的性能下降，我需要考虑对数据节点或kafka的任何特殊配置吗？Kafka通常是如何部署的(在专用盒子上还是在数据节点上运行它可以)？最佳答案您可以通过Ambari安装kafka。转到Ambari主页->点击操作(左下角)

hadoop 何在 section Kafka apache-kafka

java - 从主机操作系统访问沙箱中的 kafka(尝试所有解决方案后)

认为我是个菜鸟。我已经阅读了有关堆栈溢出的所有问题并尝试了一天，但解决方案就是不点击我。请专门帮助我设置和代码(因为我已经尝试了堆栈溢出时相同问题的所有可能性-)这是我的Producer.properties文件这是我的server.properties文件这是我的代码Propertiesprops=newProperties();props.put("metadata.broker.list","sandbox.hortonworks.com:9093");//props.put("zk.connect","sandbox.hortonworks.com:2181");props.p

沙箱 kafka strong section 34 java hadoop apache-kafka hortonworks-data-platform

hadoop - Gobblin Kafka 到 HDFS pull 作业报错

我正在尝试使用Gobblin将数据从Kafka提取到HDFS.Gobblin版本(使用命令sudo./gradlewcleanbuild-PuseHadoop2-PhadoopVersion=2.7.1-xtest从github源代码编译):0.6.2-546-g431188bHadoop版本:Hadoop2.7.1.2.4.2.0-258Subversiongit@github.com:hortonworks/hadoop.git-r13debf893a605e8a88df18a7d8d214f571e05289Compiledbyjenkinson2016-04-24T16:02Z

Gobblin hadoop java apache-kafka hadoop-yarn

hadoop - Kafka Connect HDFS 接收器与 Azure Blob 存储

我想使用KafkaHDFS接收器连接器连接到AzureBlob存储。到目前为止我已经做了:设置kafka-connect属性:hdfs.url=wasbs://hadoop.conf.dir={hadoop_3_home}/etc/hadoop/hadoop.home={hadoop_3_home}并且在core-site.xml中添加了对wasbs的支持:fs.wasbs.implorg.apache.hadoop.fs.azure.NativeAzureFileSystem导出HADOOP_CLASSPATH变量，添加到PATH但是无论如何，Hadoop找不到类-NativeAzu

Connect hadoop code section apache-kafka azure-blob-storage apache-kafka-connect

docker - docker 中的 Kafka 连接和 HDFS

我在docker-compose中使用kafkaconnectHDFSsink和Hadoop(用于HDFS)。Hadoop(名称节点和数据节点)似乎工作正常。但是kafkaconnectsink出现错误:ERRORRecoveryfailedatstateRECOVERY_PARTITION_PAUSED(io.confluent.connect.hdfs.TopicPartitionWriter:277)org.apache.kafka.connect.errors.DataException:Errorcreatingwriterforlogfilehdfs://namenode:

docker Kafka code hadoop namenode apache-kafka hdfs apache-kafka-connect

java - 一个处理HDFS数据的Kafka消费者应该跑到哪里去？

我是Hadoop和Kafka的新手。我继承了在桌面Windows机器上运行的Kafka消费者的代码，接收远程集群上可用的新XML数据的HDFS位置，下载数据进行处理，并将结果写回HDFS集群。在我看来，消费者应该在集群上运行，因为那是数据所在的地方，但我看到的所有示例Kafka消费者代码都表明生产者/消费者在常规桌面计算机上运行。Kafka消费者的典型目标平台是什么？最佳答案生产者和消费者可以在任何地方运行。您看到的示例暗示桌面执行，因为该代码比在Storm拓扑中运行的代码简单得多，并且示例往往过于简单。桌面环境的唯一原因是存在

Kafka java section 中运 hadoop apache-kafka

hadoop - 使用 NIFI 从 Kafka 插入到 Cassandra

我需要将巨大的CSV文件从Kafka主题读取到Cassandra。我配置了ApacheNifi实现相同。流量:用户无法控制Nifi设置。他只指定了CSV所在的URL。Web应用程序将URL写入kafka主题。Nifi获取文件并插入到Cassandra中。我如何知道Nifi已将CSV文件中的所有行插入到Cassandra中？我需要让用户知道插入已完成。如有任何帮助，我们将不胜感激。最佳答案我找到了解决方案。使用MergeContent处理器，所有具有相同“fragment.identifier”值的FlowFiles将被组合在一起

Cassandra hadoop section strong apache-kafka hortonworks-data-platform apache-nifi

hadoop - 从 kafka Spark 流接收时获取空值

我是Sparkstreaming的新手，我正在实现一些小练习，例如从kafka发送XML数据，并且需要接收>通过sparkstreaming流式传输数据。我尝试了所有可能的方式..但每次我都得到空值。Kafka端没有问题，唯一的问题是从Spark端接收Streaming数据。这是我实现的代码:packagecom.package;importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaSparkContext;importorg.apache.spark.streaming.Duration;import

hadoop Spark strong gt section apache-spark streaming apache-kafka spark-streaming

hadoop - 批量加载离线数据到Kafka为 "Entering door"的DWH环境

我的问题的一些背景。正如你在这里看到的:https://medium.com/airbnb-engineering/data-infrastructure-at-airbnb-8adfb34f169cHDFS加载数据有2个“门”斯库普卡夫卡以这个拓扑为例，加载托管在FTP服务器infoHDFS上的批量离线数据的最佳实践是什么？我们还假设不需要对文件执行任何更改，我们需要将其存储在HDFS中，其结构与存储在FTP服务器中的结构相同。想法？最佳答案默认情况下，Kafka并未完全配置为传输“文件大小”的数据。至少，不是一条消息中的整个

amp Entering section HDFS li hadoop apache-kafka bigdata

216 217 218219220 221 222