草庐IT

kafka-stream

全部标签

apache-spark - Spark Streaming to Hive,每个分区的小文件太多

我有一个批处理间隔为2分钟(可配置)的Spark流作业。此作业从Kafka主题读取并创建数据集并在其上应用模式并将这些记录插入到Hive表中。Spark作业在Hive分区中每个批处理间隔创建一个文件,如下所示:dataset.coalesce(1).write().mode(SaveMode.Append).insertInto(targetEntityName);现在传入的数据不是那么大,如果我将批处理持续时间增加到10分钟左右,那么即使我最终也可能只获得2-3mb的数据,这远小于block大小。这是SparkStreaming中的预期行为。我正在寻找有效的方法来进行后处理以合并所有

Kafka生产环境问题总结与性能优化实践

Kafka可视化管理工具kafka-manager安装及基本使用可参考: httos://wwwcnbloas.com/dadonaaa/o/8205302.html 线上环境规划1.消息丢失情况:消

用于 Flume 接收器文件的 Hadoop Streaming MapReduce - FileNotFoundException

我遇到以下异常:java.io.FileNotFoundException:Filedoesnotexist:/log1/20131025/2013102509_at1.1382659200021.tmpatorg.apache.hadoop.hdfs.DFSClient$DFSInputStream.fetchLocatedBlocks(DFSClient.java:2006)atorg.apache.hadoop.hdfs.DFSClient$DFSInputStream.openInfo(DFSClient.java:1975)...当MR作业正在运行时。Flume将文件名从xx

私有部署ELK,搭建自己的日志中心(六)-- 引入kafka对采集日志进行削峰填谷

一、背景首先,要说明一点,elk日志中心,是可以缺少kafka组件的。其次,如果是研发环境下,机器资源紧张的情况下,也是可不部署kafka。最后,因为kafka的部署是可以独立的,所以本文将另行部署,不和elk一起。二、目标1、数据的可视化2、数据的治理3、对采集数据进行削峰填谷三、部署1、三节点的kafka集群本机的IP地址是192.168.8.29,请你修改为自己的IPversion:"3"services:#kafka集群kafka1:image:bitnami/kafka:3.3.1container_name:kafka1user:rootports:-9192:9092-9193:

使用 Hadoop Streaming 进行 avro 转换的 python 脚本

我有10GB的输入文件,我正在尝试使用pythonhadoop流将其转换为avro,工作成功但我无法使用avro阅读器读取输出。它给出“utf8”编解码器无法解码位置13924中的字节0xb4:无效的起始字节。这里的问题是我将标准输出用于hadoop流的映射器输出,如果我使用文件名并在本地使用脚本,则avro输出是可读的。任何想法,如何解决这个问题?我认为问题在于处理流媒体中的键/值....hadoopjar/opt/cloudera/parcels/CDH/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming.jar

Kafka基础—2、Kafka 生产者API

Kafka知识库-索引目录一、Kafka生产者API1、发送消息在Go语言中使用Kafka生产者API,首先需要Kafka的Go客户端库。常用的库包括sarama或confluent-kafka-go。sarama是一个Go语言的Kafka客户端库,用于与Kafka集成,实现Kafka生产者和消费者的功能。这里使用sarama,我们来看一个简单的示例,步骤如下:步骤一:安装Sarama库gogetgithub.com/Shopify/sarama步骤二:编写生产者代码packagemainimport( "fmt" "log" "os" "os/signal" "github.com/Shop

hadoop - 在 5 节点集群的每个节点上设置多代理 kafka

我们有一个有5个节点的沙箱,所有五个节点都运行一个kafka代理(代理id=0)现在,我已经复制了所有5个节点上的配置文件,这些节点具有不同的代理ID和日志文件目录,以便运行多个代理-rw-r--r--1rootroot5652Apr223:01server.properties-(thisonebeingthedefault)-rw-r--r--1rootroot5675Apr223:02server1.properties-rw-r--r--1rootroot5675Apr223:02server2.properties现在我在所有5个节点上使用新的配置文件启动kafka./kaf

r - Hadoop streaming reducer 到 mapper

我正在用R编写Hadoop流作业,我遇到了一个相当奇怪的情况,我找不到任何文档。我想运行一个直接传递给另一个映射器的缩减作业(不需要映射器)。是否可以在没有初始映射器的情况下直接在缩减作业之后堆叠映射作业?如果我编写一个身份映射器将输出传递到我的reduce作业,我能否将reduce输出传递给另一个映射器,如果可以,如何传递?我当前的代码是:$HADOOP_HOME/bin/hadoopjar/opt/cloudera/parcels/CDH-5.3.2-1.cdh5.3.2.p0.10/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoo

java - 如何使用 Spark Streaming Java API 将 Twitter 推文写入 HDFS

SparkConfconf=newSparkConf().setMaster("local[2]").setAppName("SparkTwitterHelloWorldExample");JavaStreamingContextjssc=newJavaStreamingContext(conf,newDuration(60000));System.setProperty("twitter4j.oauth.consumerKey",consumerKey);System.setProperty("twitter4j.oauth.consumerSecret",consumerSecre

hadoop - [HDFS connector + Kafka]单机模式下如何写多个主题?

我正在使用Confluent的HDFS连接器将流式数据写入HDFS。我遵循了用户手册和quickstart并设置我的连接器。当我只使用一个主题时,它可以正常工作。我的属性文件看起来像这样name=hdfs-sinkconnector.class=io.confluent.connect.hdfs.HdfsSinkConnectortasks.max=1topics=test_topic1hdfs.url=hdfs://localhost:9000flush.size=30当我添加多个主题时,我看到它不断地提交偏移量,但我没有看到它写入已提交的消息。name=hdfs-sinkconne