草庐IT

kafka-stream流式系统设计与实现(demo)

伊丽莎白菜 2023-03-28 原文

需求分析

目的

重构某个由定时任务调度的系统,升级为流式系统。

技术选型

kafka-stream 2.7.0

kafka 2.7.0

整体流程

  1. 消费source-topic的order数据
  2. 窗口聚合: windowBy,aggregate
  3. 若干中间处理器: map、filter...,最终组成task
  4. 扁平展开为多条数据: flatMap
  5. 将task数据发往下游sink-topic
stream-system.png

程序实现(demo)

  1. kafka基础配置

     private static Properties buildConfigProps() {
        Properties props = new Properties();
        String applicationId = "test_33333";
        props.put("bootstrap.servers", "192.168.10.152:9092");
        props.put("application.id", applicationId);
        props.put("auto.commit.interval.ms", "1000");
        props.put("session.timeout.ms", "30000");
        props.put("max.poll.records", 1000);
        props.put("auto.offset.reset", "earliest");
        props.put("key.deserializer", StringDeserializer.class.getName());
        props.put("value.deserializer", StringDeserializer.class.getName());
        props.put("key.serializer", StringSerializer.class.getName());
        props.put("value.serializer", StringSerializer.class.getName());
        return props;
      }
    
  2. fast-json实现的序列化处理器

    import com.alibaba.fastjson2.JSON;
    import org.apache.kafka.common.serialization.Serializer;
    
    public class JSONSerializer<T> implements Serializer<T> {
    
      @Override
      public byte[] serialize(String topic, T data) {
        if (data == null) {
          return null;
        }
        return JSON.toJSONBytes(data);
      }
    
    }
    
    import com.alibaba.fastjson2.JSON;
    import org.apache.kafka.common.serialization.Deserializer;
    
    public class JSONDeserializer<T> implements Deserializer<T> {
    
    
      @Override
      public T deserialize(String topic, byte[] data) {
        if (data == null || data.length == 0) {
          return null;
        }
        return (T) JSON.parse(data);
      }
    
    }
    
  3. 异常处理逻辑

public abstract class RetryExceptionHandler {

  public static final String SOURCE_TOPIC_KEY = "sourceTopic";
  public static final String PRODUCER_KEY = "producer";

  protected String sourceTopic;
  protected KafkaProducer<String, String> producer;

  public void configure(Map<String, ?> config) {
    this.sourceTopic = (String) config.get(SOURCE_TOPIC_KEY);
    this.producer = (KafkaProducer<String, String>) config.get(PRODUCER_KEY);
  }

}
@Slf4j
public class RetryDeserializationExceptionHandler extends RetryExceptionHandler implements DeserializationExceptionHandler {

  @Override
  public DeserializationHandlerResponse handle(ProcessorContext context,
      ConsumerRecord<byte[], byte[]> record, Exception exception) {
    log.error("Exception caught during Deserialization, sending to the source topic, " +
            "taskId: {}, topic: {}, partition: {}, offset: {}",
        context.taskId(), record.topic(), record.partition(), record.offset(),
        exception);
    byte[] value = record.value();
    producer.send(new ProducerRecord<>(sourceTopic, new String(value, StandardCharsets.UTF_8)));
    return DeserializationHandlerResponse.CONTINUE;
  }

}
@Slf4j
public class RetryProductionExceptionHandler extends RetryExceptionHandler implements
    ProductionExceptionHandler {

  @Override
  public ProductionExceptionHandlerResponse handle(ProducerRecord<byte[], byte[]> record,
      Exception exception) {
    log.error("Exception caught during Production, sending to the source topic, " +
        "topic: {}, partition: {}, offset: {}", record.topic(), record.partition(), exception);
    ProducerRecord<String, String> producerRecord = new ProducerRecord<>(
        new String(record.key(), StandardCharsets.UTF_8), new String(record.value(), StandardCharsets.UTF_8));
    producer.send(producerRecord);
    return ProductionExceptionHandlerResponse.CONTINUE;
  }

}
@Slf4j
public class RestartUncaughtExceptionHandler implements Thread.UncaughtExceptionHandler {

  public static final int MAX_AGE = 3;
  private StreamsBuilder streamsBuilder;
  private Properties props;

  private AtomicInteger age;

  public RestartUncaughtExceptionHandler(StreamsBuilder streamsBuilder, Properties props) {
    this.streamsBuilder = streamsBuilder;
    this.props = props;
    this.age = new AtomicInteger();
  }

  @Override
  public void uncaughtException(Thread t, Throwable e) {
    log.error("thread: {} process failed. age: {}", t.getName(), age, e);
    if (age.get() > MAX_AGE) {
      log.info("stop the stream application after retry times: {}", age);
      return;
    }
    age.incrementAndGet();
    KafkaStreams kafkaStreams = new KafkaStreams(streamsBuilder.build(), props);
    kafkaStreams.setUncaughtExceptionHandler(this);
    kafkaStreams.start();
  }

}
  1. kafka-stream核心逻辑

      private static final String SOURCE_TOPIC = "sourceTopic";
      private static final String SINK_TOPIC = "sinkTopic";
    
      @Test
      void helloWorld() {
        // kafka config
        Properties props = buildConfigProps();
        Serde<String> stringSerde = Serdes.String();
        props.put(StreamsConfig.DEFAULT_VALUE_SERDE_CLASS_CONFIG, stringSerde.getClass().getName());
        props.put(StreamsConfig.DEFAULT_KEY_SERDE_CLASS_CONFIG, stringSerde.getClass().getName());
        props.put(StreamsConfig.PROCESSING_GUARANTEE_CONFIG, StreamsConfig.EXACTLY_ONCE_BETA);
        props.put(StreamsConfig.COMMIT_INTERVAL_MS_CONFIG, 10000);
    
     props.put(StreamsConfig.DEFAULT_DESERIALIZATION_EXCEPTION_HANDLER_CLASS_CONFIG,
         RetryDeserializationExceptionHandler.class.getName());
     props.put(StreamsConfig.DEFAULT_PRODUCTION_EXCEPTION_HANDLER_CLASS_CONFIG,
         RetryProductionExceptionHandler.class.getName());
        props.put(RetryExceptionHandler.PRODUCER_KEY, producer);
        props.put(RetryExceptionHandler.SOURCE_TOPIC_KEY, SOURCE_TOPIC);
       Serde<List<String>> jsonSerde = Serdes.serdeFrom(new JSONSerializer<>(),
            new JSONDeserializer<>());
        StreamsBuilder streamsBuilder = new StreamsBuilder();
    
        KStream<String, String> kStream = streamsBuilder.stream(SOURCE_TOPIC,
            Consumed.with(stringSerde, stringSerde));
    
        Duration windowSize = Duration.ofSeconds(10);
        Materialized<String, List<String>, WindowStore<Bytes, byte[]>> storeMaterialized = Materialized.<String, List<String>, WindowStore<Bytes, byte[]>>as(
                "time-windowed-aggregated-stream-store").withKeySerde(stringSerde).withValueSerde(jsonSerde)
            .withRetention(Duration.ofMinutes(5));
    
        ConcurrentHashMap<String, Long> aggRecordMap = new ConcurrentHashMap<>();
        String lastMsgTimeKey = "lastMsgTimeKey";
        String signal = "signal";
        KTable<Windowed<String>, List<String>> kTable = kStream.groupBy((k, v) -> "defaultKey")
            .windowedBy(TimeWindows.of(windowSize).grace(Duration.ZERO))
            .aggregate(() -> new ArrayList<>(), (k, v, agg) -> {
              System.out.println("========== aggregate record ==========");
              log.info("k: {}, v: {}, agg: {}", k, v, agg);
              if (!signal.equals(v)) {
                agg.add(v);
              }
              aggRecordMap.put(lastMsgTimeKey, System.currentTimeMillis());
              return agg;
            }, storeMaterialized).suppress(Suppressed.untilWindowCloses(BufferConfig.unbounded()));
    
        String backFlow = "backFlow";
        KStream<String, JSONObject>[] branches = kTable.mapValues(list -> list).mapValues(list -> list)
            .toStream().flatMap(
                (k, v) -> {
                  List<KeyValue<String, JSONObject>> keyValues = new ArrayList<>(v.size());
                  System.out.println("========== flatMap record ==========");
                  log.info("k: {}, v: {}", k, v);
                  v.stream().forEach(str -> {
                    JSONObject jsonObject = JSON.parseObject(str);
                    int index = jsonObject.getIntValue("index");
                    boolean backFlowFlag = jsonObject.getBooleanValue(backFlow);
                    if (!backFlowFlag && index % 2 == 0) {
                      jsonObject.put(backFlow, true);
                    } else {
                      jsonObject.remove(backFlow);
                    }
                    keyValues.add(new KeyValue<>(String.valueOf(index), jsonObject));
                  });
                  log.info("keyValues: {}", keyValues);
                  return keyValues;
                })
            .branch((k, v) -> !v.getBooleanValue(backFlow), (k, v) -> v.getBooleanValue(backFlow));
    
        branches[0].mapValues(v -> v.toJSONString())
            .to(SINK_TOPIC, Produced.with(stringSerde, stringSerde));
    
        KafkaProducer<String, String> producer = new KafkaProducer<>(buildConfigProps());
        branches[1].map((k, v) -> new KeyValue<>(k, new ProducerRecord<>(SOURCE_TOPIC, k, v.toJSONString())))
            .foreach((k, v) -> producer.send(v));
    
        KafkaStreams kafkaStreams = new KafkaStreams(streamsBuilder.build(), props);
        kafkaStreams.setUncaughtExceptionHandler(
         new RestartUncaughtExceptionHandler(streamsBuilder, props));
        kafkaStreams.start();
        while (true) {
          System.out.println("运行中......");
          Long lastModifiedKey = aggRecordMap.getOrDefault(lastMsgTimeKey, 0L);
          if (lastModifiedKey > 0 && System.currentTimeMillis() - lastModifiedKey > windowSize.toMillis()) {
            producer.send(new ProducerRecord<>(SOURCE_TOPIC, lastModifiedKey.toString(), signal));
          }
          try {
            TimeUnit.SECONDS.sleep(2);
          } catch (InterruptedException e) {
            throw new RuntimeException(e);
          }
        }
      }
    
    

遇到的坑

  1. 实验发现,TimeWindow在生产者持续生产消息时,可以按照预期工作。但生产者停止发送消息后,最后一次窗口无法闭合,直到生产者再次发送消息。

    尝试过各种修改,搞不定,怀疑kafka-stream本来就是这么设计的,无界数据,不需要考虑停止...
    在发送邮件给kafka开发者社区users@kafka.apache.org询问后,我得到了大佬John Roesler(vvcephei@apache.org)的答复: kafka事件时间基于生产者推动,生产者停止,时钟也就停止了。
    为了解决这个问题,只能写个轮巡任务去定期发假消息(dummy record).

  2. 某些场景,部分记录需要回流到源端,下个周期重新处理,所以demo中使用了branch操作。
    实验中发现发送直接to到源主题中的消息,无法再次进入stream中,可能是kafka规避死循环的某种机制。但可以直接使用Producer发送到源端。

  3. kafka中流动的是orderId,而不是整个order,是因为业务上order可能会非常大,可能会超出kafka单条消息限制,并且造成网络拥堵。
    暂时实现为传递orderId的半流式系统,待后续重构order结构。

有关kafka-stream流式系统设计与实现(demo)的更多相关文章

  1. ruby-on-rails - Rails - 子类化模型的设计模式是什么? - 2

    我有一个模型:classItem项目有一个属性“商店”基于存储的值,我希望Item对象对特定方法具有不同的行为。Rails中是否有针对此的通用设计模式?如果方法中没有大的if-else语句,这是如何干净利落地完成的? 最佳答案 通常通过Single-TableInheritance. 关于ruby-on-rails-Rails-子类化模型的设计模式是什么?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.co

  2. ruby-on-rails - 使用 rails 4 设计而不更新用户 - 2

    我将应用程序升级到Rails4,一切正常。我可以登录并转到我的编辑页面。也更新了观点。使用标准View时,用户会更新。但是当我添加例如字段:name时,它​​不会在表单中更新。使用devise3.1.1和gem'protected_attributes'我需要在设备或数据库上运行某种更新命令吗?我也搜索过这个地方,找到了许多不同的解决方案,但没有一个会更新我的用户字段。我没有添加任何自定义字段。 最佳答案 如果您想允许额外的参数,您可以在ApplicationController中使用beforefilter,因为Rails4将参数

  3. ruby - 如何根据特征实现 FactoryGirl 的条件行为 - 2

    我有一个用户工厂。我希望默认情况下确认用户。但是鉴于unconfirmed特征,我不希望它们被确认。虽然我有一个基于实现细节而不是抽象的工作实现,但我想知道如何正确地做到这一点。factory:userdoafter(:create)do|user,evaluator|#unwantedimplementationdetailshereunlessFactoryGirl.factories[:user].defined_traits.map(&:name).include?(:unconfirmed)user.confirm!endendtrait:unconfirmeddoenden

  4. ruby - 如何验证 IO.copy_stream 是否成功 - 2

    这里有一个很好的答案解释了如何在Ruby中下载文件而不将其加载到内存中:https://stackoverflow.com/a/29743394/4852737require'open-uri'download=open('http://example.com/image.png')IO.copy_stream(download,'~/image.png')我如何验证下载文件的IO.copy_stream调用是否真的成功——这意味着下载的文件与我打算下载的文件完全相同,而不是下载一半的损坏文件?documentation说IO.copy_stream返回它复制的字节数,但是当我还没有下

  5. 电脑0x0000001A蓝屏错误怎么U盘重装系统教学 - 2

      电脑0x0000001A蓝屏错误怎么U盘重装系统教学分享。有用户电脑开机之后遇到了系统蓝屏的情况。系统蓝屏问题很多时候都是系统bug,只有通过重装系统来进行解决。那么蓝屏问题如何通过U盘重装新系统来解决呢?来看看以下的详细操作方法教学吧。  准备工作:  1、U盘一个(尽量使用8G以上的U盘)。  2、一台正常联网可使用的电脑。  3、ghost或ISO系统镜像文件(Win10系统下载_Win10专业版_windows10正式版下载-系统之家)。  4、在本页面下载U盘启动盘制作工具:系统之家U盘启动工具。  U盘启动盘制作步骤:  注意:制作期间,U盘会被格式化,因此U盘中的重要文件请注

  6. 华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2

    华为OD机试题本篇题目:明明的随机数题目输入描述输出描述:示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od,od薪资待遇,od机试题清单华为OD机试真题大全,用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o

  7. 【鸿蒙应用开发系列】- 获取系统设备信息以及版本API兼容调用方式 - 2

    在应用开发中,有时候我们需要获取系统的设备信息,用于数据上报和行为分析。那在鸿蒙系统中,我们应该怎么去获取设备的系统信息呢,比如说获取手机的系统版本号、手机的制造商、手机型号等数据。1、获取方式这里分为两种情况,一种是设备信息的获取,一种是系统信息的获取。1.1、获取设备信息获取设备信息,鸿蒙的SDK包为我们提供了DeviceInfo类,通过该类的一些静态方法,可以获取设备信息,DeviceInfo类的包路径为:ohos.system.DeviceInfo.具体的方法如下:ModifierandTypeMethodDescriptionstatic StringgetAbiList​()Obt

  8. 基于C#实现简易绘图工具【100010177】 - 2

    C#实现简易绘图工具一.引言实验目的:通过制作窗体应用程序(C#画图软件),熟悉基本的窗体设计过程以及控件设计,事件处理等,熟悉使用C#的winform窗体进行绘图的基本步骤,对于面向对象编程有更加深刻的体会.Tutorial任务设计一个具有基本功能的画图软件**·包括简单的新建文件,保存,重新绘图等功能**·实现一些基本图形的绘制,包括铅笔和基本形状等,学习橡皮工具的创建**·设计一个合理舒适的UI界面**注明:你可能需要先了解一些关于winform窗体应用程序绘图的基本知识,以及关于GDI+类和结构的知识二.实验环境Windows系统下的visualstudio2017C#窗体应用程序三.

  9. LC滤波器设计学习笔记(一)滤波电路入门 - 2

    目录前言滤波电路科普主要分类实际情况单位的概念常用评价参数函数型滤波器简单分析滤波电路构成低通滤波器RC低通滤波器RL低通滤波器高通滤波器RC高通滤波器RL高通滤波器部分摘自《LC滤波器设计与制作》,侵权删。前言最近需要学习放大电路和滤波电路,但是由于只在之前做音乐频谱分析仪的时候简单了解过一点点运放,所以也是相当从零开始学习了。滤波电路科普主要分类滤波器:主要是从不同频率的成分中提取出特定频率的信号。有源滤波器:由RC元件与运算放大器组成的滤波器。可滤除某一次或多次谐波,最普通易于采用的无源滤波器结构是将电感与电容串联,可对主要次谐波(3、5、7)构成低阻抗旁路。无源滤波器:无源滤波器,又称

  10. MIMO-OFDM无线通信技术及MATLAB实现(1)无线信道:传播和衰落 - 2

     MIMO技术的优缺点优点通过下面三个增益来总体概括:阵列增益。阵列增益是指由于接收机通过对接收信号的相干合并而活得的平均SNR的提高。在发射机不知道信道信息的情况下,MIMO系统可以获得的阵列增益与接收天线数成正比复用增益。在采用空间复用方案的MIMO系统中,可以获得复用增益,即信道容量成倍增加。信道容量的增加与min(Nt,Nr)成正比分集增益。在采用空间分集方案的MIMO系统中,可以获得分集增益,即可靠性性能的改善。分集增益用独立衰落支路数来描述,即分集指数。在使用了空时编码的MIMO系统中,由于接收天线或发射天线之间的间距较远,可认为它们各自的大尺度衰落是相互独立的,因此分布式MIMO

随机推荐