$apache

Apache IoTDB 查询引擎源码阅读——DataNode 上 DriverTask 调度与执行

背景ApacheIoTDB查询引擎目前采用MPP架构，一条查询SQL大致会经历下图几个阶段：imageFragmentInstance是分布式计划被拆分后实际分发到各个节点进行执行的实例。由于每个节点会同时接收来自于多个并发Query的多个FragmentInstance，这些FragmentInstance在执行时可能由于等待上游数据而处于阻塞状态、或者数据就绪可以执行、或者超时需要被取消。因此，需要一个较为合理的调度策略，保证在分配给FragmentInstance的有限资源内，能够满足高并发的查询需求，同时尽可能避免出现饿死或者死锁情况。在具体实现中，查询引擎里真正执行查询计算的算子树O

org.apache.kafka.common.errors.TimeoutException:Topic xxx not present in metadata after 60000ms.

1.发现问题：服务中向kafka的一个topic发送消息，报了这个错误org.apache.kafka.common.errors.TimeoutException:Topicxxxnotpresentinmetadataafter60000ms.2.排查思路：手动连接kafka,打开两个窗口一个向xxx这个topic发送消息，另一个看能否正常消费消息。窗口1：执行发送消息命令bin/kafka-console-producer.sh--broker-list192.168.65.60:9092,192.168.65.60:9093,192.168.65.60:9094--topicxxx窗口

TimeoutException metadata span class token kafka apache zookeeper

Apache Flink——数据源算子（Source）

前言Flink可以从各种来源获取数据，然后构建DataStream进行转换处理。一般将数据的输入来源称为数据源(datasource)，而读取数据的算子就是源算子（sourceoperator）。所以，source就是我们整个处理程序的输入端。Flink代码中通用的添加source的方式，是调用执行环境的addSource()方法：DataStreamstream=env.addSource(...);方法传入一个对象参数，需要实现SourceFunction接口；返回DataStreamSource。这里的DataStreamSource类继承自SingleOutputStreamOpera

算子 mdash 数据 gt lt

Apache DolphinScheduler 如何实现自动化打包+单机/集群部署？

ApacheDolphinScheduler是一款开源的分布式任务调度系统，旨在帮助用户实现复杂任务的自动化调度和管理。DolphinScheduler支持多种任务类型，可以在单机或集群环境下运行。下面将介绍如何实现DolphinScheduler的自动化打包和单机/集群部署。自动化打包所需环境：maven、jdk执行以下shell完成代码拉取及打包，打包路径：/opt/action/dolphinscheduler/dolphinscheduler-dist/target/apache-dolphinscheduler-dev-SNAPSHOT-bin.tar.gzsudosu-root单机

DolphinScheduler 集群 lt gt property 大数据

Apache Flink——DataStream算子汇总

Transformation数据流转换算子Mapmap可以理解为映射，对每个元素进行一定的变换后，映射为另一个元素。FlatMapflatmap可以理解为将元素摊平，每个元素可以变为0个、1个、或者多个元素。Filterfilter是进行筛选为每个元素评估一个布尔函数，并保留该函数返回true的布尔函数。过滤出零值的过滤器。KeyBy逻辑上将Stream根据指定的Key进行分区，是根据key的散列值进行分区的。在内部，keyBy（）是通过哈希分区实现的。有多种指定密钥的方法。此转换返回一个KeyedStream，除其他事项外，还需要使用keyedstate。在以下情况下，类型不能为键：是POJ

算子 mdash li 操作数据

Apache Doris——物化视图

八、物化视图物化视图就是包含了查询结果的数据库对象，可能是对远程数据的本地copy，也可能是一个表或多表join后结果的行或列的子集，也可能是聚合后的结果。说白了，就是预先存储查询结果的一种数据库对象。在Doris中的物化视图，就是查询结果预先存储起来的特殊的表。物化视图的出现主要是为了满足用户，既能对原始明细数据的任意维度分析，也能快速的对固定维度进行分析查询。适用场景1、分析需求覆盖明细数据查询以及固定维度查询两方面；2、查询仅涉及表中的很小一部分列或行；3、查询包含一些耗时处理操作，比如：时间很久的聚合操作等；4、查询需要匹配不同前缀索引。优势1、对于那些经常重复的使用相同的子查询结果的

物化 mdash 视图查询

理解Apache Pulsar工作原理

ApachePulsar是灵活的发布-订阅消息系统（FlexiblePub/Submessaging），采用分层分片架构。发布-订阅消息系统关于发布-订阅模型的概念，主要从多租户、灵活的消息系统、云原生构架、分片的流（SegmentedStreams）等方面来强调ApachePulsar的功能和特性。多租户租户和命名空间（namespace）是Pulsar支持多租户的两个核心概念。在租户级别，Pulsar为特定的租户预留合适的存储空间、应用授权与认证机制。在命名空间级别，Pulsar有一系列的配置策略（policy），包括存储配额、流控、消息过期策略和命名空间之间的隔离策略。灵活的消息系统Pu

原理理解 section 写入 Pulsar

Apache Pulsar——Function 轻量级计算框架

一、Function背景介绍当我们进行流式处理的时候，很多情况下，我们的需求可能只是下面这些简单的操作：简单的ETL操作\聚合计算操作等相关服务。但为了实现这些功能，我们不得不去部署一整套SPE服务。部署成功后才发现需要的仅是SPE(流处理引擎)服务中的一小部分功能，部署SPE的成本可能比用户开发这个功能本身更困难。由于SPE本身API的复杂性，我们需要了解这些算子的使用场景，明白不同算子之间有哪些区别，什么情况下，应该使用什么算子来处理相应的逻辑。基于以上原因，我们设计并实现了PulsarFunctions，在PulsarFunctions中，用户只需关心计算逻辑本身，而不需要去了解或者部署

轻量轻量级 pulsar apache-pulsar

什么让 Apache Kafka 如此快速？

Kafka支持高吞吐量、高度分布式、容错性强的平台，能够以低延迟传递消息。有几种技术使ApacheKafka如此快速：低延迟消息传递批量数据和压缩水平扩展低延迟消息传递大多数传统的数据系统使用随机存取内存（RAM）进行数据存储，因为RAM提供了极低的延迟。让我们看看使用RAM的优缺点。优点：这种方法使它们变得非常快速。缺点： RAM的成本远高于磁盘，特别是当系统中有数百GBPS的数据流时。Kafka避免了随机存取内存，它通过顺序I/O和零拷贝原理实现低延迟消息传递。顺序I/O：Kafka在存储和缓存消息时大量依赖文件系统。有一种普遍的看法是“磁盘很慢”，这意味着高寻址时间。想象一下，如果我们

如此快速数据消息 data-id 服务器 Kafka 数据库

Apache Doris 系列：入门篇-创建数据表

本文档我们介绍Doris怎么创建表及其他的相关操作。连接Doris我们在成功部署完成Doris之后，我们可以通过任意MySQL客户端来连接Doris，下面我们的示例是通过MySQL客户端命令行工具来进行操作。注意：这里连接Doris，指的是连接DorisFE，连接的IP地址就是FE节点IP地址，端口是FE的query_port默认是9030mysql-u-P-h创建数据库这里我们使用root用户登录，创建一个test_doris的数据库mysql-uroot-P9030-h127.0.0.1createdatabasetest_doris;创建成功之后你可以通过SHOWDATABASES命令来

数据表入门 code https strong

217 218 219220221 222 223