apache-falcon

A Beginner‘s Guide to Apache Kafka: 什么是Kafka、它为什么如此受欢迎、它在哪些场景下可以应用、以及一些基本概念和术语

作者：禅与计算机程序设计艺术1.简介ApacheKafka（以下简称Kafka）是一个开源分布式流处理平台，它被设计用来实时传输大量的数据，从而能够实时的对数据进行处理并提取价值。本文通过梳理关键词，引导读者了解什么是Kafka、它为什么如此受欢迎、它在哪些场景下可以应用、以及一些基本概念和术语。阅读完本文，读者应该会有一个全面的认识，包括Kafka到底是个什么样的产品、它与其他消息队列产品的区别、为什么要选择Kafka等等。另外，读者还可以在实际应用中发现Kafka所具有的优点，并且知道如何正确的部署和使用它。如果你在寻找一个开源分布式流处理平台，或者正在构建基于Kafka的系统，那么你需要

Kafka 术语分布式消息队列自然语言处理人工智能语言模型编程实践开发语言架构设计

重构实时离线一体化数仓，Apache Doris 在思必驰的应用实践

作者：赵伟，思必驰大数据高级研发，10年大数据开发和设计经验，负责大数据平台基础技术和OLAP分析技术开发。社区贡献：Doris-spark-connector的实时读写和优化。业务背景思必驰是国内专业的对话式人工智能平台公司，拥有全链路的智能语音语言技术，致力于成为全链路智能语音及语言交互的平台型企业，自主研发了新一代人机交互平台DUI和人工智能芯片TH1520，为车联网、IoT及政务、金融等众多行业场景合作伙伴提供自然语言交互解决方案。思必驰于2019年首次引入ApacheDoris，基于ApacheDoris构建了实时与离线一体的数仓架构。相对于过去架构，ApacheDoris凭借其灵活

重构一体化数据场景 Doris

Apache Doris (四) ：Doris分布式部署（一） FE部署及启动

目录1.ApacheDoris下载2.节点划分3. 节点配置4. FE部署及启动进入正文之前，欢迎订阅专题、对博文点赞、评论、收藏，关注IT贫道，获取高质量博客内容！部署ApacheDoris时需要分别部署FE、BE、Broker。然后再建立FE，BE两者关系。ApacheDoris中部署多FE的思路为先在一台节点上配置部署一个FE并启动，相当于是启动Doris服务，然后配置更多的FE节点，添加到Doris服务中给该Doris的FE进行扩容，最终形成多节点FE。FE又分为Leader、Follwer和Observer三种角色，多节点FE中首先启动的FE节点自动为Lead

部署 Doris style text-align strong sql database 数据库 etl 数据仓库

03Apache Solr 远程命令执行漏洞（CVE-2019-0193）

文章目录0x01漏洞介绍0x02影响版本0x03漏洞编号0x04漏洞查询0x05漏洞环境0x06漏洞复现0x07修复建议摘抄0x01漏洞介绍ApacheSolr是一个开源的搜索服务器。Solr使用Java语言开发，主要基于HTTP和ApacheLucene实现。此次漏洞出现在ApacheSolr的DataImportHandler，该模块是一个可选但常用的模块，用于从数据库和其他源中提取数据。它具有一个功能，其中所有的DIH配置都可以通过外部请求的dataConfig参数来设置。由于DIH配置可以包含脚本，因此攻击者可以通过构造危险的请求，从而造成远程命令执行。0x02影响版本ApacheSo

漏洞远程 li 0x solr lucene 全文检索

Apache IoTDB 查询引擎源码阅读——DataNode 上 DriverTask 调度与执行

背景ApacheIoTDB查询引擎目前采用MPP架构，一条查询SQL大致会经历下图几个阶段：imageFragmentInstance是分布式计划被拆分后实际分发到各个节点进行执行的实例。由于每个节点会同时接收来自于多个并发Query的多个FragmentInstance，这些FragmentInstance在执行时可能由于等待上游数据而处于阻塞状态、或者数据就绪可以执行、或者超时需要被取消。因此，需要一个较为合理的调度策略，保证在分配给FragmentInstance的有限资源内，能够满足高并发的查询需求，同时尽可能避免出现饿死或者死锁情况。在具体实现中，查询引擎里真正执行查询计算的算子树O

mdash 调度 DriverTask task section

org.apache.kafka.common.errors.TimeoutException:Topic xxx not present in metadata after 60000ms.

1.发现问题：服务中向kafka的一个topic发送消息，报了这个错误org.apache.kafka.common.errors.TimeoutException:Topicxxxnotpresentinmetadataafter60000ms.2.排查思路：手动连接kafka,打开两个窗口一个向xxx这个topic发送消息，另一个看能否正常消费消息。窗口1：执行发送消息命令bin/kafka-console-producer.sh--broker-list192.168.65.60:9092,192.168.65.60:9093,192.168.65.60:9094--topicxxx窗口

TimeoutException metadata span class token kafka apache zookeeper

Apache Flink——数据源算子（Source）

前言Flink可以从各种来源获取数据，然后构建DataStream进行转换处理。一般将数据的输入来源称为数据源(datasource)，而读取数据的算子就是源算子（sourceoperator）。所以，source就是我们整个处理程序的输入端。Flink代码中通用的添加source的方式，是调用执行环境的addSource()方法：DataStreamstream=env.addSource(...);方法传入一个对象参数，需要实现SourceFunction接口；返回DataStreamSource。这里的DataStreamSource类继承自SingleOutputStreamOpera

算子 mdash 数据 gt lt

Apache DolphinScheduler 如何实现自动化打包+单机/集群部署？

ApacheDolphinScheduler是一款开源的分布式任务调度系统，旨在帮助用户实现复杂任务的自动化调度和管理。DolphinScheduler支持多种任务类型，可以在单机或集群环境下运行。下面将介绍如何实现DolphinScheduler的自动化打包和单机/集群部署。自动化打包所需环境：maven、jdk执行以下shell完成代码拉取及打包，打包路径：/opt/action/dolphinscheduler/dolphinscheduler-dist/target/apache-dolphinscheduler-dev-SNAPSHOT-bin.tar.gzsudosu-root单机

DolphinScheduler 集群 lt gt property 大数据

Apache Flink——DataStream算子汇总

Transformation数据流转换算子Mapmap可以理解为映射，对每个元素进行一定的变换后，映射为另一个元素。FlatMapflatmap可以理解为将元素摊平，每个元素可以变为0个、1个、或者多个元素。Filterfilter是进行筛选为每个元素评估一个布尔函数，并保留该函数返回true的布尔函数。过滤出零值的过滤器。KeyBy逻辑上将Stream根据指定的Key进行分区，是根据key的散列值进行分区的。在内部，keyBy（）是通过哈希分区实现的。有多种指定密钥的方法。此转换返回一个KeyedStream，除其他事项外，还需要使用keyedstate。在以下情况下，类型不能为键：是POJ

算子 mdash li 操作数据

Apache Doris——物化视图

八、物化视图物化视图就是包含了查询结果的数据库对象，可能是对远程数据的本地copy，也可能是一个表或多表join后结果的行或列的子集，也可能是聚合后的结果。说白了，就是预先存储查询结果的一种数据库对象。在Doris中的物化视图，就是查询结果预先存储起来的特殊的表。物化视图的出现主要是为了满足用户，既能对原始明细数据的任意维度分析，也能快速的对固定维度进行分析查询。适用场景1、分析需求覆盖明细数据查询以及固定维度查询两方面；2、查询仅涉及表中的很小一部分列或行；3、查询包含一些耗时处理操作，比如：时间很久的聚合操作等；4、查询需要匹配不同前缀索引。优势1、对于那些经常重复的使用相同的子查询结果的

物化 mdash 视图查询

217 218 219220221 222 223