草庐IT

apache-falcon

全部标签

A Beginner‘s Guide to Apache Kafka: 什么是Kafka、它为什么如此受欢迎、它在哪些场景下可以应用、以及一些基本概念和术语

作者:禅与计算机程序设计艺术1.简介ApacheKafka(以下简称Kafka)是一个开源分布式流处理平台,它被设计用来实时传输大量的数据,从而能够实时的对数据进行处理并提取价值。本文通过梳理关键词,引导读者了解什么是Kafka、它为什么如此受欢迎、它在哪些场景下可以应用、以及一些基本概念和术语。阅读完本文,读者应该会有一个全面的认识,包括Kafka到底是个什么样的产品、它与其他消息队列产品的区别、为什么要选择Kafka等等。另外,读者还可以在实际应用中发现Kafka所具有的优点,并且知道如何正确的部署和使用它。如果你在寻找一个开源分布式流处理平台,或者正在构建基于Kafka的系统,那么你需要

重构实时离线一体化数仓,Apache Doris 在思必驰的应用实践

作者:赵伟,思必驰大数据高级研发,10年大数据开发和设计经验,负责大数据平台基础技术和OLAP分析技术开发。社区贡献:Doris-spark-connector的实时读写和优化。业务背景思必驰是国内专业的对话式人工智能平台公司,拥有全链路的智能语音语言技术,致力于成为全链路智能语音及语言交互的平台型企业,自主研发了新一代人机交互平台DUI和人工智能芯片TH1520,为车联网、IoT及政务、金融等众多行业场景合作伙伴提供自然语言交互解决方案。思必驰于2019年首次引入ApacheDoris,基于ApacheDoris构建了实时与离线一体的数仓架构。相对于过去架构,ApacheDoris凭借其灵活

Apache Doris (四) :Doris分布式部署(一) FE部署及启动

目录1.ApacheDoris下载2.节点划分3. 节点配置​​​​​​​4. FE部署及启动​​​​​进入正文之前,欢迎订阅专题、对博文点赞、评论、收藏,关注IT贫道,获取高质量博客内容!部署ApacheDoris时需要分别部署FE、BE、Broker。然后再建立FE,BE两者关系。ApacheDoris中部署多FE的思路为先在一台节点上配置部署一个FE并启动,相当于是启动Doris服务,然后配置更多的FE节点,添加到Doris服务中给该Doris的FE进行扩容,最终形成多节点FE。FE又分为Leader、Follwer和Observer三种角色,多节点FE中首先启动的FE节点自动为Lead

03Apache Solr 远程命令执行漏洞(CVE-2019-0193)

文章目录0x01漏洞介绍0x02影响版本0x03漏洞编号0x04漏洞查询0x05漏洞环境0x06漏洞复现0x07修复建议摘抄0x01漏洞介绍ApacheSolr是一个开源的搜索服务器。Solr使用Java语言开发,主要基于HTTP和ApacheLucene实现。此次漏洞出现在ApacheSolr的DataImportHandler,该模块是一个可选但常用的模块,用于从数据库和其他源中提取数据。它具有一个功能,其中所有的DIH配置都可以通过外部请求的dataConfig参数来设置。由于DIH配置可以包含脚本,因此攻击者可以通过构造危险的请求,从而造成远程命令执行。0x02影响版本ApacheSo

Apache IoTDB 查询引擎源码阅读——DataNode 上 DriverTask 调度与执行

背景ApacheIoTDB查询引擎目前采用MPP架构,一条查询SQL大致会经历下图几个阶段:imageFragmentInstance是分布式计划被拆分后实际分发到各个节点进行执行的实例。由于每个节点会同时接收来自于多个并发Query的多个FragmentInstance,这些FragmentInstance在执行时可能由于等待上游数据而处于阻塞状态、或者数据就绪可以执行、或者超时需要被取消。因此,需要一个较为合理的调度策略,保证在分配给FragmentInstance的有限资源内,能够满足高并发的查询需求,同时尽可能避免出现饿死或者死锁情况。在具体实现中,查询引擎里真正执行查询计算的算子树O

org.apache.kafka.common.errors.TimeoutException:Topic xxx not present in metadata after 60000ms.

1.发现问题:服务中向kafka的一个topic发送消息,报了这个错误org.apache.kafka.common.errors.TimeoutException:Topicxxxnotpresentinmetadataafter60000ms.2.排查思路:手动连接kafka,打开两个窗口一个向xxx这个topic发送消息,另一个看能否正常消费消息。窗口1:执行发送消息命令bin/kafka-console-producer.sh--broker-list192.168.65.60:9092,192.168.65.60:9093,192.168.65.60:9094--topicxxx窗口

Apache Flink——数据源算子(Source)

前言Flink可以从各种来源获取数据,然后构建DataStream进行转换处理。一般将数据的输入来源称为数据源(datasource),而读取数据的算子就是源算子(sourceoperator)。所以,source就是我们整个处理程序的输入端。Flink代码中通用的添加source的方式,是调用执行环境的addSource()方法:DataStreamstream=env.addSource(...);方法传入一个对象参数,需要实现SourceFunction接口;返回DataStreamSource。这里的DataStreamSource类继承自SingleOutputStreamOpera

Apache DolphinScheduler 如何实现自动化打包+单机/集群部署?

ApacheDolphinScheduler是一款开源的分布式任务调度系统,旨在帮助用户实现复杂任务的自动化调度和管理。DolphinScheduler支持多种任务类型,可以在单机或集群环境下运行。下面将介绍如何实现DolphinScheduler的自动化打包和单机/集群部署。自动化打包所需环境:maven、jdk执行以下shell完成代码拉取及打包,打包路径:/opt/action/dolphinscheduler/dolphinscheduler-dist/target/apache-dolphinscheduler-dev-SNAPSHOT-bin.tar.gzsudosu-root单机

Apache Flink——DataStream算子汇总

Transformation数据流转换算子Mapmap可以理解为映射,对每个元素进行一定的变换后,映射为另一个元素。FlatMapflatmap可以理解为将元素摊平,每个元素可以变为0个、1个、或者多个元素。Filterfilter是进行筛选为每个元素评估一个布尔函数,并保留该函数返回true的布尔函数。过滤出零值的过滤器。KeyBy逻辑上将Stream根据指定的Key进行分区,是根据key的散列值进行分区的。在内部,keyBy()是通过哈希分区实现的。有多种指定密钥的方法。此转换返回一个KeyedStream,除其他事项外,还需要使用keyedstate。在以下情况下,类型不能为键:是POJ

Apache Doris——物化视图

八、物化视图物化视图就是包含了查询结果的数据库对象,可能是对远程数据的本地copy,也可能是一个表或多表join后结果的行或列的子集,也可能是聚合后的结果。说白了,就是预先存储查询结果的一种数据库对象。在Doris中的物化视图,就是查询结果预先存储起来的特殊的表。物化视图的出现主要是为了满足用户,既能对原始明细数据的任意维度分析,也能快速的对固定维度进行分析查询。适用场景1、分析需求覆盖明细数据查询以及固定维度查询两方面;2、查询仅涉及表中的很小一部分列或行;3、查询包含一些耗时处理操作,比如:时间很久的聚合操作等;4、查询需要匹配不同前缀索引。优势1、对于那些经常重复的使用相同的子查询结果的