草庐IT

Flink 数据集成服务在小红书的降本增效实践

摘要:本文整理自实时引擎研发工程师袁奎,在FlinkForwardAsia2022数据集成专场的分享。本篇内容主要分为四个部分:小红书实时服务降本增效背景Flink与在离线混部实践实践过程中遇到的问题及解决方案未来展望点击查看原文视频&演讲PPT一、小红书实时服务降本增效背景1.1小红书Flink使用场景特点小红书的Flink特点包含以下三条:第一,云原生,复杂的多云、海内外架构。小红书从成立之初就将所有的技术体系全部搭建在公有云上,是真正意义上云的原住民。我们与多家云厂商都有合作,比如AWS,腾讯云,华为云,阿里云等等。经过多年的发展,业务数据也分布到了不同的云厂商下。云原生本身就会带来天然

Flink CDC系列之:TiDB CDC 导入 Elasticsearch

FlinkCDC系列之:TiDBCDC导入Elasticsearch一、通过docker来启动TiDB集群二、下载Flink和所需要的依赖包三、在TiDB数据库中创建表和准备数据四、启动Flink集群,再启动SQLCLI五、在FlinkSQLCLI中使用FlinkDDL创建表六、Kibana查看ElasticSearch数据七、在TiDB增删改数据,观察ElasticSearch中的结果一、通过docker来启动TiDB集群gitclonehttps://github.com/pingcap/tidb-docker-compose.git替换目录tidb-docker-compose里面的do

flink任务性能优化

1、使用异步算子,异步执行操作2、将下游数据需要的数据以参数的形式向下传递3、当服务器资源有限的情况下,慎用RocksDBStateBackendRocksDBStateBackendperformancewillbepoorbecauseofthecurrentFlinkmemoryconfiguration!RocksDBwillflushmemtableconstantly,causinghighIOandCPU.Typicallytheeasiestfixistoincreasetaskmanagermanagedmemorysize.Ifrunninglocally,seethepa

Flink源码之JobManager启动流程

从启动命令flink-daemon.sh中可以看出StandaloneSession入口类为org.apache.flink.runtime.entrypoint.StandaloneSessionClusterEntrypoint,从该类的main方法会进入ClusterEntrypoint::runCluster中,该方法中会创建出主要服务和组件。StandaloneSessionClusterEntrypoint::mainClusterEntrypoint::runClusterEntrypointClusterEntrypoint::startClusterClusterEntryp

Flink常用方法使用案例总结

目录Flink常用方法使用案例1.数据源1.1.Socket1.2.文件1.3.Kafka2.数据转换2.1.Map2.2.FlatMap2.3.Filter2.4.KeyBy3.数据聚合3.1.Reduce3.2.Aggregations4.数据输出4.1.Print4.2.WriteAsText4.3.WriteToSocket5.执行任务5.1.ExecutionEnvironment5.2.StreamExecutionEnvironment5.3.execute6.总结Flink常用方法使用案例本文介绍了Flink中常用的方法,并提供了相应的使用案例。1.数据源1.1.Socket从

flink正常消费kafka数据,flink没有做checkpoint,kafka位点没有提交

1、背景flink消费kafka数据,多并发,实现双流join2、现象(1)flink任务消费kafka数据,其中数据正常消费,kafka显示消息堆积,位点没有提交,并且flink任务没有做checkpoint(2)其中一个流的subtask显示finished(3)无背压3、问题原因(1)其中一个topic分区为1(2)配置的并行度大于kafka的partition数,导致有部分subtask空闲,然后状态变为finished在CheckpointCoordinator类的triggerCheckpoint方法中有如下代码段//checkifalltasksthatweneedtotrigg

11、Flink配置flink-conf.yaml详细说明(HA配置、checkpoint、web、安全、zookeeper、historyserver、workers、zoo.cfg)

Flink系列文章1、Flink1.12.7或1.13.5详细介绍及本地安装部署、验证2、Flink1.13.5二种部署方式(Standalone、StandaloneHA)、四种提交任务方式(前两种及session和per-job)验证详细步骤3、flink重要概念(api分层、角色、执行流程、执行图和编程模型)及dataset、datastream详细示例入门和提交任务至onyarn运行4、介绍Flink的流批一体、transformations的18种算子详细介绍、Flink与Kafka的source、sink介绍5、Flink的source、transformations、sink的详

Flink之JDBC Sink

这里介绍一下FlinkSink中jdbcsink的使用方法,以mysql为例,这里代码分为两种,事务和非事务非事务代码importorg.apache.flink.connector.jdbc.JdbcConnectionOptions;importorg.apache.flink.connector.jdbc.JdbcExecutionOptions;importorg.apache.flink.connector.jdbc.JdbcSink;importorg.apache.flink.connector.jdbc.JdbcStatementBuilder;importorg.apache

Hudi Flink SQL源码调试学习(一)

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站:https://www.captainai.net/dongkelun前言本着学习hudi-flink源码的目的,利用之前总结的文章HudiFlinkSQL代码示例及本地调试中的代码进行调试,记录调试学习过程中主要的步骤及对应源码片段。版本Flink1.15.4Hudi0.13.0目标在文章HudiFlinkSQL代码示例及本地调试中提到:我们发现TableAPI的入口和DataStreamAPI的入口差不多,DataStreamAPI的入口是在HoodiePipeline的sink和source

如何使用Spark/Flink等分布式计算引擎做网络入侵检测

如何使用Spark/Flink等分布式计算引擎做网络入侵检测引言16DistributedAbnormalBehaviorDetectionApproachBasedonDeepBeliefNetworkandEnsembleSVMUsingSpark17SparkconfigurationstooptimizedecisiontreeclassificationonUNSW-NB1518Adynamicspark-basedclassificationframeworkforimbalancedbigdata19Areviewofbigdatainnetworkintrusiondetect