基本信息:Centos-7.9、Java-1.8、Python-3.9、Scala-2.12、Hadoop-3.2.1、Spark-3.1.2、Flink-1.13.1、Hive-3.1.3、Zookeeper-3.8.0、Kafka-3.2.0、Nginx-1.23.1目录一、相关文件下载地址二、虚拟机基础配置三、语言环境安装1.Java环境安装2.Python环境安装3.Scala环境安装四、大数据组件安装1.Hadoop集群安装2.MySQL安装3.Spark安装4.Flink安装5.Hive安装6.Zookeeper安装7.Kafka安装8.Nginx安装五、过程中存在的问题1.环境配
官方文档:https://kafka.apache.org/24/documentation.html#brokerconfigs1.Kafka适用场景日志收集:一个公司可以用Kafka收集各种服务的log,通过kafka以统一接口服务的方式开放给各种consumer,例如hadoop、Hbase、Solr等。消息系统:解耦和生产者和消费者、缓存消息等。用户活动跟踪:Kafka经常被用来记录web用户或者app用户的各种活动,如浏览网页、搜索、点击等活动,这些活动信息被各个服务器发布到kafka的topic中,然后订阅者通过订阅这些topic来做实时的监控分析,或者装载到hadoop、数据仓库
KafkaEagle是一款结合了目前大数据Kafka监控工具的特点,重新研发的一块开源免费的Kafka集群优秀的监控工具。它可以非常方便的监控生产环境中的offset、lag变化、partition分布、owner等。官方网址:EFAK点击下载,将安装包下载到电脑本地,然后再借助工具上传到服务器或者虚拟机中:新建mkdirkafka_eagle文件夹,将安装包上传到该文件夹下:tar-zxvfkafka-eagle-bin-3.0.1.tar.gz继续解压:tar-zxvfefak-web-3.0.1-bin.tar.gz配置kafka_eagle环境变量:sudovim/et
使用finksql方式将mysql数据同步到kafka中,每次只能同步一张表packageflink;importorg.apache.flink.streaming.api.environment.StreamExecutionEnvironment;importorg.apache.flink.table.api.TableResult;importorg.apache.flink.table.api.bridge.java.StreamTableEnvironment;publicclassFlinkSQL_CDC{publicstaticvoidmain(String[]args)th
Kafka连接器提供从Kafkatopic中消费和写入数据的能力。前面已经介绍了flinksql创建表的语法及说明:【flinksql】创建表这篇博客聊聊怎么通过flinksql连接kafka创建kafka表示例CREATETABLEKafkaTable(`user_id`BIGINT,`item_id`BIGINT,`behavior`STRING,`ts`TIMESTAMP(3)METADATAFROM'timestamp')WITH('connector'='kafka','topic'='user_behavior','properties.bootstrap.servers'='ma
Kafka之常用参数配置整理一、Broker端参数1、存储2、Zookeeper3、连接4、Topic管理5、数据留存二、Topic级别参数三、JVM参数四、操作系统参数一、Broker端参数1、存储log.dirs:指定broker使用的若干个文件目录路径。(无默认值,必须指定)log.dir:配置单个路径,用于上个参数的补充。通常情况下,我们只需要设置log.dirs即可。而且建议配置多个路径,比如:/home/kafka1,/home/kafka2,/home/kafka3。并且,如果条件允许,最好将这些目录挂载到不同的物理磁盘。这样做有两个好处:提升读写性能。多块物理磁盘同时读写数据具
broker-listbroker:kafka服务端,可以是一个服务器也可以是一个集群。producer和consumer都相当于这个服务端的客户端。broker-list:指定集群中的一个或多个服务器,一般在使用kafka-console-producer.sh的时候,这个参数是必备参数,另外一个必备的参数是topic。bootstrap-serversvszookeeperbootstrap-servers指的是目标集群的服务器地址,这和broker-list功能一样,不过在consoleproducer要求用broker-list。1、以前用consoleconsumer测试消息收发时会
目录1、添加pom依赖2、API使用说明3、这是一个完整的入门案例4、Kafka消息应该如何解析4.1、只获取Kafka消息的value部分4.2、获取完整Kafka消息(key、value、Metadata)4.3、自定义Kafka消息解析器5、起始消费位点应该如何设置5.1、earliest()5.2、latest()5.3、timestamp()6、Kafka分区扩容了,该怎么办——动态分区检查7、在加载KafkaSource时提取事件时间&添加水位线7.1、使用内置的单调递增的水位线生成器+kafka timestamp为事件时间7.2、使用内置的单调递增的水位线生成器+kafka
好文推荐:2.5万字详解23种设计模式基于Netty搭建websocket集群实现服务器消息推送2.5万字讲解DDD领域驱动设计文章目录一、延时队列定义二、应用场景三、技术实现方案:1.Redis2.Kafka3.RabbitMQ4.RocketMQ四、Kafka延时队列背景五、Kafka延时队列实现思路六、Kafka延时队列架构图七、kafka延时任务代码实现1.KafkaSyncConsumer:Kafka消费者2.KafkaDelayQueue:Kafka延迟队列3.KafkaDelayQueueFactory:Kafka延迟队列工厂4.KafkaPollListener:Kafka延迟
Springboot配置使用Kafka前言一、Linux安装Kafka二、构建项目三、引入依赖四、配置文件生产者yml方式Config方式消费者yml方式Config方式五、开始写代码生产者发送成功回调和异常处理消费者接收异常处理七、开始测试测试普通单条消息测试消费者异常处理测试延时消息测试批量消息测试手动控制消费者监听总结前言不多BB讲原理,只教你怎么用,看了全网没有比我更详细的了,yml配置,Config工厂代码配置都有,batch-size、acks、offset、auto-commit、trusted-packages、poll-timeout、linger应有尽有,批量消费、开启事务