草庐IT

Kafka-eagle

全部标签

logstash将Kafka中的日志数据订阅到HDFS

前言:通常情况下,我们将Kafka的日志数据通过logstash订阅输出到ES,然后用Kibana来做可视化分析,这就是我们通常用的ELK日志分析模式。但是基于ELK的日志分析,通常比较常用的是实时分析,日志存个十天半个月都会删掉。那么在一些情况下,我需要将日志数据也存一份到我HDFS,积累到比较久的时间做半年、一年甚至更长时间的大数据分析。下面就来说如何最简单的通过logstash将kafka中的数据订阅一份到hdfs。一:安装logstash(下载tar包安装也行,我直接yum装了)#yum install logstash-2.1.1二:从github上克隆代码#git clone  h

logstash将Kafka中的日志数据订阅到HDFS

前言:通常情况下,我们将Kafka的日志数据通过logstash订阅输出到ES,然后用Kibana来做可视化分析,这就是我们通常用的ELK日志分析模式。但是基于ELK的日志分析,通常比较常用的是实时分析,日志存个十天半个月都会删掉。那么在一些情况下,我需要将日志数据也存一份到我HDFS,积累到比较久的时间做半年、一年甚至更长时间的大数据分析。下面就来说如何最简单的通过logstash将kafka中的数据订阅一份到hdfs。一:安装logstash(下载tar包安装也行,我直接yum装了)#yum install logstash-2.1.1二:从github上克隆代码#git clone  h

基于 Kafka 的实时数仓在搜索的实践应用

一、概述ApacheKafka发展至今,已经是一个很成熟的消息队列组件了,也是大数据生态圈中不可或缺的一员。ApacheKafka社区非常的活跃,通过社区成员不断的贡献代码和迭代项目,使得ApacheKafka功能越发丰富、性能越发稳定,成为企业大数据技术架构解决方案中重要的一环。ApacheKafka作为一个热门消息队列中间件,具备高效可靠的消息处理能力,且拥有非常广泛的应用领域。那么,今天就来聊一聊基于Kafka的实时数仓在搜索的实践应用。二、为什么需要Kafka在设计大数据技术架构之前,通常会做一些技术调研。我们会去思考一下为什么需要Kafka?怎么判断选择的Kafka技术能否满足当前的

基于 Kafka 的实时数仓在搜索的实践应用

一、概述ApacheKafka发展至今,已经是一个很成熟的消息队列组件了,也是大数据生态圈中不可或缺的一员。ApacheKafka社区非常的活跃,通过社区成员不断的贡献代码和迭代项目,使得ApacheKafka功能越发丰富、性能越发稳定,成为企业大数据技术架构解决方案中重要的一环。ApacheKafka作为一个热门消息队列中间件,具备高效可靠的消息处理能力,且拥有非常广泛的应用领域。那么,今天就来聊一聊基于Kafka的实时数仓在搜索的实践应用。二、为什么需要Kafka在设计大数据技术架构之前,通常会做一些技术调研。我们会去思考一下为什么需要Kafka?怎么判断选择的Kafka技术能否满足当前的

kafka分区扩容和修改三个副本数

Kafka是Apache旗下的一款分布式流媒体平台,Kafka是一种高吞吐量、持久性、分布式的发布订阅的消息队列系统。它最初由LinkedIn(领英)公司发布,使用Scala语言编写,与2010年12月份开源,成为Apache的顶级子项目。它主要用于处理消费者规模网站中的所有动作流数据。动作指(网页浏览、搜索和其它用户行动所产生的数据)。​消息系统分类我们知道常见的消息系统有Kafka、RabbitMQ、ActiveMQ等等,但是这些消息系统中所使用的消息模式如下:Peer-to-Peer(Queue)简称PTP队列模式,也可以理解为点到点。例如单发邮件,我发送一封邮件给XuWeiLiang,

kafka分区扩容和修改三个副本数

Kafka是Apache旗下的一款分布式流媒体平台,Kafka是一种高吞吐量、持久性、分布式的发布订阅的消息队列系统。它最初由LinkedIn(领英)公司发布,使用Scala语言编写,与2010年12月份开源,成为Apache的顶级子项目。它主要用于处理消费者规模网站中的所有动作流数据。动作指(网页浏览、搜索和其它用户行动所产生的数据)。​消息系统分类我们知道常见的消息系统有Kafka、RabbitMQ、ActiveMQ等等,但是这些消息系统中所使用的消息模式如下:Peer-to-Peer(Queue)简称PTP队列模式,也可以理解为点到点。例如单发邮件,我发送一封邮件给XuWeiLiang,