前言:通常情况下,我们将Kafka的日志数据通过logstash订阅输出到ES,然后用Kibana来做可视化分析,这就是我们通常用的ELK日志分析模式。但是基于ELK的日志分析,通常比较常用的是实时分析,日志存个十天半个月都会删掉。那么在一些情况下,我需要将日志数据也存一份到我HDFS,积累到比较久的时间做半年、一年甚至更长时间的大数据分析。下面就来说如何最简单的通过logstash将kafka中的数据订阅一份到hdfs。一:安装logstash(下载tar包安装也行,我直接yum装了)#yum install logstash-2.1.1二:从github上克隆代码#git clone h
说明:本来研究开源日志的系统是flume,后来发现配置比较麻烦,网上搜索到fluentd也是开源的日志收集系统,配置简单多了,性能不错,所以就改研究这个东东了!官方主页,大家可以看看:fluentd.org,支持300+的plugins,应该是不错的!fluentd是通过hadoop中的webHDFS与HDFS进行通信的,所以在配置fluentd时,一定要保证webHDFS能正常通信,和通过webHDFS写数据到hdfs中!原理图如下:webHDFS的相关配置与测试,请看这篇文章:http://shineforever.blog.51cto.com/1429204/1585942安装环境大致说
说明:本来研究开源日志的系统是flume,后来发现配置比较麻烦,网上搜索到fluentd也是开源的日志收集系统,配置简单多了,性能不错,所以就改研究这个东东了!官方主页,大家可以看看:fluentd.org,支持300+的plugins,应该是不错的!fluentd是通过hadoop中的webHDFS与HDFS进行通信的,所以在配置fluentd时,一定要保证webHDFS能正常通信,和通过webHDFS写数据到hdfs中!原理图如下:webHDFS的相关配置与测试,请看这篇文章:http://shineforever.blog.51cto.com/1429204/1585942安装环境大致说
摘要:HDFS也许不是最好的大数据存储技术,但依然是最重要的大数据存储技术。本文分享自华为云社区《HDFS为何在大数据领域经久不衰?》,作者:JavaEdge。1、概述1.1简介Hadoop实现的一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS源自于Google的GFS论文,发表于2003年,HDFS是GFS的克隆版大数据中最宝贵、最难以代替的就是数据,一切都围绕数据。HDFS是最早的大数据存储系统,存储着宝贵的数据资产,各种新算法、框架要想得到广泛使用,必须支持HDFS,才能获取已存储在里面的数据。所以大数据技术越发展,新技术越多,HDFS得
摘要:HDFS也许不是最好的大数据存储技术,但依然是最重要的大数据存储技术。本文分享自华为云社区《HDFS为何在大数据领域经久不衰?》,作者:JavaEdge。1、概述1.1简介Hadoop实现的一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS源自于Google的GFS论文,发表于2003年,HDFS是GFS的克隆版大数据中最宝贵、最难以代替的就是数据,一切都围绕数据。HDFS是最早的大数据存储系统,存储着宝贵的数据资产,各种新算法、框架要想得到广泛使用,必须支持HDFS,才能获取已存储在里面的数据。所以大数据技术越发展,新技术越多,HDFS得
1HDFS概述1.1HDFS产出背景及定义随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。HDFS(HadoopDistributedFileSystem),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的使用场景:适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。1.2HDFS优缺点优
1HDFS概述1.1HDFS产出背景及定义随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。HDFS(HadoopDistributedFileSystem),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的使用场景:适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。1.2HDFS优缺点优
一、概述 之前写过一篇非常详细的,利用QJM在HDFS2.0部署HA策略的文章,主要说了利用QJM进行HA部署以及其原理(http://zengzhaozheng.blog.51cto.com/8219051/1441170 )。但是,其中没有详细描述HADOOP2.x通过QJM部署HA完毕之后,ActiveNamenode和StandbyNamenode之间的元数据运行机制,实际上由于2.x的HA策略的引入,其元数据的运行机制和1.x比起来已经有了很大的不同。写这篇blog的目的主要是为了对hadoop1.x和hadoop2.x的元数据运行机制进行比较,当是自己的笔记吧。二、fsp_w
一、概述 之前写过一篇非常详细的,利用QJM在HDFS2.0部署HA策略的文章,主要说了利用QJM进行HA部署以及其原理(http://zengzhaozheng.blog.51cto.com/8219051/1441170 )。但是,其中没有详细描述HADOOP2.x通过QJM部署HA完毕之后,ActiveNamenode和StandbyNamenode之间的元数据运行机制,实际上由于2.x的HA策略的引入,其元数据的运行机制和1.x比起来已经有了很大的不同。写这篇blog的目的主要是为了对hadoop1.x和hadoop2.x的元数据运行机制进行比较,当是自己的笔记吧。二、fsp_w
部署完全分布式高可用HadoophdfsHA+yarnHA标签(空格分隔):大数据运维专栏一:hadoopHDFSHA与yarnHA的概述二:部署环境概述三:部署zookeeper四:部署HDFSHA与yarnHA五:关于HA的测试一:hadoopHDFSHA与yarnHA的概述1.1HA的概述HA概述1)所谓HA(HighAvailable),即高可用(7*24小时不中断服务)。2)实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。3)Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF)。4)NameNo